当前位置:首页|资讯|教育|OpenAI

对话多邻国Duolingo:超5亿人用的语言学习APP,想用AI实现教育普惠|36氪专访

作者:沈筱发布时间:2023-07-25

文|沈筱

编辑|王与桐

在生成式AI技术浪潮下,教育普惠到底是噱头,还是未来可期?

利用AI技术降低用户获取高质量、个性化教育的门槛是AI+教育赛道企业的共同愿景。而GPT-4在法律知识、数学推理等方面的出色表现,也的确展示了生成式AI技术变革教育领域的潜力。

教育,显然也是OpenAI选中的落地大语言模型的理想场景之一。除了通过OpenAI Startup Fund投资英语学习平台「Speak」。「多邻国」就是OpenAI官网公布的首批GPT-4用例中唯二的教育科技公司。

放眼国内,近期,猿辅导、作业帮,以及网易有道、科大讯飞等也陆续宣布了有关生成式AI技术在教育领域应用的新进展。除了研发教育行业垂直模型,AI口语老师、AI学习机,多款新产品应接不暇。

然而,这仅仅是个开端。

在实现教育普惠这一愿景的道路上,究竟如何将新技术用在具体场景中,解决何种问题,都还没有完美答案。同时,如何在新技术商业化和教育普惠愿景之间达成微妙平衡,或许也是赛道企业需要思考的问题。

一方面,新技术应用涉及前期研发投入;另一方面,现阶段调用外部大型语言模型仍不便宜。正如多邻国联合创始人兼CEO Luis von Ahn在2023年Q1财报电话会中所言,基于GPT-4开发的新功能目前只能保留在最高付费层,要普惠更多用户,一方面可能尚需等待模型调用成本显著下降;另一方面,针对免费层应该做什么事情,还需要持续探索。

那么,作为推出GPT-4首批用例的教育科技公司,多邻国是如何利用生成式AI技术的?和此前AI技术应用实践相比,有何不同?以及如何看待新技术在其实现“为全世界提供平等且优质的教育机会”愿景过程中的作用?

带着上述问题,36氪与多邻国人工智能负责人Klinton Bicknell、软件工程师主管Bill Peterson,以及亚太地区市场总监向海纳进行了深入交流。

多邻国成立于2012年,从教育科技行业独角兽到登陆纳斯达克,多邻国已经在AI语言学习赛道运营11年。

据介绍,从2021年开始,多邻国就与OpenAI达成合作。目前,公司已经将GPT-3应用于多邻国英语测试(Duolingo English Test,DET)业务,并基于GPT-4开发了Explain My Answer和Roleplay两个语言学习新功能,推出了新的付费层「Duolingo Max」。此外,OpenAI模型还被多邻国用于生成课程内容、教学材料,以及为部分课程中的用户写作提供反馈。

目前,多邻国尚未公布有关Duolingo Max的具体数据表现,但Luis von Ahn此前表示,公司看好其增长情况。

总结来看,利用生成式AI技术,多邻国距离提供千人千面的个性化语言学习服务又进了一步。过去,多邻国基于自研AI模型实现课程定制化的逻辑主要是供需匹配。也就是,为每个用户推送适合其语言水平的课程内容,并根据用户当前学习状况,如对特定学习内容的熟悉程度,自动创建相应练习,并在特定时间予以展示。

这样的定制化是基于规则的,并不具备真实语言运用场景中的灵活性和延展性。而按照向海纳的说法,随着与OpenAI的合作,多邻国正在使学习过程中的互动体验也变得定制化。例如,基于GPT-4开发的Roleplay功能可以为用户提供专属的情景对话体验。

同时,有了LLM,多邻国更广泛地采用了“human-in-the-loop”的开发方式,AI模型在课程内容生成等更多环节中替换了人力。这缩短了课程研发,以及DET测试题目开发的周期,为教学专家腾出了聚焦创新的时间和精力。在此基础上,公司也获得了研发跨学科、跨语种课程内容的机会。据介绍,多邻国或将于今年下半年推出高阶英文学习课程。

而“human-in-the-loop”在一定程度上也解决了LLM目前存在的幻觉等问题。Bill Peterson认为,利用LLM开发产品原型并不难,难点在于如何确保应用LLM开发的产品符合多邻国对准确性和内容质量的要求。因此,除了专家团队的参与,在专业性问题上,例如Explain My Answer功能,多邻国自研的AI模型也发挥了不可或缺的作用。

同时,多邻国曾在多个公开场合表示,生成式AI技术使得他们距离“为全世界提供平等且优质的教育机会”更进一步。谈及在新技术应用带来新增研发和运营成本的情况下,如何惠及更多用户,Klinton Bicknell告诉36氪,公司正在探索如何让免费用户也能体验新技术的方法。Bill Peterson则表示,课程创作速度、质量的提升,意味着免费用户也正在从多邻国与OpenAI的合作中受益。

亚太地区市场总监向海纳,从0到1搭建了中国和东南亚市场营销团队,是多邻国增长团队的负责人之一;人工智能负责人Klinton Bicknell长期从事人工智能和认知科学的交叉领域研究,加入多邻国前曾任西北大学助理教授;软件工程师主管Bill Peterson兼任Duolingo Max产品工程主管,曾多次主导多邻国盈利项目的产品研发、技术设施搭建以及人工智能团队的工作。

以下是此次访谈的交流实录,经36氪编辑:

01 未对OpenAI模型微调,人机协同+自有AI模型确保输出质量

36氪:是什么促成了Duolingo和OpenAI的紧密合作?

向海纳:GPT3、GPT4出来时,我们看到了他们的Demo,内部团队是非常震撼的。当时觉得这么前沿的技术,一定要尽快看看能不能利用起来,一起做一些尝试,尤其是过去多邻国想做,但受限于技术而没能做的事情。

从OpenAI的角度,据我了解,他们会在每个行业里选择最Top的合作伙伴。多邻国在全球的语言教育领域还是比较有知名度的。

36氪:能否简单介绍Duolingo和OpenAI合作的情况?

Bill Peterson: 多邻国是OpenAI长期合作的伙伴。GPT-4是一个出色的工具,能够生成精妙的回答。但是,GPT-4本身并不具备打造高质量的语言课程所需要的专业知识。在这方面,多邻国的教学专家团队起着关键作用。此前,多邻国的海量数据和落地场景,也在帮助OpenAI优化GPT-4的表现。

对多邻国而言,GPT-4加持下,Duolingo Max帮助多邻国提供更高质量的教学内容,AIGC也让多邻国的学习体验变得更加有效、有趣;通过使用GPT-3,多邻国英语测试(DET)生成测试题目的速度也显著提升,确保考试权威、公平、安全。

36氪:为什么选定上线Explain My Answer和Roleplay这两个新的功能?在研发之初是如何构思的?

Bill Peterson: 基于多年的用户研究和洞察,我们了解到语言学习者的两个主要需求,一是用户希望了解他们正在学习的语言背后的规则是什么;二是用户普遍希望在真实场景中,练习他们的语言技能。

依托先进的对话形式与语言模型,ChatGPT能够很好地满足这两大需求。再结合多邻国在语言教学的积淀,以及海量课程积累的数据,这两个新功能是我们面向全球用户,打造更好的个性化学习体验的第一步。

36氪:将OpenAI模型用于DET或其他业务中又是如何考虑的?

Klinton Bicknell:我们一直致力于利用机器学习,以及OpenAI模型将专家团队从地创新性和重复工作中解放出来。比如,过去DET考试内容主要由专家团队编写,十分耗费时间、精力。目前,DET在测试的每个步骤都使用AI,包括:生成测试题目、确保考试难度自适应,以及确保测试的公正、安全。其中,GPT-3主要用于生成阅读理解题目的文本段落,多邻国自有的AI模型,则负责帮助监考员监测和识别潜在的作弊行为。

除了Duolingo Max和DET,我们还使用GPT来生成课程内容,产出大量教学材料,来更快速地开发课程。比如,利用GPT生成大量的教学句子,和多样化的闯关题目。同时,我们还在APP的部分课程中对用户们的写作进行反馈——在用户使用“小故事”功能后,会被要求进行写作练习,这时OpenAI模型就会提供反馈建议。

36氪:在新产品/功能开发过程中,技术层面有哪些难点?Duolingo如何解决的?

Bill Peterson: 我们可以简单分享GPT-4/LLMs应用方面的难点。多邻国非常注重课程的正确性和质量,因此在将模型应用于更多语种时,我们会很谨慎。多邻国借助教学专家的力量,来评估GPT-4在每种语言中的输出质量。目前Duolingo Max主要应用在英语、西班牙语和法语内容,暂时还没有纳入更多语种。

36氪:提到正确性和质量,目前大模型仍存在幻觉。多邻国具体如何解决这个问题?

Bill Peterson: 正如刚刚提到的,我们在产品很多环节,采用了“人机协同(human-in-the-loop)”的方式,邀请教学专家参与,确保学习内容准确、有吸引力。

例如,Roleplay功能的情景由多邻国教学专家撰写。他们编写面向AI的提示(prompt),确保场景对话主题与用户正在学习的内容息息相关,而且涉及相关的语法和词汇。教学专家的任务包括编写角色扮演模块的标题、场景设置、对话的情景缘起、以及初始对话消息。

另外,教学专家也帮助调整Roleplay功能的审核提示。我们有一个借助手动标注的数据训练出来的模型。例如,我们使用几千个手动标注的回答作为判断基础,评估新生成的对话内容是否恰当。

此外,在Explain My Answer功能中,教学专家们也会对AI生成的解释进行调整和反馈。

我们会定期检查GPT-4输出的回答,由课程设计师和其他专家为事实准确性、风格、话题相关性打分,由此调整提示和模型。

36氪:之前在其他访谈中,多邻国提到利用GPT-4做出产品原型只用了一天,但后续还花费了大量精力来确保原型出错。多邻国对OpenAI的模型有进行微调吗?除了人工检查,是否采取了其他方式来解决幻觉问题?

Bill Peterson: 我们目前并未对OpenAI的模型本身进行任何更新。但是,在应用过程中,我们会把它与多邻国自建的AI工具相结合,以优化用户体验。在需要事实性语言要素的应用场景里,例如在Explain My Answer功能中,多邻国自有的AI模型,会占主导功能,负责提供专业的信息,并将对话和交互要素分配给GPT-4等模型。

未来,如果可行,我们期待和OpenAI密切合作,构建多邻国独立的模型。这将帮助多邻国更好地匹配应用情景,并保持其专属性,避免受到外在影响。

02 LLM加速研发,高阶英文课程正在路上

36氪:刚刚提到多邻国自有的AI模型,具体而言,在和OpenAI合作前,多邻国是如何应用AI技术的?

Klinton Bicknell:从创立之初,我们就在许多领域使用AI。

一是优化我们向用户发送的个性化学习提醒消息,鼓励大家坚持学习;

二是在课程方面,比如用于纠正用户的语法错误,以及为多邻国的动画人物角色生成个性化的TTS(文本转语音);

三是用于优化用户学习体验。预测用户的语言掌握情况,判定接下来应该练习哪部分的语法、词汇等。

多邻国有一个很重要的AI模型「Birdbrain」。它能够自动从专家编写、审核和翻译的内容中自动抽取适合用户的题目,确保用户遇到的闯关题目难度适中,不会因为太简单而枯燥乏味。

36氪:听起来Birdbrain等自研模型承担了之前课程定制化的任务。这样的定制化和有了OpenAI模型之后有何不同?

向海纳:过去的课程定制,每个人在APP上看到的学习内容可能是不一样的。学习节奏、学习时间轴,以及推给用户学习的课程内容,会匹配他现在的语言学习阶段。

刚刚提到的Birdbrain就是用来控制闯关题目正确率的,如果犯错太多,说明内容推送太难,用户很容易没有学习动力,每次打开APP都很有心理压力,这肯定不是我们想要的。另一方面,如果每次做全对,用户也会觉得没有挑战,太轻松了,得不到提升。所以我们一般会把正确率控制在百分之七、八十左右。让用户觉得既比较有成就感,同时又能让他在练习过程中,还有进步的空间。

随着和OpenAI的合作,我们发现除了学习内容,学习过程中的互动体验也可以变得定制化,一个非常实际的例子是Roleplay。

36氪:除此之外,生成式AI技术是否为多邻国带来了其他方面的助益?

Klinton Bicknell:GPT-4帮助我们在更深入投资自有模型之前,就可以快速构建AI应用原型,验证落地场景。

向海纳:我们内部也在探索利用生成式AI技术优化其他工作流,比如加速动画生成和制作。动画和IP人物是让多邻国变得有趣的核心。

另外,在课程研发和规模化方面,我们可以在开发更多更高阶学习课程方面有更大的发力。因为有了大模型,这部分内容的开发时间可以大幅缩短,人机结合的效率和效果会更好,可以在更短时间内实现规模化。同时,开发质量也会有提升,专家团队能把精力放在创新上。当然如何更好地运用技术,我们现在也还处于探索的过程中。

高阶课程是多邻国目前的一个重要战略方向,我们现在正在集中精力做英语这门课程的高阶学习内容。在今年下半年会做正式官宣。

36氪:多邻国希望在高阶课程和现有的业务之间达成什么联系?

向海纳:我相信是高阶课程会对一些现有业务有反哺作用。比如和多邻国英语测试(DET)之间,用户重合度可能会越来越高。DET现在的增长也非常迅速,绝大部分的同学在考英文测试时,实际上也对英文学习有中高阶的要求。所以在一定程度上,这部分学习内容的提供可能会反哺DET这样的业务。

但需要澄清一点,我们开发的高级课程,并不是为应试而生的,也就是不会为了DET开发相应的课程内容。我们的目的是真正提升英文的实际使用能力。这两个不同目的下,题型设计也是非常不同的。

36氪:多邻国也说过可能会去探索一些除了语言学习之外的领域。在有了生成式AI技术的帮助后,是不是会加速公司拓展新的领域?

向海纳:是的。首先多邻国现在的确在探索除了语言学习之外的教学领域。我们已经开发了数学学习的App,当然除此之外,也在探索其他的一些学科。我们应该会在今年下半年做正式的发布,现在就不过多剧透了。

36氪:GPT-4这类LLM和Duolingo原有的AI模型有没有一定的替代性?

Klinton Bicknell:更多还是互补的。我们认为,出色的“教师”需要具备以下三个特质,深刻理解所教授的知识、让学习者保持参与热情、洞悉学习者的掌握情况。我们自研的AI系统就具备了这三个特质。但正如之前说到的,GPT-4本身并不具备这些特征,要为每个学习者量身定制更有交互性、个性化的体验,我们需要把GPT-4这样的大型语言模型,与多邻国海量数据训练出的自有模型相结合。

03 免费用户间接受益

36氪:多邻国一直强调游戏化、有趣,走到高阶的课程,对这部分内容有需求的用户,他的付费心智或者需求痛点会不会不同?比如以前是为兴趣而学,现在更重视课程质量、体系和技巧性的东西。多邻国未来怎么平衡游戏化和功能性?

向海纳:有趣和有效之间并不矛盾。有效的学习不一定要以一种辛苦、沉闷的方式来实现。在多邻国看来,这两件事可以达到比较有效的平衡,或者可以做到兼得。

当然到了高阶后,我们希望,也在探索沿用游戏化、轻松的学习方式,让学习内容具有互动性、趣味性。无论是多样的答题方式还是小玩偶的IP、动画的制作,我们都希望让学习的体验变得有趣,让大家在答题过程中,通过互动或游戏化的激励方式,不断得到适当反馈。还可以通过排行榜的方式跟其他用户PK。

36氪:多邻国作为GPT-4的首批合作伙伴,能够迅速应用新技术。但GPT4发布时,OpenAI着重强调了模型在知识、助力教育方面的能力,今年年底据说也会发布OpenAI学院平台,会不会担心未来有正面竞争?或者有没有进一步的合作计划?

向海纳:OpenAI本身的策略和规划,我们很难去评价。但可以看到,已经有越来越多的玩家入局。对我们来讲,确实是要承认未来会有更竞争化的环境。

但多邻国也是有信心的,我们现在是全球最大的语言学习平台,除了具备长期机器学习和AI积淀,我们也拥有海量的用户数据,以及教学方式上的沉淀、品牌IP。游戏化的体验也是非常核心的,差异化的一个方面。

生成式AI确实是一个新的趋势,但多邻国也希望在动态的变化里保持一定的竞争优势。谁能更好地用上AI,谁就可能在这件事情上走得更快速,走在更前沿。所以我们也一直保持对新技术的敏锐度,不敢懈怠,也一直非常积极地寻求和OpenAI的合作,包括探索新的应用场景。

36氪:目前大模型实时调用的成本仍较高,它带来的额外成本会不会转嫁到消费者头上?如何让更多消费者也能享受个更性化的服务?

向海纳:目前多邻国内部是比较cost efficient的,无论是整个人效比还是ROI。我们现在全球员工有大概500多到600人的规模,但服务的是全球5亿的用户。我们很少会用大量的人工做低效的事情。在时间、精力、财力的投入上,公司比较高效和克制。

对Max这样的产品,我很难 Promise未来的价格趋势会怎么样,但是我认为AI技术一定可以让教育变得更加普惠,让更多人能够更容易和平等地接受更高质量的教育。

Bill Peterson: 多邻国绝大部分用户是免费用户,他们也将从多邻国与OpenAI的合作中受益,因为我们的课程创作过程在不断加速。AI如同任何创新工具一样,如果应用合理,就能带来便利、效率与生产力。

Klinton Bicknell:Duolingo Max目前还处于初期阶段,目前在美国、英国、爱尔兰、加拿大、澳大利亚和新西兰已经上线。我们正在努力将其扩展到更多国家,加强用户互动,并不断测试新功能,以打造更具吸引力的产品体验。同时,我们也在探索能让免费用户们体验生成式AI的途径。

36氪:现阶段采用LLM或生成式AI技术的公司,要达到盈亏平衡,甚至盈利的关键是什么?

Klinton Bicknell:我们可以分享多邻国的视角,未必能代表其他公司。生成式AI仍处于发展的早期阶段。但是,如多邻国的联合创始人兼CEO Luis von Ahn在股东信中所说,新技术的发展速度令人惊叹,而且还有不断提速的态势。我们相信,那些学习速度最快、整合先进技术最快的公司将会脱颖而出。在多邻国,我们一直在快速学习,不断测试和迭代是我们业务的核心。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1