7月4日,2024世界人工智能大会暨人工智能全球治理高级别会议(简称“WAIC 2024”)在上海启幕。本届大会备受关注的热点领域之一是“人工智能+教育”,“教育与人才”被列为大会行业论坛的十大重点议题之一。
7月6日,在“AI 产业创新与投资发展主题会”上,学而思CTO田密以《教育大模型,构建未来个性化学习蓝图》为题发表了主题演讲,首次分享了九章大模型在产业化层面的未来愿景和规划。
芥末堆:我们先从一个老话题开始,“人工智能+教育”发展到今天,能在多大程度上替代老师?
田密:很多人认为大模型的进步会对教育行业产生颠覆性影响。Sora刚出来时,很多人问我,将来还需要辅导班老师吗?今天的大模型发展非常迅速,但还没有达到彻底替代老师的地步。
教育行业有一个“不可能三角理论”,即个性化、高质量和大规模很难同时实现。以学而思为例,最早推出了学而思小班,可以做到高质量和个性化,但是无法实现大规模;后来推出了学而思大班,实现了大规模和高质量,但没有做到个性化;再后来我们推出了各种AI课程,勉强实现了个性化和大规模,但其质量和真人老师相比仍有很大差距。AI技术的发展使“不可能三角”成为可能,而大模型技术的出现是一缕曙光。
教育行业面临的最大问题是师资的匹配,优质资源不足,但事实上学习阶段的孩子们随时需要向老师提问。AI老师就弥补了这样的空白,能够非常耐心地进行陪伴式讲解,孩子们不用担心被说笨或者担心老师会不耐烦,就像医生接诊一样,AI老师能够回答很多学生的问题。
芥末堆:能不能用最浅显的语言,向我们众多的教育创业者讲清楚,人工智能对于教育而言,意味着什么?
田密:在大模型技术出现之前,AI技术已经在教育的各个环节中发挥了作用,包括备课、教学、练习、评估和管理。例如,备课时可以用AI技术帮助老师自动生成讲义和试卷;授课环节中,AI可以充当教学助手,提供智能答题器,帮助老师做智能提醒和个性化的TTS。在练习阶段,AI可以实现自适应练习、中文作业批改和整页批改;在评估环节,AI可以进行口语评测等。
随着大模型时代的到来,所有的教育AI科技都可以通过大模型技术重新实现一遍。这意味着AI不仅可以优化现有的教育环节,还可以在个性化和规模化方面实现更大的突破,更好地满足不同学生的需求。
芥末堆:大模型和传统的深度学习技术有什么本质差异呢?
田密:第一,大模型更加通用。过去需要上百个大大小小的模型来提供AI服务,工作量非常大。现在,一个大模型可以处理所有任务,极大地降低了训练成本,提高了训练效率,并且通用性得到了保障。
第二,大模型有了通用大模型作为基座。过去,教育大模型只能学习教育相关的语料。如今,通过通用大模型,教育大模型可以融合更多的世界知识和教育知识,从而变得更加聪明,情商更高。
第三,大模型支持多轮交互。这使得人机交互或师生交互更加容易、便捷和自然。大模型生成的多轮交互方式让互动变得更加流畅,提升了用户体验。
芥末堆:教育大模型是怎么训练出来的?训练模型的方式和通用大模型有差别吗?
田密:没有本质上的差别,通常会分成几个阶段。以九章大模型为例,你会发现,大模型学习知识的方式、手段和人类很相似。我们把训练过程分为三个阶段。
阶段一,预训练。就像一个孩子要看大量的书去学习,通过自学获取基本知识和理论框架。
阶段二,有监督微调。相当于请了一名老师给孩子讲解标准的解题套路,孩子向老师学习解题步骤,比如一二三步骤分别怎么做。
阶段三,强化学习。相当于孩子不断地进行多轮练习,每次练习后进行批改和反馈,不断进阶提升。
这个过程让大模型像孩子一样学习一门学科,比如数学。其中,最关键的是数据。训练什么样的模型需要什么样的数据。在不同的训练阶段,比如预训练阶段,需要海量的题库、讲义和教辅书;微调阶段需要大量的步骤清晰的解决方案数据;强化阶段需要用奖励模型对结果进行反馈。
在这一点上,学而思具备优势。我们一直在投入教育科技研发,从2003年成立起就在积累题库数据,这些都是训练大模型宝贵的原材料。
芥末堆:此前有网友让九章大模型和ChatGPT分别去答高考数学卷,引来热议。在开发团队内部有没有做过类似的对比实验,结果如何?
田密:大模型和人类一样,有文科生和理科生的区别。我们发现,很难在一个大模型里同时学好数学、语文和英语。九章采用了多专家模型方式,有专门的数学专家模型、语文专家模型和英语专家模型,最终以MoE方式组合起来提供全科服务。
九章作为以数学领域的解题和讲题算法为核心的大模型,在高考数学题目上比GPT-4o得分更高。“点睛”分析也是九章的特色,它在解题的同时拆解了题目的考点,更适合学习者参考。
大模型应用最大的阻碍在于“幻觉问题”。通过搜索召回增强技术,可以比较有效地缓解这一问题。这个技术很简单,在大模型生成之前,先搜索并召回相关的内容,拼装到程序中作为提示词工程的一部分,这样输出就会有约束,不会胡乱生成答案。例如,将学生的学习画像放进去,就可以生成个性化的回答,这是大模型落地应用的关键点。
芥末堆:今天现场有一些观众尝试用手机拍摄一道四年级数学题,大模型并没有直接给出答案,而是分析了题目考察的知识点和形式,再引导用户一步步思考。这和一些拍题软件的讲解方式区别很大,让大家感受到了人工智能在个性化引导学习方面的潜力。
田密:我们认为,所有教育场景都值得用大模型重新做一遍。到今天,学而思已经在解题、对话、批改、讲题和推荐这五大场景中重构了教育科技。
解题很好理解,就是实时解答一个题目;对话是指具有常见的对话能力;批改方面,AI可以批改中文和英文作业,甚至细致到数学题的步骤级别,识别出答案的对错和错误的具体步骤;讲题则是AI一对一地讲解题目;推荐则是在大模型的基础上做到步骤级的个性化推荐,使得标签更加精准,推荐效果更好。
具体来看,这些过程如下:
1.自动解题:九章大模型在数学评测网站Matheval上排名第一。在我们官网上也有展示,一道高中的函数题,大模型会先分析题目,识别出考察的知识点,然后进行步骤详解,最终完成解题并提供考点分析,这样可以让学生更清楚地了解题目的考察重点。
2.口语对话练习:在我们的APP中,有口语评测功能,让孩子通过游戏化的过程进行学习。我们会对学生的口语回答进行评测,包括流利度和发音。
3.作业批改:中文作文批改涉及字词判断、错别字、段落批改、内容建议和润色方法。英文作文批改分为三个步骤:批改、建议和润色。数学题的批改更为复杂,特别是主观题,需要对步骤进行批改,识别错误步骤并提供个性化讲解。
4.讲题:我们推出了“九章随时问”小程序,它是一个数学AI老师,不是直接给出答案,而是一步步讲解,任何不懂的地方可以随时追问。这个功能的目的是让孩子学会主动提问,培养批判性思维。
5.推荐:个性化学习的核心在于题目推荐。过去的诊断只能精确到题目级别,而现在可以拆解成多个步骤,每个步骤考察的知识点不同,对题目错因的判断更加精准,从而推荐的效果也更好。
总的来说,AI时代的教育需要孩子主动提问,因为AI几乎无所不知。提问的能力在很多情况下不被鼓励,但AI让这一过程变得自然,孩子们可以更加放松地提出问题。AI老师会尽可能激发孩子的主动提问,通过不断的反问和设问,引导孩子学会主动学习。这是AI给教育带来的一个变化。
芥末堆:有人担心AI会让教育变得更惰性,认为是拍照抄答案。对此你怎么看?
田密:并不是这样的。拍照讲解之后会有追问,这才是真正的方向。我们的AI老师会尽可能去激发孩子主动问问题。我们会把问题拆成很多个小步骤,每一步都问孩子“你怎么看这一步?”、“你觉得这么做是对的吗?”或者“你认为有什么重要的方法吗?”通过不断地反问和设问,让孩子自己学会主动提问。
这种方法不仅帮助孩子理解题目,更培养了他们的批判性思维和主动学习的能力。AI在教育中的作用不仅是提供答案,更是引导学生思考,鼓励他们独立解决问题。这样,AI不仅不会让教育变得更惰性,反而会推动教育质量的提升,使学习变得更加积极和主动。
芥末堆:国内外大模型在教育领域的应用,目前还遇到什么样的难题?解决方向会是在哪里?
田密:坦率地讲,虽然目前大模型很热,但从全球来看,真正落地用的产品并不多。大家看到比较成熟的应用主要有两个,一个是搜索,另一个是聊天(chat)。
目前,大模型的应用还处于早期阶段,教育领域也是如此。简而言之,教育上的大模型未来要成为AI老师。AI老师需要具备多种能力,比如解题、讲题、口语练习和批改答疑。然而,目前还没有哪一个产品能够将这些功能完美地结合在一起。
我们都希望有一个全能的AI老师,但实现这一目标非常困难。现在的实际做法是将这些能力分解并逐步落地。例如,我们的“随时问”专注于讲解和答疑,口语练习则集成在一些应用程序中。这些能力逐步落地,最终有一天可能会形成一个完整的产品。
目前,AI老师还远未成熟。这与自动驾驶有些类似。现在智能座驾很火,但真正意义上的全自动驾驶(L4以上)尚未实现。然而,这并不妨碍一些具体功能的落地,比如自动泊车、智能变道和高速巡航。AI老师也是如此,它会逐步替代老师的许多工作,最终成为一个比较全能的AI老师。
今天,整个AI大模型对教育行业的影响和赋能还处于非常早期的阶段。学而思将把三项最重要的核心AI能力——解题、讲题和批改,向全行业开放。我们希望将核心能力开放给行业中的所有参与者,包括各类硬件厂商,如AIPC、手机、iPad和汽车制造商,以及一些公立学校的2B2C应用。我们希望通过大模型的应用能力,真正推动教育行业的发展,为整个教育的数字化转型贡献一份力量。
芥末堆:人们看到五月刚刚经历新一轮升级的“小思”也来到了今天的舞台。“小思对话”上新了记忆式系统,新增了情绪识别,可以根据提问者的声音、状态识别他当下的情绪,并以对应语气进行回应。还会通过对话记录,在家长端提供成长报告和养育建议。看上去越来越像真人老师了。
田密:是的,“小思对话”的升级使其越来越像真人老师。然而,反过来说,有些人担心AI大模型会不会颠覆教育行业,让AI老师完全代替真人老师。对此,我的答案是否定的。我们认为大模型会给每名老师配备一个AI助教,每个孩子配备一个AI学伴。
老师有很多固定的工作,比如备课和作业批改,这些重复性的工作可以由AI大模型替代。这样一来,老师就可以把精力集中在对孩子的关爱、唤醒和激发上。对于孩子来说,AI学伴可以24小时在线陪伴他们学习和成长,孩子可以随时向AI学伴提问,没有任何压力,不用担心问题是否愚蠢,也不用担心需要重复讲解几遍才能听明白。
AI可以帮助孩子保持对学习的乐趣和自信,这才是教育行业大模型赋能的终极意义所在。通过这种方式,AI不会替代老师,而是增强老师的能力,让教育变得更加人性化和个性化。
芥末堆:从整个教育产业结构来看,大模型的融入将会引发怎样的变化?未来三年内,教育产业在整合大模型时面临的主要挑战是什么?
田密:人们都看到大模型的潜力,也都在积极地拥抱这个事情,但目前来看,无论是公立学校、培训机构还是从业者,对于未来的变化尚不是特别清晰。大家都意识到变革将会发生,但具体的变化何时到来,以及线上与线下的关系是否会被颠覆,人人都在探索。
大模型在教育产业的应用不会是一蹴而就的,而是一个渐进的过程。类似于自动驾驶技术从L1到L5的逐步演进,大模型的应用也需要逐步落地。因此,首先需要明确教育行业中可以应用大模型的场景,并逐一实施落地,同时不断提升模型的性能。数据的收集和积累是关键中的关键。只有通过收集大量真实用户数据,并建立完整的数据闭环,才能实现全面的AI教师服务。
我们的孩子几乎都是移动互联网的原住民,从小就在各种电子产品中成长。未来的孩子将会成为AI的原住民,他们从出生起就接触到带有AI功能的产品。
教育是一个非常敏感的领域,人们对教育的容错率很低。就像自动驾驶技术如果应用不当可能导致事故一样,教育中如果传授的知识有误,家长和社会都会产生极大的不满。这就要求在大模型演进过程中要极为谨慎,特别是在进入公立学校领域时,对教学内容的准确性要求更加严格。
因此,大模型在教育中的融合过程将是缓慢而长期的。在此过程中,需要克服的主要挑战包括技术性能的提升、数据隐私与安全的保护、教育内容的准确性保障以及社会接受度的提升。这些挑战的解决将决定大模型在教育产业中的成败。