人美声甜GPT，数学题哪里不会讲哪里

作者：量子位发布时间：2023-04-17

ChatGPT 教育大语言模型

衡宇发自凹非寺

量子位 | 公众号 QbitAI

大模型的颠覆和变革，还只是开始。

ChatGPT一炮而红，重塑搜索、办公协同等多个场景和行业后，在线教育，被视为最重要的垂直场景——毕竟大语言模型展示出的能力，正是之前在线教育、AI老师所亟需的。

而且这种趋势已经开始，背靠大模型相关的在线教育应用，已经率先在海外火爆。

看过来！让GPT化身二次元美少女AI家教来讲数学题的方案，每步都有解法，再不用担心看见参考答案的“略”字：

基础到某个三角函数的定义，复杂到不同的解题方法与技巧，都能得到答案：

这就是最近在海外火爆的AI解题类应用，背后App已经在App store商店教育分类板块刷榜。

这种火爆在情理之中：背靠LLM，加上二次元画风颇似《原神》——不得不说，真实拿捏住了流量密码。

在这之前，在线教育行业的主流“AI家教”，背后的本质只是推荐算法，换句话说，就是推荐录好的教学视频或解题方法，但无法针对视频和方法中的某些细节给出解答。

而现在，LLM涌现的解题准确性和语言理解能力，开始对之前可望不可即的技术实现带来了突破——不是在线教育面临重塑，是整个教育产业正在面临重塑。

背后技术原理：GPT+在线教育=？

二次元美少女家教身后，就是LLM在AI自动解题方面发挥着作用。

基本思路是在原有流程的一头一尾，接入LLM，与原有流程中的CLM（可计算语言模型，Computational Language Model）形成Joint Model模式。

CLM，相比其他AI模型展现出不错的逻辑能力，不过它在语言理解能力和输出等方面，遇上如今包括GPT-4在内的大语言模型还是相形见绌。

Joint Model模式，就是让LLM提供NLP能力，CLM提供逻辑推理能力。

也就是说，现在的整个AI解题的过程是这样的：

题干输入——LLM处理文本——CLM解题——LLM形成文本——讲解输出

二者结合，能完成的推理任务比单个模型处理的更复杂，并在必要时收集相关数据。

由是，AI家教能很好地理解题干内容，从而提供讲解。

在两端接入LLM之前，这条AI解题流程也能利用CLM，提供AI家教所需的数理逻辑和推理能力。

主要依靠CLM对文本信息进行数据升维，把一维文字信息进行高维展开，让机器在同一时间接受文本背后诸如实体、关系、参数、知识等多维度的隐含信息，理解题干背后最终想要求解的东西是什么。

再对CLM进行“部分不召回”设定，即“不能保证100%做对的题，AI不会输出结果”，从而保证AI家教的讲解和最终答案一定正确。

这也能解释为什么现在的Joint Model模式中，对LLM的应用重点在NLP领域，而非逻辑和推理能力上——

GPT-3.5起，大模型毫无征兆地涌现出数理逻辑和推理能力，但它们既不稳定，也不绝对可靠，AI家教无法在接入后直接落地使用。

与其执着于纠正LLM的“胡说八道”，不如转而重点利用它相对稳定发挥的NLP能力。

二次元美少女AI家教背后是谁

有意思的是，这位AI家教背后还是一家中国公司。

来自悉之智能，2017年成立，核心创始团队都来自清北。

创始人兼CEO孙一乔，清华大学电子系2017届学生，在校期间参与搭建清华XLP超限学习团队，并深度参与校内某院系课程体系深度改革，带领数十人搭建了清华大学首个自适应学习引擎。

联合创始人兼CPO代佩霖，北京大学金融系毕业，曾入选福布斯亚洲30 under30；算法合伙人林东生，也毕业于清华大学电子系，是悉之智能自研CLM背后的发明者之一。

几位合伙从一开始杀入AI教育行业，就主攻自动解题。

入局之初，还算赶上了个好时候，加上是国内第一家做出多模态解题家教的公司，成立次年就拿下新东方旗下“东方新创” 的1000万元天使轮融资。等到2020年，公司已完成近亿元A轮融资。

直到2021年经历双减风暴……

好在双减来临的同月，仍然顺利拿到2000万美金的A+轮融资，投资方是启明、经纬和真格等一线VC。

但是，公司业务重心不得不开始向海外市场转移。

等到在新的市场站稳脚跟开拓市场，涌现逻辑能力的ChatGPT却突然现世，突破了业界的传统认知，也打乱了他们的阵脚：

我们原本以为AI不会这么快出现逻辑能力。

不仅低估了OpenAI在GPT系列上的进度，还低估了GPT涌现出的能力的强度。

早些时候，谷歌用一个36B的LaTeX数据集Fine-tuning PaLM540B，在MATH上取得了50分。同一测试集上选出CLM覆盖的高中数学部分，悉之智得分在70分左右。

“比谷歌最引以为傲的PaLM得分高，也高于市场上的Photomath等产品，包括ChatGPT3.5最开始的解题能力得分也低于我们。”孙一乔边笑着复盘边挥舞胳膊，外化他的兴奋。

结果GPT-4光速出现，出场即碾压所有玩家的解题能力。

但他好像并不沮丧，“这一波就是全世界看OpenAI装逼嘛，惊得谷歌的下巴都掉下来了”。孙一乔的逻辑里，OpenAI虐了全世界，悉之智能的AI又能虐其他人，“没什么不值得骄傲的。”

他还笑着补充，自家AI能力也不是为了刷榜好看，主要是能落到教育AI行业应用，这才是“至关重要”。

孙一乔很爱笑，熟悉他的人都这么说，尤其是在谈到GPT系列对传统带来颠覆性影响和可能性的时候。

3月底，欧盟批准谷歌收购了我们在国际市场上最大的竞争对手，也是传统解题公司的代表——PhotoMath。

每每提到这点，孙一乔都嘴角上扬，难掩兴奋，要埋下头用双手捂脸数秒来平复心情。

PhotoMath纳入谷歌麾下，有了技术、资金靠山，也代表着PhotoMath的一条快读通道被封死了——这家数学应用程序公司接入GPT-4及后续GPT系列API的可能性几乎为零。

但是GPT和CLM的组合，可以让解题能力继续突破。

这也是孙一乔“不沮丧”的数据支撑。在一个GPT-4解题率为82%的测试集上，悉之最新fine-tuning GPT的Joint Model最新解题率在92%。

究其原因，他的解释是Joint Model天然包含大量解耦好的NLP任务，最新工作中，团队把之前基于Bert的CLM换为fine-tuning后的GPT，将GPT作为预训练模型，将CLM作为逻辑校验模型，继续提高解题上限。

孙一乔还表示，LLM不只提升AI家教背后模型的NLP能力，对多模态交互也有不少帮助。

现在的AI家教形象，比以前声音更好听，形象也更好看。在接下来的计划中，对话交互能力也将得到增强，在授课过程中随时提问，都能得到AI家教的解答。

计划中，旗下AI家教还会拓展数学之外的学科版图，也将开启新一轮的融资。

‍

深陷双减风暴之后，教育底色的公司们都逐渐找到了新的打法。

‍改弦更张的，如新东方，在直播领域大杀四方；继续探索在线教育之路的，悉之智能利用LLM提升解题能力，优化多模态交互，据悉，猿辅导也已经用AIGC在传统教育领域寻找新的机会。

LLM能力应用在教育领域后，不知道继续深耕在线教育的这些公司里，谁又是新一轮的最大赢家？

— 联系作者—

— 完—

《中国AIGC算力产业全景报告》征集启动

AIGC算力需求爆发，谁将在此次算力产业变革中脱颖而出？

量子位《中国AIGC算力产业全景报告》和《最值得关注的AIGC算力玩家》正式启动对外征集，期待有更多优秀的机构产品、案例与技术能够被大众看到。

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

近期资讯

嫦娥五号月球样品展激发小学生太空梦

“我们社团有100多名同学，这次参加月球样品展开幕式有32个名额，一发通知立刻就抢没了。”

中国青年网 2024-12-30

Win11 上 PC Game Pass 广告推送增多，微软回应称可关闭

IT之家注意到，此前Windows11曾推送过MicrosoftDefender应用（与Microsoft365捆绑）以及《使命召唤：黑色行动6》的广告。而近期，微软加大了针对PCGamePass（即XboxGamePassforPC）的推广力度，通过频繁的弹窗或通知来吸引用户订阅。

IT之家 2024-12-30

iPhone打车比安卓手机更贵？Uber官方否认苹果有溢价

近日，据印度媒体报道，关于打车应用存在“针对iPhone用户定价偏高”的传言引发了广泛关注。虽然结果似乎支持了这一传言，但《印度时报》强调，这一发现并不代表具有普遍性，因为同样的搜索可能会在不同的日期显示不同的结果。

手机中国 2024-12-30

无人矿山千里之外（这些豫企相当潮）

跃薪公司智慧矿山一体化管理平台。山还是那座山，但该企业的车辆、机械运用了人工智能、5G通信等先进技术，让空山不见人、自动采矿忙的景象变为现实。公司已获“高新技术企业”等称号，与宁德时代、华为等企业合作。

河南日报 2024-12-30

精益求精导航天下（2024年终系列报道·科技篇⑥）

在建的世界第一高桥贵州花江峡谷大桥是精准施工的典范。据了解，新入轨的两颗北斗卫星搭载了新型星间链路终端，可以更好地实现与其他卫星之间的组网及信息传输，不仅可以更好支撑北斗系统稳定运行和北斗规模应用，而且将为下一代北斗导航卫星技术升级进行相关试验。

金台资讯 2024-12-30

CR450动车组样车发布

央视网消息（新闻联播）：12月29日，CR450动车组样车在北京发布，这标志着“CR450科技创新工程”取得重大突破，将进一步巩固扩大我国高铁技术世界领跑优势。记者从国铁集团了解到，CR450动车组样车运营速度、运行能耗、车内噪声、制动距离等主要指标国际领先。

光明网 2024-12-30

@AI请接招

1.AI生成内容质量的飞跃：预计到2025年，AI生成的内容（如文章、图像、视频等）将达到前所未有的逼真度和复杂性，甚至可能难以区分与人类创作的内容。2.量子计算商业化应用起步：一些领先的企业和研究机构将开始推出初步的量子计算商业化服务，应用于特定领域的复杂计算问题，如金融建模和药物发现。

羊城晚报 2024-12-30

小米汽车SU7评测成绩出炉雷军感慨每一项努力都意味着收获

雷军近日公布了一张小米SU7的评测成绩单，表明其在安全性、续航力以及智能驾驶等方面处于领先地位。他感慨地说：“每一项努力都意味着收获。”

中关村在线 2024-12-30

在信息化时代，掌握有效搜人技巧的实用指南与注意事项

不过，别担心，今天我就来聊聊这个话题，教你一些实用的方法和技巧，让你在搜人这件事情上游刃有余。像微信、微博、QQ、Facebook等，这些平台上聚集了大量的人。

新报观察 2024-12-30

iQOOZ9，不仅是千元机卷王，还是千元续航机王！

vivoiQOOZ9内置6000mAh超大电池，在满电状态，待机时间长达30.17天，而对于日常使用来说，足以满足用户一整天的用机需求，无需频繁充电。

大话百科天地 2024-12-30

人美声甜GPT，数学题哪里不会讲哪里

推荐体验

相关资讯