“我们和GPT-4的真正差距，在数学考试的最后一道大题”

作者：新民晚报发布时间：2024-03-25

图说：上海人工智能实验室领军科学家林达华采访对象供图（下同）

“我们和GPT-4的真正差距，可以理解成能否做出数学考试的最后一道大题。最后一道大题往往需要考生有出色的推理能力，GPT-4有这样的能力，我们还做不出。”在2024全球开发者先锋大会大模型前沿论坛上，上海人工智能实验室领军科学家林达华直言不讳。

进入2024年春天，热议了一整年的“大模型”话题仍在持续升温。一年来，AI领域见证了通用大模型井喷式爆发，通用人工智能不断冲击对物理世界的理解上限，在未来，又有哪些方向值得继续尝试探索？

“任何排名都是短暂的”

“一般而言，这种高规格论坛上的演讲都会推介自己的产品，而我这次想非常纯粹地谈谈对大模型未来发展的思考。”林达华的开场就别具一格。2022年末，ChatGPT的诞生让全世界首次看到大模型的力量；一周前，xAI发布参数量达314B的当前最大开源模型……

“过去一年大模型技术的迅猛发展，有两个重要的驱动力量：一个是源于所有研究者和从业者对于AGI（通用人工智能）技术理想的追求；另一方面产业界看到了大模型带来产业革命的可能性，以巨大资源投入此赛道。”林达华坦言，技术追求和应用潜力两种力量交织，造就了当前“波澜壮阔”的发展局面。

无数人都关心，国内一线大模型究竟“身处何方”？林达华给出三个观点：GPT-4仍旧保持领先；国内前列的模型在主客观表现上都超过了GPT-3.5；商用闭源的大模型表现比开源模型更好，但是开源模型进步非常快。

“大模型能力评价是件非常有挑战的事情，任何榜单都有特定的偏重。”林达华总结道，“任何排名都是短暂的，而根据评测找到解决问题的路径，对于人工智能的发展来说有着更长的生命力。”

随着大模型技术的进一步发展，人工智能产业分工将会被重塑。“大模型研发需要投入巨量资源，但拥有基础模型的企业不会垄断一切，尤其不会吞噬所有垂直赛道。” 林达华认为，行业模型、模型插件等研发投入相对较小，但拥有相对大的应用空间，对专业数据和领域的理解，可以成为竞争壁垒，“更重要的是清楚理解自身资源禀赋和优势，选择合适的产业分工角色，形成差异化竞争路径。”

“大模型有更多新‘玩法’”

“百模大战”，大模型的技术演进路在何方？

很多人都注意到，从去年下半年开始，大模型上下文长度的理解能力快速增长。打比方来说，2K的上下文支持能力可以日常聊天，32K能做到长文分析，100K就可以读懂短篇小说，而今年3月，支持1M或更长上下文的模型出现，它们完全可以畅读《三体》了。

上海人工智能实验室青年科学家陈恺介绍，对于大模型的长文本处理能力，通常会采用“大海捞针”的实验。通俗点来说，就是要通过自然语言提问的方式，让模型在一整本《西游记》里找到一句只可能在《红楼梦》才出现的话。“在测试中，90%以上的模型都能做到；可切换到真实场景，需要模型做一些关联后，表现就差很多了。”他说。

众所周知，人的大脑有专门处理短时记忆的功能区域，不仅能够存储，还能对短时记忆进行压缩处理，使之和长时记忆更好融合。然而，大模型的上下文本身对信息不会压缩，不能直接捕捉其中的深层知识和规律。这是否意味着未来计算和生物学的交叉，林达华倒不这么认为，“科学家们在思考，上下文是不是处理‘随机信息’的最理想技术路径。”

他还提出，云端协同将成为模型未来的重要趋势。“在云侧，数据中心的算力指数级增长，未来处理的方向是‘计算天花板’的问题。”林达华分析，“在端侧，移动设备的算力快速增长，已经可以支持7B体量模型的推理。”

当前，一体化多模态大模型初现端倪，可以支撑更复杂的多模态任务。在复旦大学计算机科学技术学院教授邱锡鹏看来，新一代大模型的交互将是完全是多模态的，实现任意模态到任意模态的转化。大模型将与更多实际生活场景相结合，产生更多新“玩法”，也将为“具身智能”机器人提供更智慧的大脑。

图说：大模型治理圆桌对话环节

“安全不是锦上添花”

大模型技术进步带来机遇的同时，也伴随治理与安全等新挑战。如何做到“既要又要”？

复旦大学计算机科学技术学院教授张奇表示，在当前普遍使用的模型框架下，确保模型合理、负责任地输出是一个重要的挑战，普通开发者在大模型的安全治理方面参与度较低，部分原因是整个技术路线与通用大模型的开发路线基本一致，普通开发者较难进行深度参与。

“安全不是锦上添花。” 阿里云通义算法、产品安全负责人张荣指出，大模型虽然有虚假信息标识等安全围栏，但是最核心的还是模型内生安全能力，“安全和模型的能力有时候相互矛盾，更多时候是相互促进。在实践中模型越安全它越能够得到工程的信任，在更广的应用范围中，可以获得更多的安全提升机会。”

市科委副主任屈炜在大模型前沿论坛上表示，在推动人工智能大模型发展方面，上海将重点作出以下布局：一是提升基础研究能力，积极布局前沿研究；二是建设高水平新型研发机构，推动关键核心技术研发；三是深化人工智能伦理风险和治理体系的研究。同时，上海还将为大模型人才发展创机会、搭平台，在生活上为解决后顾之忧。

新民晚报记者郜阳

【相关阅读】大模型前沿论坛上专家强调大模型在生产力变革中的作用

“我们和GPT-4的真正差距，在数学考试的最后一道大题”

推荐体验

相关资讯

GPT-4满分通过MIT本科数学考试，这套提示词火了

GPT-4满分通过MIT本科数学考试！这套提示词火了｜GGView

林达华：国内大模型与GPT-4的差距是“高考数学最后一题”

陈根：GPT-4满分通过麻省理工数学考试，GPT又下一城，人类危险

一道数学题算错七次后宕机，对标GPT-4的智谱AI实战能力堪忧

近期资讯

Designing Hyper-Deterministic, High-Frequency Trading Systems

程序员加班很晚应该怎么锻炼身体？

2025年大语言模型RAG技术趋势展望

2025年java技术发展趋势展望

2024：踏平坎坷成大道，斗罢艰险又出发！

2025年大语言模型基础设施趋势展望

relationship: Star3.2k，牛B啊，小米手机上也在用，这个项目人人都能用得上的开源项目，抓紧收藏起来吧～～～

Solid.js 最新官方文档翻译（13）—— Context（上下文）

每周AI论文速递（241223-241227）

程序员职场成长思路

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响