过去 300 多天的时间里,我们已经见到了数百个大模型的发布。在 ChatGPT 之后,OpenAI 推出升级的 GPT-4,谷歌、百度、华为、阿里等大大小小的科技互联网公司也陆续亮相出新的大模型,这自然也包括了成立之初就 All in AI 的科大讯飞,他们在 5 月初发布了第一版星火认知大模型。
无数的迹象表明,大模型的繁荣时代已经到来。但另一方面,大模型还处在一个快速发展的阶段,一切乾坤未定。
10 月 24 日,在第六届世界声博会暨 2023 科大讯飞全球 1024 开发者节(以下简称「1024 开发者节」)上,科大讯飞董事长刘庆峰发布星火认知大模型 V3.0 版本,文本生成、语言理解和多模态等七大维度能力全面提升,重点还升级了大模型的代码能力。
与此同时,刘庆峰还宣布,不管是外部对通用认知大模型的评测中,还是根据 OpenAI 构建的测试集,星火大模型 V3.0 在综合能力上都超越了 ChatGPT(GPT-3.5)。
有些意料之外,却又在情理之中。
不久前《麻省理工科技评论》中国进行了国内主流大模型能力深度评测,想要找出「最聪明」的国产大模型,结果显示在 8 个一级大类的 600 道题目的测试和盲评中,科大讯飞的星火大模型 V2.0 在 6 个大类中得分率排名第一,以 81.5 分(百分制)的成绩登顶,成为「最聪明」的国产大模型。
而从 V2.0 到 V3.0,科大讯飞实现了对自己的超越,更实现了对 ChatGPT 的超越。尽管刘庆峰也指出,国产大模型必须正视和 GPT-4 的差距,「国产大模型在复杂知识推理、小样本快速学习、超长文本处理、跨模态统一理解上距离 GPT-4 还有差距。」但也实在难掩好奇:
从去年底开始攻关,到现在也仅仅过去 10 个月,「星火」到底是怎样炼成的?
10 个月,星火如何超越 ChatGPT
先回到今年 5 月,科大讯飞才刚刚发布星火认知大模型 V1.0,现场展示了文本生成、知识问答、语言理解,以及不同场景中的逻辑推理能力等。特别之处在于,此前不少国产大模型公司在发布会上都是采用录屏演示,而科大讯飞是少有采用全程实机演示的一家,也可见其自信。
很快,科大讯飞就在次月举办了星火大模型 V1.5 的发布会,宣布突破开放式问答,还有多轮对话能力和数学能力的升级;之后就是 8 月份的星火大模型 V2.0,重点升级代码能力以及多模态交互能力;然后就到了今天星火大模型 V3.0 的全面提升。
刘庆峰表示,星火大模型 V3.0 已经在整体上超越了 ChatGPT,并且在医疗领域也更胜 GPT-4 一筹,是可测系统中「最聪明」的国产大模型。在 1 个多小时的发布过程中,我们也看到了星火大模型在各个维度的领先表现,小到绘本创作,大到新发布的医疗大模型,每个人在星火里都可以拥有 AI 助手。
科大讯飞创始人兼董事长刘庆峰
滴水石穿,非一日之功。
科大讯飞作为一家人工智能公司,从 1999 年成立以来一直在开发人工智能技术,确立的公司使命就是「让机器能听会说,能理解会思考;用人工智能建设美好世界」。
早在 2011 年,科大讯飞承建语音及语言信息处理国家工程研究中心,「我们提出让机器像人一样能听会说,这一次认知大模型本质上是一次对话式的通用智慧的涌现,语音和语言的核心能力是一个基础条件。」刘庆峰说。
2017 年,科大讯飞又承建了认知智能全国重点实验室,也是从这一年起,科大讯飞第一次让机器通过了国家执业医师资格考试笔试、超过了 96.3%参加考试的医生,还在 SQuAD 机器阅读理解中全球首次超过人类平均成绩。
如果说这些在语音、语言和认知智能领域的丰富储备和积累构建了科大讯飞在人工智能领域的基石,那接下来的四年可以说在前者的基础上,提前开始为星火大模型搭建底座。
2018-2022 年,星火大模型开启攻关之前的四年间,科大讯飞积累了丰富的 Transformer 算法经验,这些核心算法上的积累事实上也有序复用到后面大模型的研发之中。
另外值得关注的是,科大讯飞拥有成建制团队的优势。
讯飞研究院最核心的研究团队超过了 200 人,其中还有两位是《麻省理工科技评论》「35 岁以下科技创新 35 人」榜单中顶尖的青年科学家,这也是科大讯飞敢于在星火大模型第一版就进行实机演示以及后续快速迭代的关键因素之一。
再然后,这才有了星火认知大模型的诞生与燎原。
你当然可以说科大讯飞是在去年底才开始尝试「点燃」星火——开发大模型,但在此之前,科大讯飞早在 2018 年或者更早的 2011 年,甚至是 1999 年成立之初就开始在人工智能领域积蓄能量、培养能力。
一言以蔽之,今天我们看到星火大模型的超越和领先,事实上离不开过去 24 年,科大讯飞在人工智能领域的持续投入所充分积累的技术和人才。用比较通俗的说法就是:台上十分钟,台下十年功。
生态赋能,大模型落地为王 就像之前一样,刘庆峰在 1024 开发者节上再一次强调,今天要看一个大模型系统到底好不好,首先还是要看它是不是能解决刚需、是不是真的有用。
技术当然是根本,但技术从来也不是全部。大模型带来了无限的可能,可这些「可能」都要面对一个核心的问题:如何落地。
科大讯飞可能是少数真正意识到并重视这个问题的大模型公司。
科大讯飞研究院院长刘聪透露,科大讯飞早在启动大模型技术攻关的时候就确立了「1+N」的大模型体系。「1」代表了星火认知大模型本身,具备自己的商业价值,「N」是针对教育、办公、汽车、医疗、数字员工等不同领域进行「预训练」+「精调」的行业大模型,可以让产品更快落地,快速形成商业模式。
同时,他们很早就开始了准备大模型的落地应用。5 月,科大讯飞就确立了教育、办公、汽车、数字员工等大模型的应用场景。紧跟着,奇瑞宣布星纪元 ES 将搭载星火大模型,科大讯飞推出搭载星火大模型的智能办公本,AI 学习机以及学习应用「星火语伴」等。
今天,科大讯飞还发布了早前就预告的星火医疗大模型,在医疗领域的海量知识问答、复杂语言理解和医疗专业文书生成等六大核心能力超越 GPT-4。而按照此前媒体报道,GPT-4 已经能够通过美国执业医师资格考试(如前文所提,讯飞「智医助理」早在 2017 年就通过了中国的执业医师资格考试)。
此外围绕打造「每个人的 AI 健康助手」的使命,科大讯飞还依托星火医疗大模型推出讯飞晓医 APP,在看病前、用药时以及体检后提供个性化的医疗咨询服务,使用过程基本就像是咨询一位知识极其广博的医生。
科大讯飞还与中国科学院文献情报中心联合发布了科技文献大模型,以及相关应用级产品星火科研助手。科技文献大模型基于专业语料库构建,能对科技文献进行高效地信息提取和智能化处理技术,保障文献处理的深度和广度,提升知识获取效率。
依托科技文献大模型打造的星火科研助手,将提供成果调研、论文研读、科研写作三大核心功能,包括论文总结、论文知识问答、论文写作润色等,目标是为科研工作者打造精准高效的科技文献助手,助力科研工作顺利开展。
而除了医疗大模型和科技文献大模型之外,科大讯飞这次还宣布联合行业龙头合作伙伴发布十二大行业模型,覆盖金融、汽车、法律、工业、传媒等十二个重要领域。
科大讯飞没有选择仅仅研发一个通用大模型(星火大模型),而是通过「1+N」体系基于星火大模型不断推出覆盖各类场景的行业大模型,其实并不难理解。
通用大模型的「大」和「通用」意味更强的泛化能力,但对于垂直领域的行业客户,他们更需要的并不是通用大模型的「全能」、综合技术上的碾压,反而对模型的精度和质量有更高的要求,在具体需求上实现功能的最大化。在这个角度上,行业大模型是更好的选择,不仅是更精准地满足行业客户的需求,还有更低的推理成本。
与此同时,行业大模型也能在数据、行业理解等不同维度上反哺到通用大模型,然后通过通用大模型迭代再传导到行业大模型,实现大模型生态的正向循环。
刘聪就曾指出,「(科大讯飞)不仅要做基础通用大模型,还要同步做落地教育、医疗、办公场景的产品应用。『N』 的数据和场景可以更新到 『1』 里、促进通用大模型能力迭代;『1』 的能力也能融入到 『N』 的产品应用中,实现更快地落地。」
科大讯飞研究院院长刘聪
这意味着在「1+N」的大模型体系下,科大讯飞能够触达更多的行业场景,获取高质量的行业数据,由此更深入地强化星火大模型的能力,同时也会带来更快的技术迭代速度,使得行业大模型可以更好地满足不同领域的需求和挑战。
共建算力底座,走出中国大模型的路
几天前,美国商务部再度收紧了高端 AI 芯片的对华出口,就算是已经削弱带宽的英伟达 A800、H800,现在也要获取出口许可证才能在国内销售。早些时候的亚布力论坛夏季高峰会上,刘庆峰就指出,中国在人工智能算法方面都没有问题,但算力似乎始终被英伟达按住。
作为本次全球 1024 开发者节开幕式的重磅环节,科大讯飞联合华为发布了基于昇腾的大模型底座「飞星一号」平台。说到底,中国大模型只有建立在中国算力底座之上,才有生生不息的大未来。
事实上,科大讯飞在星火大模型最早发布的同时就联合华为启动「星火昇腾」算力生态,当时刘庆峰表示,星火大模型的升级计划不会受到算力限制,还列出了一份迭代升级的时间表:
6 月 9 日:突破开放式问答、多轮对话能力再升级、数学能力再升级
8 月 15 日:突破代码能力、多模态交互再升级
10 月 24 日:通用模型对标 ChatGPT(中文超越,英文相当)
星火大模型 V3.0 的发布,标志着科大讯飞完全兑现了 5 月那场发布会上给出的承诺,而这份精确到日期的时间表,一定程度上也证明了科大讯飞从研发第一天就想清楚了星火大模型的发展路径和未来,就是在自主创新的算力底座上,通过领先的算法和数据构建世界一流的大模型。
接下来,讯飞科技将在「飞星一号」平台的基础上,启动对标 GPT-4 的更大参数规模的星火大模型 4.0 的训练。正如刘庆峰所言,这并不仅仅是一个简单的技术对标问题,而是中国大模型要走出自己的技术路线,走出自己的产业方向,形成自己的完整的生态。
作为中国大模型的「头雁」,科大讯飞有意愿也有责任走出这么一条大模型之路。·