去年讯飞星火认知大模型 V2.0 发布的时候,科大讯飞董事长刘庆峰曾表示,讯飞星火的代码生成和补齐维度上已经超过了 ChatGPT,并在 2024 年上半年实现对标 GPT-4。如今讯飞星火已经进化至 V3.5 版本,它现在的能力离 GPT-4 还有多远?
作者 | 王启隆
责编 | 唐小引
出品 | CSDN(ID:CSDNnews)
北京时间 1 月 30 日,科大讯飞于合肥滨湖会展中心举行星火认知大模型 V3.5 升级发布会,重点展示了讯飞星火认知大模型的底层能力和应用场景,并重磅发布了讯飞语音大模型和首个 13B(130 亿参数)的开源大模型。
星火认知大模型是科大讯飞在通用人工智能领域核心技术与创新能力的重要体现,本次升级使其能力全面提升,在测评体系涵盖的 481 个维度上,通过随机动态数据的严格测试,星火 V3.5 七大能力全面提升,语言理解、数学能力超越了 GPT-4 Turbo,多模态理解能力达到了GPT-4V 的90%+ 水平。
遥想去年的发布会上,刘庆峰坦言,讯飞星火大模型的这一功能和 ChatGPT 相比还有很大差距,有待升级。如今,V3.5 的星火认知大模型代码水平已经达到了 GPT-4 Turbo 的 96%。
值得一提的是,这场发布会并没有通过单纯的“卷数据”或“卷排名”来证明实力,而是从日常、办公、学习及旅游等方面演示了大量的生活应用场景,令人身临其境。话不多说,下面一起看看 GAI(通用人工智能)赋能的生活已经离我们有多近了。
AI Agent 真要来了?
在大会的实机演示环节,科大讯飞研究院院长刘聪博士通过对话展现了星火 App 的全新功能与交互体验。当前星火 V3.5 大模型已经能模拟出自然、流畅且富有情感的声音(吐槽:女声版有点像手游配音演员),而刘聪与星火的对话模拟了日常生活情境,讨论了各自近期的工作忙碌程度、年终总结 PPT 的修改困境、春节放假安排以及春节期间的出游计划等话题。
在对话中,星火表现出高度的人格化特征,不仅能够理解刘聪对于总结发布会 PPT 的压力,还能安慰他,推荐节日放松的方式。紧接着,星火依据刘聪提出的哈尔滨旅游需求,用东北方言介绍了当地冬季特色。当刘聪询问是否可以乘坐前段时间春运首秀的国产商用飞机 C919 前往哈尔滨时,星火会直接联网反馈,告知目前暂无直飞航班,并建议查询其他出行方案。
发布会还对星火认知大模型的多模态能力和推理能力进行了现场演示。针对较为复杂的几何轨迹问题,星火大模型能够识别并转化成正多边形轨迹问题,正确分析出行走人在一定路径下能否回到原点及其行走总距离。
在实际生活应用层面,展示了一个有趣的例子:识别校园地图。星火 V3.5 在处理空间关系图时,即使没有视觉参照,也能理解并解释复杂的校园建筑布局,进行导航和路径规划。
这很好地解决了有人会在大学迷路的问题。
输入一张室内平面布局图后,星火 V3.5 能精准分析出房间布局类型,并结合物体识别功能,详细描述了各功能区的具体位置。当被要求生成不同装修风格的效果图时,模型不仅能快速切换风格,还能够在原有基础上根据用户的进一步要求更改细节,如将背景墙更换为特定画面元素。
有相关经验的读者会知道,目前主流的 AIGC PPT 应用都还在根据大纲和通用模板生成一些“万金油”PPT 的阶段,可能适用于大学场合,但到了工作场合就会出现“人干的活比 AI 多”的情况。
讯飞智文相较于传统的 AI PPT 工具,不仅能高效快捷地一键生成符合用户需求的提纲,还能依据用户语音输入的问题及参考资料(比如老板给你的文档)进行精细化的内容分析与组织,打破了以往模板化的局限,真正实现了个性化定制。
此外,生成完毕的 PPT 还生成了对应的演讲参考文本,甚至能借助虚拟人技术将文本转换成语音播报,提升了口头汇报的准备工作效率。
乍一看,讯飞智文就是一个 PPT 制作工具,但实际上里面已经集成了讯飞星火大模型中的多种 AIGC 能力,通过无缝衔接文本生成、数据分析、文生图与语音合成等技术,展现出了一种趋于 GAI 初级形态的应用实践。科幻作品里的想象已经开始一步步走向现实,在未来,集成了多种能力的讯飞智文也会变成被集成的技术之一。
星火相传的语音精神
尽管面临着技术封锁和算力限制,科大讯飞还是携手华为成立联合团队,成功打造出能够支撑万亿参数大模型训练的国产专利平台“飞行一号”。通过算法优化与海量数据训练,讯飞语音大模型现在不仅限于单一的语音识别或合成任务,而是能够应用于万物互联时代的多元化场景,如智能家居控制、智能客服、车载语音助手等,通过语音指令理解和执行,使得用户能够以语音为主要交互方式,更便捷地操控各类智能设备和服务。
讯飞还宣布发布了首个 13B 参数规模的开源大模型,致力于推动国内乃至全球范围内的人工智能技术发展与生态建设,让更多开发者和研究者参与到语音大模型的开发和应用中来,共享技术创新成果,加速 AI 技术的普及与应用落地。
发布会的尾声,刘庆峰着重分享了一本书《星火相传》,这本书通过访谈 56 位科大校友、863 项目的老师和其他科大教职员工,真实记录了科大讯飞的初创故事,尤其是创始人导师王仁华教授从青年时期的求学,到成为中国科学技术大学教师,再到扶持学生科研能力和创业创新,直至支撑整个语音产业发展的全程贡献。
25 年前,中国语音技术领域几乎被国际巨头垄断(如 IBM ViaVoice),面临着巨大挑战,被扼了住咽喉。那时,中国的优秀人才往往选择出国,而国内科研机构与国际先进水平存在明显差距。在王仁华教授的支持下,科大讯飞创立,立志将中文语音技术做到世界最优,掌握中文语音产业的主导权。经过五年亏损后,讯飞最终实现盈利,并在语音合成、识别、翻译等领域取得世界领先的地位,直至今日发展到通用人工智能和大模型技术。
展望未来,随着类似讯飞听见这类尖端语音技术的不断发展,我们或许就能和《流浪地球》里的宇航员一样,一方说着汉语,另一方说着俄语,流畅自如地进行多语言无障碍交流。