当前位置:首页|资讯|ChatGPT|科大讯飞|编程

超越ChatGPT 科大讯飞领跑国产大模型开启第二阶段

作者:电脑报发布时间:2023-10-27

原标题:超越ChatGPT 科大讯飞领跑国产大模型开启第二阶段

如果国产大模型有自己的发展编年史,10月24日这一天值得留下一笔。

10月24日,科大讯飞举办全球1024开发者节,本次活动以“解放生产力,释放想象力”为主题,开展科博展、主论坛、AI开发者大赛、17场行业分论坛、6场城市峰会等系列活动;来自278个城市3.4万个开发者团队激烈角逐年度十大新锐团队的诞生。

在活动上,科大讯飞重磅发布了自研的认知大模型——讯飞星火V3.0。不仅能作为个人工具、智能助手,还将用于医疗、教育、法律、金融、工业、城市等多个专业领域,提升运营和生产效率。

一切正如本次活动主题,用大模型创造新的增长点,进一步释放生产力。

你好,讯飞星火V3.0

讯飞星火进步非常快,从5月6日发布至今,已经历经2次升级,V3.0版本实现了文本生成、语言理解、知识问答、逻辑推理、数学能力、代码能力、多模态能力等七大能力均持续提升。特别是提升了大模型代码能力,实现全面对标ChatGPT 3.5,中文超越,英文相当。

在数学能力上,讯飞星火V3.0已经开始领先于ChatGPT,除了数学解题,还能根据数学题中的规律总结算式。

另外,讯飞星火V3.0新增了虚拟人格功能,它可以根据性格模拟、情绪理解、表达风格来形成一个初始人设,再结合特定知识学习、对话记忆学习,形成一个更个性化的AI人设。

同时,科大讯飞发力医疗,以星火模型为基础,推出讯飞星火医疗大模型。

这个模型具备医疗领域的海量知识问答、复杂语言理解、专业文书生成、诊断治疗推荐,以及多轮交互和多模态交互六大核心能力,并且通过信通院和国家卫健委组织的标准规范评测。

它可以帮助医生提升诊疗服务质量,也可以为每个人提供日常健康咨询管理服务。最重要的是,它还可以有效降低医生误诊发生的概率,这无论是对于患者,还是医生自己都是非常实际且重要的。

像患者在看病之前不知道怎么准确表达自己的病情,自己买药不知道有何禁忌,拿到体检报告后想马上看出自己去年和今年比有什么健康异动。针对这种场景,科大讯飞推出讯飞晓医App。

例如寻医问药之前,患者可以现在讯飞晓医App中输入自己的症状,AI会像一位真实的医生询问相关情况。买药时,App能帮助患者更合理地用药和药物搭配,或体检后用App拍摄体检单,能生成体检总结,告知患者健康情况变化,帮助人们“对症复诊”。

讯飞晓医背靠星火医疗大模型,通过上线实际使用数据抽查12万例并通过国家科技信息资源综合利用与公共服务中心(STI)第三方测试数据显示,讯飞星火医疗大模型在医疗海量知识问答、医疗复杂语言理解、医疗专业文书生成、医疗诊断治疗推荐等六大核心能力超越GPT-4。

除此之外,科大讯飞为了加速星火V3.0落地,联合行业龙头共同发布12个行业大模型,包含金融、汽车、运营商、工业、住建、物业、法律等行业,加速产业升级。

因此无论是自身的认知性能,还是推进应用落地,讯飞星火V3.0都有拿得出手的东西去对标GPT-4,稳居国产大模型第一梯队,率先进入第二阶段,进一步解放生产力。

生产力应成为衡量大模型的重要维度

自ChatGPT问世以来,全世界掀起新一轮人工智能浪潮,中国科技企业也纷纷投入资源研发人工智能大模型。

截至2023年8月,我国已发布的大模型达156个,10亿级参数规模以上的已超80个,数量已接近美国。另外,我国具备全球最完整的产业体系,为大模型的落地应用提供了广泛的创新空间。

当国产大模型解决从无到有问题后,就应尽快解决落地以及如何投入到实际应用中,去解放生产力,提高生产力,这也是大模型第二阶段竞争的主题。大模型对生产力的提升多少,本质就是应用落地速度的比拼。

因此大模型在各行各业中的表现就成了重中之重,那么对比其他大模型,特别是ChatGPT,讯飞星火V3.0的表现如何?

为了深入了解大模型的实际应用情况,国务院发展研究中心国研经济研究院开展了一项大模型横评研究,旨在了解大模型在不同行业中的表现。

横评中选取了讯飞星火V3.0、ChatGPT、GPT-4,以及另一款国产大模型作为测评对象,测评行业选择了知识密集型的法律服务与工业设计、医疗、教育、零售以及部分制造业等。

另外本次测试还包括基于临床执业医师资格考试、中医执业医师资格考试、国家统一法律职业资格考试、机动车检测维修专业技术人员执业资格、全国计算机技术与软件专业技术资格等权威职业资格考试构建了测评题目,以评估大模型在行业知识、技能掌握水平、生产经营场景理解能力等维度的实际水平。

结果显示,讯飞星火V3.0在上述行业领域中的综合准确均高于ChatGPT 3.5,相比GPT-4则是不分上下。细分到具体领域,教育、医疗、法律行业表现突出,在医疗、法律行业分别超越GPT-4 5.3%和4.1%,在教育行业的表现与GPT-4差距小于1%。

这意味着,讯飞星火V3.0在人文、社会学科领域,可以有比ChatGPT更快应用速度。这是为何它在前文提到的医疗领域能有比较大的建树,其他领域也是如此,比如表现同样优秀的教育领域。

在教育领域,讯飞星火V3.0赋能AI学习机,首次发布启发互动式英语AI答疑辅学,实现实现个性化解决、启发引导式提问、互动探究式学习。根据官方现场的演示,无论是探讨语法对错还是理解文章主旨,讯飞AI学习机都能准确回答,

根据2023年9月安徽地区七八年级试点用户的统计数据显示,小学英语错题解决率,从答案解析学习的77%到AI答疑辅学的90%,效率提升了13%;初中英语错题解决率:从答案解析学习的61%到AI答疑辅学82%,效率提升了21%。

目前,AI学习机已经拥有了英语口语陪练、中英作文批改、数学互动辅学、百科自由问答、亲子教育助手、智能编程助手、创意绘画伙伴以及英语答疑辅学8款基于大模型的类人辅学功能。

值得一提的是,科大讯飞还将学生的心理健康考虑了进去。基于讯飞星火打造的AI心理伙伴正式发布,它就像朋友一样会认真倾听学生的烦恼,帮助他们解决问题。

因为学习了超过10亿条心理类数据、40万篇期刊文献、100万个脱敏心理对话案例、550万个心理评估数据,所以它可以很好地开导学生,加上因为面对的是AI,而不是老师和家长,学生自己也不会有什么心理负担。

就像刘庆峰说的,我想这是很多家庭的痛点,是现在社会迫切需要大模型来解决的大家的幸福感问题。至今,它已覆盖3202所学校,服务259万中小学生。

在文献领域,讯飞星火和与中科院文献情报中心联合打造科技文献大模型,可以实现成果调研、论文研读、学术写作三大功能。

在工业领域,科大讯飞发布基于讯飞星火的羚羊工业大模型,1个月内,羚羊工业互联网平台平台的工业文本生成、知识问答、理解计算、代码生成、多模态5大核心能力再度升级,不到一个月时间平台用户总量提升59%,平台服务企业次数增加88%。

不过,刘庆峰在发布会上自己也谈到,客观来说,我们中国现有的大模型跟GPT-4比都还是实实在在是有差距的。OpenAI有上万亿的浮点参数,有这么多的经验以及人机协同的强化学习、数据积累等等,确实还是领先一步的。所以,我们必须正视今天和GPT-4的差距,找到差距所在。

通过上述实例,可以看出讯飞星火V3.0虽然是刚刚发布,但已经运用于多个领域,并开始服务各行各业的人群,应用场景更多,能力更强。而它之所以能应用的如此迅速,本质还是科大讯飞本身的自研实力,这一点在眼下这个时间点显得更为重要。

如同华为、苹果等品牌不留余力地构建自己的生态,讯飞星火V3.0也需要自己的生态。在程序开发、用户体验,以及增强自身的竞争力和应用场景等方面,都是必不可少的。

自5月6日星火发布以来,讯飞开放平台新增143.4万开发者团队,同比增幅331%,汇聚553万AI生态开发者团队。其中新增大模型开发者17.8万,且超过10万家企业客户正在使用讯飞星火创新应用。

科大讯飞还是一家拥有博士后工作站的企业,主要涉及人机语言通信、自然语言处理以及软件工程等领域,已经与中国科学技术大学流动站建立了长期合作关系。

此外,科大讯飞联合华为发布了基于昇腾生态的大模型底座——“飞星一号”,是1024全球开发者节的重磅环节。

这是非常关键的一步。美国商务部已经收紧了对华的高端AI芯片出口,甚至民用的RTX4090都在封禁之列,即便是规格缩水的A800、H800都要出口许可证才能出售给中国企业。之前刘庆峰就表示过,中国在人工智能算法方面都没有问题,但算力似乎始终被英伟达按住。

只有自己掌握节奏才是破局的关键,要拥有一个属于中国自己的算力底座,国产大模型才能拥有光明的未来,才有基础为全球大模型发展提供第二个解决方案。这就是“飞星一号”面世的现实意义。

有了国产算力底座,算力的发展就不会受到外界限制。科大讯飞与华为合作从今年上半年就已开始并数次升级,这也是半年内星火大模型训练和推理效率均能翻番的原因之一。

科大讯飞的人才、资源、技术以及与其他技术企业的合作,能支持星火大模型的长久发展以及在不同领域中的应用,并将生产力作为衡量大模型能力的重要纬度,是它能领跑第二阶段竞争的根本原因。

应用落地正加速

科大讯飞在现场设置了科技馆、教育馆、生活馆、生态馆、行业馆、工业馆和科学艺术展上大模型深度赋能下的300+项应用展项。

像科技馆展示了认知大模型“1+N”体验区和AI机器人,大模型体验区共有二十多个展项,集中展示讯飞星火V3.0升级的各项技术能力,如多模态、多语种语音、代码、推理能力等,还有讯飞星火里多项兼具实用性和趣味性的小助手。

在AI机器人体验区,各类机器人齐齐登场。“讯飞超脑2030”计划的最新成果——业界首个集成大模型和具身智能的人形机器人和家庭陪伴机器人首次亮相。

工业馆从核心技术、行业赋能和产业协同三个角度出发,依托工业领域两大国家级创新平台:国家级制造业创新中心——国家智能语音创新中心、国家级“双跨”平台——羚羊工业互联网平台,系统展出讯飞在新一代信息技术与工业深度融合的重点成果。

行业馆覆盖面就比较大了,包括智慧城市、金融科技、运营商三个模块进行展出,在行业馆,可以通过城市一网统管演示、法律大模型互动、数智园区体验等重点场景,充分展示数字赋能千行百业,支撑城市数字化转型建设成果。

另外,现场还有教育馆、生活馆、生态馆、科学艺术展,展示科大讯飞以及国产人工智能在不同领域中应用。人工智能与我们日常生活的联系只会越来越紧密,为每个行业,每个人打造专属AI也是迟早的事。

写在最后

到了今天这个时间点,大模型的竞争已经进入第二阶段,即应用落地速度的比拼,将大模型投入到实际的生产生活中。讯飞星火大模型对于不同行业的实质影响已经愈发凸显。仅就应用这点来说,已经走在了其他大模型前面,做出了前所未有的成绩,成为大模型的迭代标杆和行业的里程碑。

但也要注意到,前所未有就意味着科大讯飞不能从过往经验中找到答案,大模型该如何应用于各行各业,如何提升社会生产力和个人幸福感,基本没有先例可循,只能自己摸索解决之道。

正如科大讯飞董事长刘庆峰在1024开发者节的主论坛演讲中说:“2014年上半年,讯飞星火将对标GPT-4。这绝不仅仅是一个简单的技术对标问题,我们要走出自己的技术路线,走出自己的产业方向,形成自己完整的生态。从这个角度来说,大模型时代的序幕才刚刚拉开!”


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1