5月6日,讯飞星火认知大模型成果发布会如期举行。科大讯飞董事长刘庆峰、研究院院长刘聪发布讯飞星火认知大模型,现场实测大模型七大核心能力,并发布教育、办公、汽车、数字员工四大行业应用成果。
发布会现场,语音输入,实时互动,无论是文本生成、语言理解,还是知识问答、逻辑推理,亦或是数学能力等,星火大模型都表现出色。
刘庆峰表示,认知大模型成为通用人工智能的曙光,科大讯飞有信心实现“智能涌现”。当前讯飞星火认知大模型已经在文本生成、知识问答、数学能力三大能力上已超ChatGPT。他进一步公布大模型年内三次升级时间点,10月底将整体赶超ChatGPT。后续科大讯飞还将联合开发者推动大模型应用落地,共建人工智能“星火”生态。
一、提出通用人工智能七大维度481项评测体系
赶超GPT要有科学的方法和体系
自去年11月30日ChatGPT发布以来,认知大模型技术阶跃持续进化,人工智能在全球引起了广泛关注,掀起了全新的热潮。在多个领域,认知智能都表现出了非常强大的能力。对于人工智能来说,认知大模型成为通用人工智能的“曙光”,它出现的历史意义不亚于PC或者互联网的诞生。
刘庆峰表示,从ChatGPT关注的48个主要任务方向和讯飞开放平台上400多万开发者团队的需求分析,通用人工智能应当具备七大维度能力,包括文本生成、语言理解,知识问答、逻辑推理、数学能力、代码能力、多模态能力等。
面向全新的人工智能时代机遇,科大讯飞已为认知大模型的“智能涌现”做好了源头核心技术的储备。
2011年科大讯飞便承建了语音及语言信息处理国家工程实验室,“我们提出让机器像人一样能听会说,这一次认知大模型本质上是一次对话式的通用智慧的涌现,语音和语言的核心能力是一个基础条件。”刘庆峰说。
2014年科大讯飞推出“讯飞超脑计划”,明确提出:让机器像人一样能理解会思考。2022年,又升级为“讯飞超脑2030计划”,提出让懂知识、善学习、能进化的通用人工智能技术成为每个人未来发展的重要机会,让机器人走进家庭。
“在国家平台和讯飞超脑计划的支撑下,过去几年我们在认知智能领域取得了一系列全球领先的成果。”2017年,科大讯飞承建认知智能国家重点实验室,也就是从这一年起,科大讯飞不仅让机器在全球首次通过了国家职业医师资格考试、超过了96.3%参加考试的医生,并且在SQuAD机器阅读理解中全球首次超过人类平均水平,刚刚过去的2022年在OpenBookQA 科学知识推理中,单模型也超过人类平均水平。“可以说多年来,科大讯飞已在认知智能领域有了丰富的储备和积累。”
刘庆峰透露,在2022年12月15日,科大讯飞正式启动“1+N”认知大模型专项攻关,其中“1”就是指通用认知智能大模型,“N”就是大模型在教育、办公、汽车、人机交互等各个领域的落地。
作为人工智能“国家队”之一,刘庆峰表示:“我们要向OpenAI致敬和学习,同时也要快速追赶并努力超越,而这需要一套科学系统的评测体系。“科大讯飞通过认知智能全国重点实验室牵头设计了通用认知大模型评测体系,并与中科院人工智能产学研创新联盟和长三角人工智能产业链联盟共同探讨形成了覆盖7大类481个细分任务类型。在科学的评测体系中,推动大模型的发展。
刘庆峰强调,“今天要看一个大模型系统到底好不好,首先要看它是不是能解决刚需、是不是真的有用,而不是一个简单的单点测试。”
二、讯飞星火认知大模型三大能力已超ChatGPT
发布会现场,科大讯飞围绕讯飞星火认知大模型的七大核心能力,即多风格多任务长文本生成、多层次跨语种语言理解、泛领域开放式知识问答、情景式思维链逻辑推理、多题型步骤级数学能力、多功能多语言代码能力、多模态输入和表达能力,展开现场实测。大模型更是在文本生成、语言理解、数学能力上表现出“智慧”的火花,效果惊艳。
写邮件、做方案、讲故事,讯飞星火大模型到底有多会写?
“你为什么叫星火?”科大讯飞研究院院长刘聪直接语音输入,讯飞星火认知大模型不仅准确的进行了语音转文字,而且迅速给出了它的回答。
“今天是科大讯飞星火认知大模型的发布会,线下和线上观看发布会的朋友们一直以来对科大讯飞都非常关心和支持,非常感谢大家,请帮我写一篇欢迎词。”短短几秒钟,一篇要点俱全的欢迎词随机生成。
星火大模型编故事的能力也很出彩。“孙悟空和奥特曼也偷偷潜入了会场,他们都争着想做讯飞星火认知大模型的代言人,还为此吵了一架,请根据上述信息创作一个故事。”星火大模型随即脑洞大开,一段生动的故事就娓娓道来。“每一次重新生成,结果都是不一样的,这也是我们星火大模型的魅力所在。”刘庆峰表示。
此外,它还能写邮件、做方案、写新闻通稿等,它还能生成英文宣传,修改英语语法错误,展现作为AI助手的多才多艺。
刘庆峰表示,在长文本生成上,讯飞星火大模型在国内明显领先,并且在中文方面超过了Chat GPT,并且在持续进步中。
中文理解十级测试,现场观众:讯飞星火满分!
在语言理解上,星火大模型的变现也很出彩。刘聪现场问到:
“俗话说男子汉大丈夫宁死不屈,但是俗话又说男子汉大丈夫要能屈能伸,请问这两句话怎么理解?”
“如果一个小伙子跟女朋友吵架了,他应该宁死不屈还是能屈能伸呢?”
大模型都很好的理解了特定的句子和场景含义,随着问题的变化,灵活调整自己的答案。精彩的回答也让现场观众报以热烈掌声。
这还不够,大模型现场还展示了“情感分析”能力,展现出跟人类共情的潜力。
“今天小明参加比赛获得了冠军,拿到奖杯后他默默地站了一分钟。今天我上课被老师批评了,走出教室后我默默地站了一分钟。请问上面这两个默默地站了一分钟分别表达了什么心情?”
刘庆峰表示,科大讯飞现在的语言能理解能力相比ChatGPT还略有差距,但已超越国内同类产品。
大模型聪明与否看数学,讯飞星火数学能力远超过国内外大模型
在数学能力中,讯飞星火大模型展现出“学霸”气质。除了常规计算、几何、情景应用等,刘聪现场也抛出了复杂的计算题:“花坛里有三种花,一共88朵,其中月季花的数量是菊花的4倍,牡丹花的数量是菊花的5倍少2朵,那么请问花坛里一共有多少朵牡丹花?”
星火大模型很快准确给出了答案,并给出了解题步骤。刘庆峰表示,数理能力一定程度代表了一个大模型的聪明程度。讯飞星火大模型不仅在国内系统中遥遥领先,也超过了ChatGPT。
此外,刘聪还展示了大模型面向泛领域开放式知识问答,它具备很好的通识知识,能够对生活常识、科学知识、工作技巧,以及医学知识等应对自如,该能力也已超过ChatGPT。此外,星火大模型也具备逻辑推理能力与代码能力,为了还将进一步升级多模态输入和表达能力,不断实现自身迭代进化。
刘庆峰表示,虽然目前大模型技术还有待攻克的缺陷,比如新知识难以及时更新、事实类问答容易“张冠李戴”,史实、传统典籍等容易“编造情节”等,但这些问题在今年会有明显的改进。
同时他公布了年内大模型技术持续升级的三个关键里程碑节点:6月9日,将突破开放式问答、多轮对话能力明显提升、数学能力再升级;8月15日,代码能力升级以及多模态交互能力提升,希望能帮助到更多的合作伙伴及开发者团队;10月24日,将实现通用模型对标ChatGPT,中文超越ChatGPT的当前版本,英文能做到相当水平,并在教育、医疗等领域做到业界领先。