讯飞现场演示大模型40分钟：可语音文字转换，擅长医疗数学

作者：南方都市报发布时间：2023-05-06

5月6日下午两点，讯飞星火大模型成果发布会在合肥举办。会上，科大讯飞董事长刘庆峰宣布正式推出星火认知大模型，并在现场进行了超过40分钟的实时演示。刘庆峰称，当前星火大模型在中文领域对话能力、数学能力已超过ChatGPT。

这是国内继百度、阿里、商汤、昆仑万维之后，第五家正式发布大语言模型的公司。与已有的国产大模型相比，星火认知大模型的一大特点是能在语音与文字之间进行转换——既可以直接通过语音输入问题，也能将模型输出的答案实时转变为语音，并通过持续对话调整语音的风格（比如温柔的女声等等）。

发布会现场宣布，讯飞星火认知大模型目前已向行业合作伙伴和开放平台开发者开放，可通过讯飞开放平台官网进行预约。

科大讯飞董事长刘庆峰

···

可文字语音转换，有两个对话版本

在现场演示中，首先可以看到，星火大模型的UI也沿用了当前语言大模型的一贯设计：左侧为历史对话窗口，对话框占据主要画面。不过，星火大模型也增加了一些新功能。

比如，左下角有两个可以点击切换的“纯净”与“沉浸”自研，根据星火大模型自己的回答，“纯净”模式只能访问到一些基本的搜索功能和页面元素，例如标题、链接等，而“沉浸”则能浏览整个网站的所有内容，包括图片、视频、文章等等，同时也需要更长的加载时间和更高的电池消耗。

此外，星火大模型还结合了讯飞一贯的长项：语音文字之间的转换。在输入框旁边有一个话筒图标，点击就能直接语音输入文字；同时，大模型的每一个回答右下角有一个小三角图标，点击也能实时将回答转成语音播放。

右下角为现场演示的电脑

而具体演示则从文本生成、语言理解、知识问答、逻辑推理、数学能力、编程能力、多模态七个方面进行。在现场，星火大模型实时地展现了发言稿、邮件、营销方案、英文品宣文案、小红书风格改写的效果。

此外，现场还抽取了几条弹幕问题进行提问。比如，当有网友问“外星人感冒需要戴口罩吗”，星火大模型的回答是——“作为AI语言模型，我无法确定外星人是否存在，但是如果假设外星人确实存在，那么他们可能不需要戴口罩，因为他们的生理结构和呼吸系统可能与人类不同。此外我们也不知道外星人是否会感染疾病，因此无法确定需不需要采取预防措施。”

在演示中，刘庆峰特别强调了星火大模型的部分功能。比如，他表示，在与医学相关的知识问答上，星火大模型拥有讯飞医疗专业系统中的一部分通用能力，因此在医疗能力上比ChatGPT、GPT4都要强。而在未来，讯飞还会将与医疗机构合作中获得的医疗专业知识逐步放到这一通用大模型中，使其“成为医生的诊疗助力、用户的健康顾问。”同时，刘庆峰还透露，专业的医疗领域的模型将在今年的10月24日正式推出。

而在多模态能力上，除了语音文字之间的转换，还有一些目前尚在研发内测阶段的功能。比如，输入一张英文菜单图，星火大模型可以识别其中的文字，并将其改成一张中文版菜单图返还回来。

再比如，星火大模型还可以结合讯飞的虚拟人，制作一段由虚拟人朗诵AI生成文字的视频。

在演示过程中，刘庆峰这样表示：“科大讯飞在国内目前已推出的认知大模型中，明显是领先的，中文超过了ChatGPT的水平。英文如果满分以5分来算，ChatGPT现在是4.48分，而我们已经达到4.29分。”

···

10月要整体赶超ChatGPT

其实，在发布会开始时，刘庆峰就介绍道，讯飞在去年12月15日就启动了认知智能大模型的专项攻关，他们与中国科技大学共同承建的认知智能全国重点实验室牵头，设计了一套针对科学系统的评测体系，也就是通过上述的7大类，一共481个细分的任务类型对认知智能大模型进行评测。

在演示之后，刘庆峰也表示，星火大模型当前已有具体应用场景中的落地产品，即讯飞AI学习机、讯飞听见、讯飞智能办公本、讯飞智慧舱、讯飞开放平台等5项应用，而相关功能已经可以即时上手试用。

同时，刘庆峰还现场公布了三个未来的关键时间点：6月9日，星火大模型将实现突破开放式问答，多轮对话能力提高，数学能力增强；8月15日，代码能力“大上台阶”；10月24日，在中文上超越ChatGPT，在英文上也要达到与之相当的水平。

采写：南都记者杨博雯