专访云知声黄伟：多模态是人工智能的必经之路

作者：DoNews发布时间：2024-09-03

撰文 | 李信马

题图 | 云知声

几天前，云知声发布了一段视频，视频里女声与男声的人机对话听起来十分自然，以至于听到一半，才会分辨出哪个是人类哪个是机器。而机器模仿女声的时候，几乎听不出来差别——这是刚刚发布的山海多模态大模型的实机展示。

对话中，山海可以做到实时流畅回复，几乎没有延迟，甚至可以打断和插话，还有对话中富有感情的语气、节奏、音调变化等，就像在和真人对话。能够流畅对话的大模型，意味着进入了人工智能最前沿的多模态领域，此前，在OpenAI 发布 GPT-4o 时，类似的展示中GPT-4o表现出了堪比人类的水平，一度让人感觉中美大模型之间的差距被拉大，但仅仅3个月后，这一领先优势就被国产大模型追上。

人工智能是当下全球科技领域竞争的焦点，多模态技术上更复杂，应用场景更广泛，是类似赛点一般的存在。正是少数如云知声这样的科技公司存在，才填补了我们在前沿领域的空白，并冲击世界一流水平，也让行业在未来商业化落地的时候，有强大且可靠的大模型支持。

但对科技公司而言，为什么要投入到多模态大模型的竞赛？多模态大模型又是如何炼成的？未来会创造什么样的价值？怀揣着这些疑问，我们采访了云知声的创始人兼CEO黄伟博士。

一、人工智能的必经之路

2012年，云知声在北京正式成立，当时国内人工智能的热潮才刚刚兴起，以“AI四小龙”为代表的创业公司们即将迎来十年的“黄金时代”。

不过，在今天的黄伟看来，那是属于“AI 1.0”的时代；2022年底，随着ChatGPT的横空出世，“AI 2.0”的时代大幕就此拉起。

“以前我们更多把 AI 看作是一种判别式 AI，也就是说，它只能做一些判断题，是对我们已有事物的分类，而生成式 AI 可以无中生有，创造一个完全不同的新世界。”

对于如何实现 AI 2.0 ，云知声也有自己的探索规划。2022年底，云知声开始大模型立项；2023年5月24日，云知声发布了自研的千亿规模的大模型“山海”；在今年的8月23日，云知声进一步推出了山海多模态大模型。

实际上，GPT-4o发布时，山海多模态大模型已经在紧锣密鼓的研发之中，云知声可以说是国内最早一批清楚认识到多模态的价值，并统一思想进行规划和投入的科技公司。

采访中，黄伟认为，从大语言模型到多模态大模型，是人工智能发展必然的路径，大语言模型做到了从 0 到 1 的突破，而突破后一方面通过 Agent、RAG 等技术持续提高大语言模型“智商”，另一方面则以多模态引领从1到2，“二生三，三生万物”。

“我觉得多模态才是人工智能的本源，我们谈人工智能的时候，通常会把机器智能和人的智能进行类比。人的智能不光有大脑，还有眼睛、耳朵、鼻子、嘴巴、触觉等，今天人工智能的数据来源更多是文字，未来只有将声音、图片、视频，还有嗅觉、触觉等更多的感知数据纳入，才会真正变成一种类人的智能。”

他举了个例子，人类想要和机器通过自然语言来交流，如果通过纯粹的大语言模型，那么要分成三个阶段：首先，是将人类的声音识别转化成文字；其次，大语言模型根据输入生成文字内容；第三，将文字内容再转化成音频播放。

这样，一个任务就被分成了三个任务，每个任务都会引入短暂的延迟，最终人机交互的延迟就会很明显，用户体验差。而要有较快的响应速度，那就要通过多模态大模型来实现。目前山海多模态大模型的时延大概在 0.3 秒到 0.4 秒左右，基本上已经和正常人的交流速度相差无几了，而且声音还会带上对应的感情，而非冰冷的播音腔。

黄伟预测，未来的大模型会是“世界模型”，大模型可以通过感知设备和技术来感知物理世界，理解物理世界的运行规律，从而解决现实中的复杂问题。

自2018年，云知声连续六年上榜了 CB Insights 全球人工智能独角兽榜单，在人工智能领域是少有能达成这一成就的创业公司。尤其在大模型兴起后，不少曾经的明星创业公司也开始“星光黯淡”，而云知声却与时俱进，在大模型领域的势头凶猛。

黄伟介绍，山海大模型的目标是通用能力达到世界一流，在医疗等关键领域达到世界第一。目前，山海大模型在多个国际权威评测中都位列前茅，在刚刚最新发布的SuperCLUE 国内外通用大模型基准榜单中，山海大模型位列第一梯队；在医疗领域，也曾登顶MedBench、MedQA、C-Eval等多个评测榜单。

但知易行难，云知声的技术转型，又是如何顺利实现的呢？

二、旧的传承，新的征程

黄伟认为，从技术本源上来讲，大语言模型以及多模态大模型都不是从零开始的，而是对原有技术的升级。“之前是BERT，再之前是Transformer，技术上是一脉相承的，只是今天我们的规模更大，数据量也更大，量变引发了质变，模型产生了涌现能力，我们过去积累的优势，依旧会在产品得到体现。”

在技术研发的路径上，云知声选择“分步走”，简单来说，就是分阶段做多模态大模型，先做文本和语音的融合，再做图像视频的融合。这样的好处是相对比较稳健，毕竟多模态大模型全球都还处于探索之中，没有确定成功的经验，另一方面，是能够发挥出云知声在智能语音领域的优势。

作为国内对话式 AI 独角兽，云知声在智能语音领域有着丰富的积累，曾在interspeech、VoxSRC 2023、BC国际语音合成大赛等多项国内外顶尖的语音交互评测/比赛中获得过冠军或收录论文，也有着丰富的工程化和产品化经验。

山海多模态大模型，是在山海大模型的基础上演进的。据黄伟介绍，在算法和数据方面，首先，云知声团队用不同的编码器，将海量的不同模态的数据（文本、音频、图片等）进行了编码，然后通过适配器和原有的山海大模型进行融合预训练。

“这里面的难点，第一个是数据配比，文字的数据密度很高，但音频和图片的数据密度并不高，比如5TB的数据，里面不同类型数据的比例不同，那数据要怎样合理分配效果才最好？第二个是我们要通过多任务的指令微调和对齐，让模型来理解各种指令，但你怎么快速地构造这个指令训练器？靠人工的话，无法满足数量和速度的需求。此外，数据平台要怎么搭建？所以说真正想把多模态大模型做好，这里面有很多的挑战。”

还有一些难点，来自于算力和存储。多模态大模型预训练对算力的要求极高，而音频、图片数据由于更加稀疏，对存储的要求也更高，因此，团队要有非常成熟的搭建计算平台和分布式训练的经验。

比如云知声，目前仅语音训练数据就有几十万小时，“我们构建了非常完善的分布式数据的核心流程，几十万小时数据，你不能光靠录音来获得，我们通过算法合成的方式，差不多可以做到每天合成几万小时的数据。”

解决这些难点，对研发团队的工程化能力也提出了极高的要求，需要丰富的经验和技巧。回顾过去的两年，云知声的研发团队经历了无数困难，黄伟感慨道：“我觉得克服困难的过程，是比困难更大的困难，团队不止需要足够的能力，还需要强大的韧性。今天来看，可以云淡风轻的总结经验，但当时却是不断的出现问题和煎熬，好在我们都解决了。”

三、商业化：新酒、新瓶

做大模型最重要的是什么？

作为跨越 AI 1.0 时代的行业老兵，黄伟认为，是将大模型变成真正在场景中为客户创造价值的产品和服务。

“拿着锤子找钉子”，是长期以来对人工智能行业商业化的描述，早些年，不少创业公司讲一个好故事，就能拿来融资，提高估值，但技术迟迟不能转化为收入，故事就像泡沫一样被吹爆了，公司也迅速从“黄金时代”进入“黑暗时代”。

初创阶段、膨胀阶段和黑暗阶段，云知声都经历过，因此面对市场更加清醒，在黄伟看来，大模型带来了机遇，但大模型本身并不是商品，而是巨大的成本支出。

“在 AI 1.0 时代，我们无论是做语音识别还是图像识别，可能几台服务器就够用了。但今天做生成式AI，我们需要几百台服务器，未来还需要更多，光这些服务器本身就是不小的成本，还有人力、电力和数据等。你做一个模型，能不能带来商业转化是一个重大的挑战，对中国的创业者来说尤其如此，因为在中国的商业环境里，哪怕你花了一个亿去做研发，客户可能都不愿意付给你一百万。”

成本的陡增，也让商业化更加迫在眉睫，不少大模型厂商选择按tokens计费“卖模型”的模式，不过黄伟认为，这并不是唯一的方向。云知声规划的大模型商业化路径，可以描述为“先用旧瓶装新酒，再用新酒注新瓶”。

“旧瓶”是指云知声已经成熟落地的商业化场景，比如在医疗领域，云知声推出过语音病历录入系统，提高了医生的工作效率。而“新酒”则是指大模型技术，可以让产品的能力进一步升级。黄伟举了个例子，在问诊环节，医生和患者对病情不断进行问答：

医生：您好，没来看过是吧，您有什么不舒服啊?

患者：之前体检，说我甲状腺功能不正常。

医生：什么时候查的？

患者：有半年啦

医生: 您有心慌、怕热、出汗多的症状吗?

患者：没有

医生：拉肚子呢?

患者：也没有

医生：除了体检化验，其他异常的感觉都没有？那你报告带了吗？

患者：是这样，当时我去我们社区医院看过，大夫说我是甲亢，给我开了赛治

医生：赛治吃的多大量?

患者：一顿两片，一天就吃一次

医生：现在一直吃着呢是吗?

患者：没有，我吃了一段时间，也没感觉有什么不一样，朋友跟我说不一定是甲亢，药盒上还写了一大堆可能出现的副作用，我就停啦。

双方对话的同时，大模型也在不断输入对话的内容，当对话结束时，就会给出了一份诊断建议和治疗方案。中国医疗资源相对缺乏，分布也不均衡，这样的人工智能，在中西部地区和社区康养的场景下，就相当于给医生提供了助手，也给患者安排了私人医生。

还有在手术室，医生手术负担重也是医院的常态，以往手术结束后，医生还要写手术记录，既增加了疲惫感，也可能会忘记中间的具体细节。而云知声的产品，可以现场记录医生和护士之间的对话，然后基于对话识别手术的关键信息，当手术结束后，自动生成一份记录。

“我们并不是手里拿着锤子找钉子，我们是把锤子升级，快速满足现有客户的需求。”多年前，云知声尝试让医生使用麦克风来沟通，很多医生用不惯，但当他们发现产品的确好用后，慢慢用的人就越来越多了，技术和产品就是这样不断迭代和推广。

而当产品打磨成熟后，云知声又可以开拓新的行业，新酒注入“新瓶”中。黄伟介绍，除了医疗行业，山海大模型在互联网、汽车、交通等行业也在逐渐落地。

正确的道路不止一条，市场的需求也各式各样，商业模式存在即有其合理性，重要的是，企业要选择适合自己的商业模式。人工智能赛道是一场漫长而残酷的淘汰赛，无论是“四小龙”还是“五小虎”，都是时代的符号，但能活到最后的，才算是跑完了全程。

对于行业未来的发展，黄伟给出了“任重道远”四个字，“无论是大语言模型，还是多模态大模型，我们都看到了非常清晰的远景，但是挑战也非常大，对所有从业者来说，想要做更好的技术、更好的产品，打造更健康的商业模式，就要放弃浮躁的心态，去追求产品落地。只有这样，中国人工智能行业才能健康发展，而不是充满泡沫——如果泡沫破裂的话，对中国人工智能行业将是巨大的伤害。”

专访云知声黄伟：多模态是人工智能的必经之路

推荐体验

相关资讯

专访云知声黄伟：多模态是人工智能的必经之路

Agent（智能体）：通往AGI的必经之路

李开复：自主创新是大模型赛道必经之路

云知声黄伟：深耕人工智能11年未来持续升级山海大模型能力

【AI开发系列】对接OpenAI必经之路！

近期资讯

如何轻松找回忘记的ID密码及提升账号安全性的方法

晶安玻璃取得玻璃磨边机辅助组件专利，减少玻璃加工的时间

成都时代运峰取得玻璃加工精磨组件专利，增加装置使用的灵活性

如何轻松打开华为手表蓝牙并连接手机的详细步骤解析

如何轻松取消隐藏内容，管理你的数字生活与隐私设置

滕州市丰华玻璃取得钢化玻璃倒角装置专利，实现对钢化玻璃进行倒角的目的

如何轻松安装和卸载手机卡与存储卡的实用指南

四川省鑫鼎顺玻璃取得双向打磨玻璃装置专利，具有打磨效果好且工作效率高的优点

如何轻松打开.pkg文件：macOS用户的安装指南及注意事项

成都时代运峰取得玻璃加工用磨边专利，使装置能对玻璃四个边角进行打磨

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响