5月28日,OpenAI 表示,它已经开始训练一种新的 AI模型,该模型将接替驱动 ChatGPT 的 GPT-4。直至今日,OpenAI 仍被公认为掌握了大模型核心秘密的公司,其领先地位尚未动摇,其他公司还处于追赶状态。
经过 2023 年“百模大战”的洗礼,国内的大模型竞赛也进入了下半场。今年5月,智谱AI的入门级产品GLM-3 Turbo模型、字节跳动的豆包大模型、百度的文新大模型等一众厂商一掀起了一轮的大模型降价潮,这其中,阿里云的举措最大,9 款主力模型纷纷宣布降价。各家正在快速抢占市场,从而加速商业化落地。
从“卷技术”到‘卷价格”,大模型的竞争还远未结束,但它已经注定成为了少数人的游戏。在《云上的中国3: 剧变中的AI时代》中,吴晓波带领作者团队经过实地调研与深入采访,捕捉记录近2年AI行业的发展和技术创新,客观还原行业现状和各行各业中的创新应⽤场景,探索生成式AI真正的商业价值。
ChatGPT 并没有颠覆世界,但它彻底改变了每个人对人工智能这项技术的看法,同时也吹响了全球科技企业开展大模型“军备竞赛”的号角,预示着一个崭新的人工智能时代的到来。
过去一年,在中国人工智能领域中,“百模大战”绝对是一个绕不开的话题。2023 年 3 月 16 日,百度官宣新一代大语言模型文心一言启动邀请测试。2023 年 4 月,通义千问大模型在阿里云峰会上揭晓。2023 年 9 月 7 日,在一年一度的全球数字生态大会上,腾讯的混元 大模型正式对外亮相。
紧接着,华为、京东、字节跳动、美团、科大讯飞等科技互联网大厂也纷纷入局。此外, 移动、联通、电信三大运营商,清华、复旦、哈工大等高校和科研院所,还有达观数据、百川智能、第四范式、出门问问等人工智能创新公司,都在 2023 年发布了各自的大模型。
任何怀揣远大理想且具有研发能力的科技企业,都想将大模型研发的主动权握在自己手里。事实上,大模型,从一开始就注定是一场“高门槛的游戏”。如果没有雄厚的资金支持,甚至连拿到入场券的资格都没有。据国盛证券报告估算,GPT-3 训练一次的成本约为 140 万美元。在 GPT-4 的发布会上,OpenAI 的 CEO 奥尔特曼透露,单单 GPT-4 的训练总成本就超过了 1 亿美元。
训练完毕后,大模型的运行成本也不菲。以 ChatGPT 在 2023 年 1 月的独立访客平均数 1300 万计算,其对应芯片需求为 3 万多个 A100,初始投入成本约为 8 亿美元,每日电费在 5 万美元左右。
质疑的声音也随之出现:大模型本身并不会直接产生价值,无论怎么“卷”大模型的研发,最终还是要回归到商业的本质上来,公司不能一味烧钱,必须向盈利的目标迈进。
2023 年 4 月,钉钉、天猫精灵等产品已经接入了通义千问进行测试,成为国内第一批“尝鲜”大模型的产品或应用。这充分体现出互联网大厂们的优势,它们本身的业务场景足够丰富和多样,哪怕没有外部客户,大模型产品在自己的业务上也有足够多的场景进行验证和优化。
很快,阿里巴巴找到了 AIGC 领域的第一款爆款应用——妙鸭相机。2023 年 7 月 17 日,妙鸭相机正式在微信小程序上线。用户只要付费 9.9 元,上传 20 张照片,就能制作出一套 “数字分身”,使用“数字分身”又可以制作出多套不同风格的写真,这是一个前所未有的 AI 图像生成产品,上线后迅速在社交媒体刷屏。
红杉资本在“Generative AI’s Act Two”(《生成式 AI 的第二幕》) 一文中指出,目前生成式 AI 应用的最大问题,是需要证明自身的价值,因为目前基于基础大模型开发的应用用户留存率明显不够。当前头部消费级 App第一个月的用户留存率能达到 60%~65%,甚至能达到 85%。生成式 AI 应用的用户留存率,中位数只有 14%。这意味着,用户还没有在生成式 AI 产品中找到足够价值,不能够每天都使用。如果开发者想要建立起持久的业务,就需要解决用户留存问题。
妙鸭相机的负责人张旭也提到,我们思考的是否能够通过 AIGC 技术去满足需求或解决痛点。而并不是说,因为有了 AIGC 的能力,才去探索技术在哪个场景更适合落地。总之, 这应该是一个从用户需求出发,反向倒推的过程。
在“百模大战”的下半场,在人工智能领域纵横多年的互联网大厂们已经开始构建大模型生态系统:在 C 端,大厂面向创作者和开发者提供服务;在 B 端,则以提供解决方案为主, 尤其偏重金融、文旅、传媒、医疗、政务等行业,同时也为其余大模型研发企业提供算力、数据管理等基础设施服务。
如果说算力还是烧钱可以解决的问题,高质量数据的匮乏则是大模型发展中一个绕不开的难题。从训练到部署应用迭代,AIGC 众多垂直场景的落地,通用智能、具身智能等前沿领域的探索,都与高质量、专业化的场景数据密不可分。
这其中,数据标注扮演着不可或缺的上游角色,经验丰富的专业团队或受过专门培训的人员会对结构化及非结构化的原始数据集进行细致的标识、分类、注释和标记操作,这些原始数据涵盖图像、文本、音频、视频,乃至复杂的自动驾驶数据等多种形态的数据资源。
追溯行业发展初期,数据标注完全依赖人工手动完成,以此构筑和丰富机器学习模型所需的训练数据集。尽管这种方法耗时费力且成本较高,但人工标注的确在确保准确性方面表现出无可替代的优势。
在人工标注的数据库中,最著名的当属李飞飞与普林斯顿大学的李凯教授 2007 年合作创建的 ImageNet。人类的眼球平均每 200 毫秒就移动一次,如果将眼睛视为一个照相机,那么一个三岁的儿童就已经看过上亿张图片了。李飞飞认为,正是因为通过如此大量的学习,人脑才具备视觉识别的能力,要让计算机具备视觉识别能力,就需要大量的训练材料。
由于图片标注需要大量人工劳动,ImageNet通过云计算技术进行众包,请全球 160 多个国家近 5 万名网民对互联网上的图片进行标注。到 2009 年,ImageNet 上已经包含了 2.2 万个类别的 1500 万张经过清洗、分类和标注的图片。并且这个数据库完全开源,免费提供给全球所有研究者。可以说李飞飞创建的 ImageNet 大大加速了人工智能图像识别技术的发展,也让全世界看到了深度学习的无限潜力。
由于数据标注并非许多客户公司的主营业务,它们倾向于将其外包,也因此催生了一众专业数据标注初创公司,例如Scale AI、Dataloop、SuperAnnotate等。这类公司开始尝试人机协同的新模式,利用模型预先筛选和初步标注数据,随后交由标注员复核校订,相较于传统的纯人力标注方式,这种 AI 辅助标注手段有效提升了标注速度。
当然,数据标注只是第一步。如果说数据标注是为模型提供训练样本,那么数据向量化就是将数据进一步转化为大模型可以理解的语言。简单地说,向量是大模型传输数据的基本单元。无论是一句语言,还是一张图片,想让大模型理解这些信息,它们首先要转化成一个向量。有了向量数据库,大模型就可以对其中的数据进行进一步的交互和推理,从而帮助大模型理解专有概念和数据,并减少幻觉。
随着 2022 年底大模型的爆发,向量数据库也迎来了自己的“iPhone 时刻”。
2023 年这一年,有一家中国 AI 基础设施创业公司及其产品被 OpenAI和英伟达两家 AI 巨头推荐为合作伙伴,这就是 Zilliz,其向量数据库产品为 Milvus 和 Zilliz Cloud,这让 Zilliz 成为 AI 领域无人不知的人工智能基础设施创业公司。
目前大模型应用落地的主要难点有两个。第一个是数据的实时性,例如 ChatGPT 的训练数据并非实时更新。而大语言模型的工作原理——预训练模式决定了模型重新训练一次需要巨量的计算成本和时间成本。
普遍的解决方案有两种,一是通过大模型微调的方式迭代演进,让大模型学到更多的知识;二是通过向量搜索的方法,把最新知识存在向量数据库中,需要时在向量数据库中做基于语义的向量检索。
但两者的成本天差地别。使用向量数据库的成本是微调的千分之一量级。这也是为什么大模型厂商都无一例外地推荐开发者使用向量检索的方式做知识库管理,以便和模型有一个更好的交互,降低落地使用成本。
第二是私有数据的保护问题。假设我们将企业的私有数据,如专利知识用于公有大模型的训练,那就等于向所有人开放了这些专利知识。 对于企业来说,这种方式是不现实的,而通过向量数据库的方式,将企业的私有知识转化为提示词,则不会用于训练和微调。
经过一年多的模型大战,关于生成式 AI 的讨论正在从“比参数、跑得分、拼排名”转向“谁的模型更开放、推理成本更低、算力更便宜。
业界的共识是,随着基础大模型赛道的竞争格局尘埃落定,更多的创新和价值创造正在向应用层汇聚。麦肯锡的研究报告称,生成式 AI 有望为全球经济贡献约 7 万亿美元的价值,目前大模型的应用创新主要有两种方式。第一种是利用大模型改造现有的各种软件和应用,也就是“用 AI 把所有应用重做一遍”;而另一种方式则是 AI 原生创新,即利用大模型能力, 创造出全新的服务与应用场景。
不同于多数仍在着力于任务执行和信息传输功能的 AI 技术,聆心智能携手清华大学 CoAI 研究团队独树一帜,将研究重心锁定在“如何使 AI 能够与人类建立深层次的情感连接”这一课题上。聆心智能孵化自清华大学,致力于打造新一代“安全、可控、拟人” 的超拟人大模型并建立相关应用生态。
2020 年中国一项针对 18~29 岁年轻群体的研究揭示,超过六成的青年人频繁受到孤独感的困扰。孤独不仅可能导致情绪压抑问题,还对个体生理健康和心理健康产生显著的负面影响。
在扎实的学术研究基础上,CoAI 课题组与聆心智能联合推出了首款心理疗愈机器人 Emohaa 的初始版本,这款机器人在短短时间内即服务了超过 2.4 万名用户,累计交互次数高达 49.7 万次。
更值得关注的是,课题组与北京师范大学心理学部合作开展的一项实验证明,在接受为期三周的 Emohaa 初级版持续心理干预后,参与实验的被试对象在焦虑症状、抑郁倾向、消极情绪及睡眠质量等方面均呈现出明显改善。
基于学术研究成果和实际应用成效,聆心智能与 CoAI 课题组再次联手,推出了全新升级版的共情陪伴大模型 Emohaa。新版 Emohaa 包含多个不同参数级别的子模型,搭载了能合成亲切柔和语音的语音合成技术,存储了海量知识库,能够更简洁直观、高效灵活地回应用户需求。
不仅如此,Emohaa 在深度理解用户情感、感同身受地体会用户经历、主动引导对话走向以及与用户一起探寻内心世界等方面的能力得到了显著提升,进一步强化了与用户之间的情感纽带。聆心智能团队的目标是将 Emohaa 塑造成一个值得人类深深信赖的大模型,它具备稳定持久、富有耐心的特点,对待人类用户始终保持中立而善良的态度,随时准备给予无条件的支持。在不久的未来,也许每个情感受困的人都能拥有可以聆听自己心声的 AI 伙伴。
图书推荐:
在大模型竞相涌现并赋能干行百业的时代背景下,吴晓波带领作者团队经过实地调研与深入采访,从人工智能技术流派、AIGC创新企业、传统应用场景下的创新、人工智能产业链上下游四个主要维度,对来自计算机、互联网、新能源、医药、科研、设计、电商、游戏、音频、金融、图像、绘画、心理咨询、智能硬件等热门行业和领域的近50个极具代表性案例进行了真实记录与分析。