AI大模型，太卷了！又一巨头重磅出手

作者：券商中国发布时间：2024-05-16

国内大模型领域又一重磅消息传来！

5月15日，字节跳动正式发布“豆包大模型”，这也是国内又一家互联网巨头发布的自研大语言模型。性能方面，据字节跳动有关负责人介绍，豆包大模型目前日均处理1200亿Tokens（表示和传递信息的标识符）文本，生成3000万张图片。

激烈市场竞争中，价格成为大模型行业关注的重点之一。字节跳动有关负责人称，豆包主力模型在企业市场的定价只有0.0008元/千Tokens，0.8厘就能处理1500多个汉字，比行业便宜99.3%。也就是说，目前大模型价格已经进入“厘时代”。

近期，国内外多款大模型重磅消息不断。5月14日，美国人工智能公司OpenAI正式推出新一代大模型GPT-4o，能够接受文本、音频和图像任意组合的输入与输出，并且响应更快、处理更快、效率更高。5月9日阿里云发布通义千问2.5，据称“在中文场景模型性能赶超GPT-4-Turbo”，同时1100亿参数开源模型在多个基准测评收获最佳成绩。

又一大模型亮相

5月15日，字节跳动正式发布旗下自研大语言模型豆包大模型。记者了解到，豆包大模型原名“云雀”，是国内首批通过算法备案的大模型之一。

发布会现场，字节跳动有关负责人宣布，豆包大模型提供的是一个有多模态能力的模型家族，目前主要包括通用模型pro、通用模型lite、语音识别模型、语音合成模型、文生图模型等9款模型。

火山引擎是字节跳动旗下云服务平台，据火山引擎总裁谭待介绍：“经过一年时间的迭代和市场验证，豆包大模型正成为国内使用量最大、应用场景最丰富的大模型之一。”

券商中国记者注意到，发布会当天，字节跳动还宣布与国内多家汽车和电子消费厂商合作推出“大模型生态联盟”。例如，在汽车领域，与吉利、长城、赛力斯等20余家厂商，宣布成立汽车大模型生态联盟；与OPPO、vivo、荣耀、小米、三星、华硕宣布成立智能终端大模型联盟。OPPO、荣耀、小米和华硕等多家厂商旗下的AI助手已接入字节跳动的大模型服务。

大模型使用成本“卷”入新低

国内外厂商不断推出和迭代大模型，激烈市场竞争下，客观上也让大模型的使用价格进一步压降。

券商中国记者注意到，字节跳动发布会当日，有关负责人将豆包大模型与包括GPT4、文心大模型4.0、通义千问2.5共三款国内外主流大模型的使用价格进行了对比，并突出强调其“比行业价格低99.3%”。

根据火山引擎公布的价格计算，一元钱就能买到豆包主力模型的125万Tokens，大约是200万个汉字，相当于三本《三国演义》。

据麦肯锡报告分析，大模型的价值创造潜力惊人，到2030年，有望在全球推动49万亿人民币的经济增量。

目前，大模型应用发展仍处于早期阶段。QuestMobile数据显示，截至今年3月，基于大模型的AIGC行业用户量为7380万，尽管同比增长了8倍，也仅占移动互联网用户量的6%。

多款大模型推出重磅迭代

近日，大模型领域重磅消息不断。

北京时间5月15日凌晨，谷歌在2024年I/O开发者大会上一次性推出十几款产品更新，重磅级的发布包括轻量化的模型Gemini 1.5 Flash、AI通用智能体Project Astra、强大的AI搜索、视频生成模型Veo、第六代TPU Trillium等，Gemini 1.5 Pro的上下文窗口也从100万tokens升级到200万。

5月14日，美国人工智能公司OpenAI最新发布了GPT-4o多模态大模型，相较于GPT-4 Trubo速度更快、价格也更便宜，最突出特点是在与人的交互方面更为自然。

OpenAI称，GPT-4o可以检测人的情绪，并以类似人类或机器人的语调与用户交谈。同时，它可以在最快232毫秒的时间内响应音频输入，平均响应时间为320毫秒，几乎接近人类在交谈中的响应时间。

在发布会的演示环节，GPT-4o展示了它与众不同的互动能力。它能用一种非常自然的语调与人交流。在根据工作人员要求讲故事时，工作人员可以随时插话打断并提出新要求，GPT-4o能几乎毫无停顿地接上话题并按照要求变化音色、语调、情感等。

OpenAI表示，此前的AI语音模式由不同的独立模型组成，分别负责将音频转换为文本，接收文本并输出文本，再将文本转换回音频。在这些环节中会丢失大量信息，因此无法识别音调、多个说话者或背景噪音，也无法输出表达情感的语音。而GPT-4o支持文本、音频和图像的任意组合输入，并能够生成文本、音频和图像的任意组合输出，这意味着它能够结合视频和音频感受对话者的情绪，并给出充满人类情感的反馈。在对话中发现工作人员的深呼吸时，GPT-4o鼓励说“冷静下来”。

5月9日，阿里云正式发布通义千问2.5。相比上一版本，2.5版模型的理解能力、逻辑推理、指令遵循、代码能力分别提升9%、16%、19%、10%。

据介绍，在中文语境下，通义千问2.5在文本理解、文本生成、知识问答、生活建议、闲聊、对话、安全风险等多项能力赶超GPT-4。Open Compass的测评结果显示，通义千问2.5得分追平GPT-4-Turbo，是该基准首次录得国产大模型取得的这一成绩。

华泰证券日前发布的研报分析称，在AI大模型的商业模式和竞争格局方面，可能形成赢者通吃或国内外寡头竞争的局面，而行业大模型则有望百花齐放。目前“基础大模型”到“行业大模型”再到“终端应用”的大模型路线非常清晰。训练基础大模型的高成本和高技术壁垒，决定了科技巨头或成为主要玩家。

上述研报还表示，以头部玩家提供的基础大模型为底座，未来可能产生专门精调行业大模型的公司，凭借对垂直领域的专门技术，深耕某一赛道的行业大模型；在垂直领域积累已久的公司，具备入局该垂直领域行业大模型的先发优势。AI大模型最大的投资机会在应用，在搜索、电商零售、办公、金融、医药等行业有望率先落地。

责编：杨喻程

校对：高源