Transformer是所有大模型的基石，但一家中国创业公司想挑战它

作者：蓝鲸新闻发布时间：2024-05-24

图片来源：企业官网

中国的大模型之战已从融资战、营销战打到了价格战，大大小小的公司在发布各自大模型产品时，都要跟OpenAI的ChatGPT比一比跑分或者价格。但有一家公司不一样，它选择跳过市面上各个喧嚣的战场，直接向底层发起突破。

5月22日，AI创业公司彩云科技发布了全新通用模型结构DCFormer，将直接挑战现在几乎所有大模型通用的Transformer架构。根据官方给出的相关论文实验证明，在三千亿级训练数据和70亿级模型参数量下，DCFormer效率是Transformer的两倍。

Transformer模型有其隐忧

Transformer模型是一种采用注意力机制的深度学习模型，最早在2017年由Google Brain的一个团队推出，对整个AI学界和业界尤其是自然语言处理领域产生巨大影响，而其相关论文《Attention Is All You Need》已经成为今天大语言模型蓬勃发展的起源与名篇。简单来说，如果没有《Attention Is All You Need》提出的Transformer模型，就没有如今这个如火如荼的AI大模型时代。

然而，Transformer模型开源发布7年以来，随着业界各种模型的规模越来越大，算力对性能的限制成为一个越来越亟待解决的问题，而这一限制直接表现就是模型训练的昂贵，上周OpenAI刚刚发布的GPT-4o，一次推理的成本仍然要人民币4元，这也是现在大模型价格战之所以引入注目的背景原因。虽然现在还有各大科技巨头和风投机构的支持，但这无法持久。

要解决或者缓解这个问题，无外乎几个办法：芯片进步，改进模型，或者解决地球的能源问题。比如，OpenAI的CEO Sam Altman在几个方向都分别下注，除了OpenAI在不断训练自己的模型算法，据媒体报道，他还与软银的孙正义讨论芯片项目，并且投资核聚变—— Sam Altman不久前说，未来的人工智能需要能源方面的突破，因为AI消耗的电力将远远超过人们的预期。

在芯片领域，尽管有许多挑战者，微软、谷歌这样的巨头也在自己设计芯片，但英伟达仍然保持遥遥领先。在当地时间5月22日发布的新一季财报中，英伟达营收增长262%至260亿美元再创新高，并且连续第20个季度超出分析师预期，盘后股价大涨。

而能源领域，目前看起来若要取得真正进展，还需要基础研究的突破，不是光砸钱就能很快取得成果的。

因此，创业公司还能在模型算法改进方面找到潜在发展机会。Transformer推出7年以来，虽然一直有无数的AI研究者对其进行改进和修补，但算力智能转化率的提升仍然不够明显。

DCFormer或许是一次机会

而根据彩云科技的官方介绍，其大模型结构DCFormer可以达到1.7~2倍算力的Transformer模型的效果，即算力智能转化率提升了1.7~2倍。这一提升幅度，超过自2017年Transformer诞生至今，被证明最普适有效并被广泛采用的两项结构改进的提升幅度之和（同时应用这两项改进的Transformer架构也叫Transformer++，如Meta的开源大模型Llama）。

图片来源：彩云科技官方

此外，根据彩云科技计算实验，随着模型规模的增大，DCFormer的提升越来越大（上图下的蓝线和绿线），而Transformer++的提升越来越小（上图下的黑线）。

图片来源：彩云科技官方

彩云科技推出DCFormer的论文《Improving Transformers with Dynamically Composable Multi-Head Attention 》将在国际机器学习领域的顶级会议，第41届国际机器学习大会ICML 2024正式发表。据一位评委透露，今年录用论文的平均分为4.25-6.33，而彩云科技团队的论文获得了平均7分的高分。

彩云科技CEO袁行远用了一个烧牛肉的场景来比喻模型训练：食材就是数据，火候就是算力，而模型就是你的锅，换成高压锅以后，煮熟牛肉的时间会变短（节省成本），同样的时间下，做出的牛肉会更软（效果提升），为了得到更好的烹饪效果，不能只靠增加火力和更换食材，锅也很重要，好的模型，可以极大地节省成本，提高效果，这就是模型的意义。

“不管是GPT还是豆包、kimi，如果应用了我们的DCFormer，以上所有基于transformer的模型的成本还能再降一半。”袁行远对包括蓝鲸新闻在内的媒体表示，他希望有更多的模型厂商来试一试DCFormer，“过去我们不太被资本和媒体所知。但如果我们这样的工作还是无法被看见，我觉得无论对我们还是业界都是一种遗憾。”

后续，彩云科技将在自己已有的AI产品“彩云天气”、“彩云小梦”上陆续应用DCFormer模型。以彩云天气为例，其在未来2小时内的天气预测已经十分精准，但随着模型效率的提升，彩云天气有希望在未来3小时到12小时时间段内，实现与2小时预测一样的准确率。

“为什么我们要做这件事呢？因为我们比较中二。”痴迷于《三体》和各种科幻奇幻作品的袁行远兴奋地说。他对DCFormer模型足够自信，仿佛看见了AGI实现的那天。

Transformer是所有大模型的基石，但一家中国创业公司想挑战它

推荐体验

相关资讯

AI大模型的基石——Transformer

OpenAI到底是一家怎样的公司？

四家中国人工智能初创公司挑战行业巨头OpenAI

【大模型日报丨6.7】AI创业酱紫卷？想让陆奇看上眼，挑战个Sora/Transformer再说

国外疯卷AIGC之时，一家中国上市游戏公司悄悄做到了全球第一梯队？

近期资讯

信利光电取得渐变色盖板结构专利，能满足当今车载内饰多样化选择

保时捷（上海）数字科技申请用于语音可激活的设备的专利，可根据需要更灵活地对语音可激活的设备进行激活

深圳国荟数智科技申请一种适用于会议系统无线音频星闪传输噪声管理专利，提高会议场景的音频传输噪声管理质量和参会人员的舒适度

深圳市斯远电子申请音频处理专利，提高音频处理准确率

信利光电取得呈现木纹触控的车载触摸屏专利，具有在触摸屏本体关闭时呈现一体木纹的效果

未势能源取得燃料电池系统相关专利，提高车辆安全性

平安科技申请语音生成专利，提高生成的语音的自然度

西藏峦赛智慧物联工程取得便于维护的新能源充电桩专利，提高充电桩的散热效果

上海九歌申请一种安装于钢琴键盘架前档的扫描电路板结构专利，提升钢琴键盘扫描效率

上海任意门申请一种语音合成方法专利，可实现音色风格解耦

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响