当前位置:首页|资讯|GPT-4|OpenAI

黑客 George Hotz 爆料 GPT-4 由 8 个 MoE 模型组成,真的吗?

作者:蓬域科技发布时间:2023-06-25

原标题:黑客 George Hotz 爆料 GPT-4 由 8 个 MoE 模型组成,真的吗?

用MoE完全意料之中,也是未来必经的方向之一。出乎意料的是在GPT-4阶段OpenAI就在尝试MoE了,这可能预示着算力比想象中更紧张。

为何MoE之类是必经方向呢?因为从第一性原理思考,类GPT-3的架构有着以下矛盾:

模型的性能随着模型的大小提升,模型的serving的flops正比于模型大小

对于一家公司而言,最大的开销并不是训练,而是之后长期的服务开销:训练是一次性的东西,而服务对算力的要求是无穷无尽的。由此一种策略就显而易见了:模型serving的flops要低于训练时的flops。MoE就是一个很显然的选择,可以保证稀疏激活。如果要在自然界找证据,人的大脑也有着类似的设计:功能分区,稀疏激活。

然而,就算如此,GPT-4的服务能力仍然是个瓶颈。所以OpenAI近期不会考虑GPT-5,毕竟即使训练出来也很难做服务,且很难说GPT-4的性能已经被充分挖掘了。OpenAI正在做的可能是相反的事情:推出一个GPT-4的turbo版本。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1