用MoE完全意料之中,也是未来必经的方向之一。出乎意料的是在GPT-4阶段OpenAI就在尝试MoE了,这可能预示着算力比想象中更紧张。
为何MoE之类是必经方向呢?因为从第一性原理思考,类GPT-3的架构有着以下矛盾:
模型的性能随着模型的大小提升,模型的serving的flops正比于模型大小
对于一家公司而言,最大的开销并不是训练,而是之后长期的服务开销:训练是一次性的东西,而服务对算力的要求是无穷无尽的。由此一种策略就显而易见了:模型serving的flops要低于训练时的flops。MoE就是一个很显然的选择,可以保证稀疏激活。如果要在自然界找证据,人的大脑也有着类似的设计:功能分区,稀疏激活。
然而,就算如此,GPT-4的服务能力仍然是个瓶颈。所以OpenAI近期不会考虑GPT-5,毕竟即使训练出来也很难做服务,且很难说GPT-4的性能已经被充分挖掘了。OpenAI正在做的可能是相反的事情:推出一个GPT-4的turbo版本。