据报道,美国知名骇客George Hotz在接受采访时透露,GPT-4由8个220B模型组成。就连PyTorch的创建者Soumith Chintala对此也深信不疑。GPT-4:8 x 220B专家模型用不同的数据/任务分布和16-iter推理进行训练。如果真是这样的话,GPT-4的训练可能更加有效。
George说是八个模型推理十六次,应该是每个模型都参与了推理。所以不可能是猜想三 路由到不同的模型。
令人失望的是Open AI没有做出路线上的重大突破,而只是技术上的一些突破,跟很多人的预期完全不一致,和MOE架构本身能不能在未来继续提升表现关系不大,「同一个模型训 8 次」的信息,搞得应该不是这样的。而且做 16 次 inference 的做法显然说明省 inference 不是非常前位的目的。
但至少两个 high profile 的人都出来说是 8x 220B on different data,基本上说明了主架构不是 sparse activation 的 router 类的 moe,而可能是 parallel inference 然后 ensemble 或者 vote 之类的。
万一不是MoE而是别的啥黑科技大火箭,现在大家相信是了MoE,结果全部走上了弯道,OpenAI雄霸数十载。
如果再用这个混合集合生成的数据去喂新的base,再反复迭代持续,后面的效果会越来越好,提升空间很大,而且方便扩展和持续迭代。
类似当年围棋实现AI和AI下棋,不断迭代,人类就彻底赶不上了。