当前位置:首页|资讯|马斯克|大语言模型|LLaMA

LLM面面观之MoE

作者:mengrennwpu发布时间:2024-04-02

1. 背景 根据本qiang~最新的趋势观察,基于MoE架构的开源大模型越来越多,比如马斯克的Grok-1(314B), Qwen1.5-MoE-A2.7B等,因此想探究一下MoE里面的部分细节。 此文是本qiang~针对大语言模型的MoE的整理,包括原理、流程及部分源码。 2. MoE原理 MoE的流行源于”欧洲的OpenAI” Mistral AI发布的论文及模型《Mixtral of Experts》,评测集上的效果吊打众多开源模型,如Llama 2 70B和GPT3.5。 《Mixtral of...【查看原文】

大语言模型 (LLM)

Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1