当前位置:首页|资讯|马斯克|人工智能|大语言模型|编程

马斯克说到做到!自研3140亿参数的巨无霸模型Grok已开源!

作者:AI-GitHub发布时间:2024-03-18

3月18日凌晨,马斯克的人工智能初创公司 xAI 迈出了重大一步,开源了其大型语言模型Grok。

目前,Grok的代码和模型权重已上线GitHub。官方信息显示,此次开源的Grok-1参数量达到了3140亿,远超OpenAI GPT-3.5的1750亿。是当前的开源模型中参数量最大的一个。

此次开源,xAI发布了Grok-1的基本模型权重和网络架构。

Grok 拥有 3140 亿个参数,在复杂性和性能方面超越了开源竞争对手。该模型的架构融合了神经网络设计的创新方法,将 25% 的权重用于给定的令牌,以提高效率和有效性。

结构上,Grok-1采用了混合专家(MoE)架构,包含8个专家。这种MOE架构重点在于提高大模型的训练和推理效率,形象地理解,MOE就像把各个领域的“专家”集合到了一起,遇到任务派发给不同领域的专家,最后汇总结论,提升效率。

值得一提的是,Grok-1采用的是Apache 2.0 license,这意味着企业家、程序员、公司和个人现在可以将该模型的副本用于各种目的,包括商业应用。

不过,在GitHub页面中,官方也提示,由于模型规模较大(314B参数),需要有足够GPU和内存的机器才能运行Grok。且这个“足够的GPU”,要求不是一般的高——YC上有网友推测,如果是8bit量化的话,可能需要8块H100。

Grok 的开源引起了人工智能社区的好奇和兴奋。技术专家纷纷下场,指出了该模型的有趣特征。

比如另辟蹊径的工程架构上,没有采用常见的Python、PyTorch或Tensorflow,而是选用了Rust编程语言以及深度学习框架新秀JAX。

比如使用旋转的embedding方式,而不是固定位置embedding。

比如对全部的8个专家都应用了softmax函数,然后从中选择top2专家,而Mixtral则是先选定专家再应用softmax函数。

总体而言,Grok的开源标志着人工智能技术发展的重大举措。它为企业家、程序员和公司提供了更好的可访问性和机会,可以将这种高级语言模型用于各种应用程序。

有人已经期待起Grok作为一个开源模型,进一步搅动大模型竞争的这一池水。

开源地址:https://github.com/xai-org/grok-1

官网地址:https://x.ai/blog/grok-os



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1