Meta推出Llama 3.2 1B/3B模型量化版，功耗更低

IT之家

2024-10-27 13:56发布于山东IT之家官方账号

IT之家 10 月 27 日消息，继今年 9 月开源 Llama 3.2 的 1B 与 3B 模型之后，Meta 于 10 月 24 日发布了这两个模型的量化版本，量化后的模型大小平均减少了 56%，RAM 使用量平均减少了 41%，模型速度提高了 2 至 4 倍，同时降低了功耗，使这些模型能够部署到更多移动设备上。

IT之家注：模型量化（Model Quantization）就是通过各种训练方式将浮点模型转为定点模型，可以压缩模型参数，降低模型的复杂性，以便于在更轻量的平台运行。

Meta 表示，他们采用了量化感知训练（Quantization-Aware Training，QAT）和后训练量化（SpinQuant）两种方法对模型进行量化，其中“量化感知训练”更重视模型的准确性，而“后训练量化”更强调模型的可移植性。

据介绍，研究人员一共为 Llama 3.2 的 1B 和 3B 模型各推出了两款量化版本，分别为 Llama 3.2 1B QLoRA、Llama 3.2 1B SpinQuant、Llama 3.2 3B QLoRA 和 Llama 3.2 3B SpinQuant。

Meta 声称，这些量化模型比非量化的 Llama BF16 模型速度更快，占用更少的 RAM，并且功耗更低，同时保持与 Llama BF16 版本几乎相同的精度。

尽管量化后的 Llama 3.2 1B 和 3B 模型仅支持 8000 个 Token 的上下文（原版模型支持 12.8 万个 Token），但 Meta 的测试发现，无论是 Llama QLoRA 还是 Llama SpinQuant 等量化版本的基准测试结果实际上与原来的 Llama BF16 版本相差不远。

目前，Meta 已在一加 12、三星 S24+/S22 及苹果 iOS 设备（未公布具体型号）等移动平台测试这些经过量化后模型，测试“运行结果良好”，研究人员未来还计划通过神经处理单元（NPU）提升这些量化模型的性能。

查看原图 277K

Meta推出Llama 3.2 1B/3B模型量化版，功耗更低

Meta推出Llama 3.2 1B/3B模型量化版，功耗更低

推荐体验

相关资讯

基于LLaMA-7B/Bloomz-7B1-mt复现开源中文对话大模型BELLE及GPTQ量化

Meta 发布开源大模型 Code Llama 70B

“最强7B模型”论文发布，揭秘如何超越13B版Llama 2

玩转 AIGC：Ubuntu 24.04 LTS 安装 Ollama, 体验大模型 Llama3 8B 和 Qwen 32B

Meta Llama 3.1-405B AI模型多项跑分超越 OpenAI GPT-4o

近期资讯

广和通申请通信模组版本升级专利，在有限存储空间完成模组升级

小米 SU7 Ultra 量产版官方预热视频公布：外观更犀利，明晚发布

一加13磁吸生态/明星配件亮相：含木纹手机壳、涡轮无线充等

红魔 10 Pro 系列手机全新一代真全面屏交付仪式定档 11 月 5 日

手机也有补贴，16GB+512GB+卫星通讯，仅售2499

真我 GT7Pro 预热《主流MOBA》120 帧“满电到关机”最高 39.9°C

vivo X200系列海外用户调研出炉 Pro mini最受欢迎

电脑买什么牌子性价比高

华为申请应用更新方法、通信系统及电子设备专利，解决开发者证明更换后应用无法正常更新的问题

华为申请应用程序更新方法等专利，减少开发者签名验证过程中的压缩和解压过程，节省设备资源

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响