当前位置：首页|资讯|大语言模型|LLaMA|GPT-4

Optimum Intel三步完成Llama3在算力魔方的本地量化和部署

作者：英特尔技术汇发布时间：2024-05-14

大语言模型 LLaMA GPT-4

01

Llama3简介

Llama3 是Meta最新发布的开源大语言模型(LLM), 当前已开源8B和70B参数量的预训练模型权重，并支持指令微调。详情参见：

https://ai.meta.com/blog/meta-llama-3/

Llama3性能优异，8B和70B参数模型的性能在chatbot-arena-leaderboard中皆进入前十；LLama-3-70b-Instruct仅次于闭源的GPT-4系列模型。

排行榜链接：

https://chat.lmsys.org/?leaderboard

魔搭社区已提供Llama3 8B和70B模型的预训练权重下载，实测下载速度平均34MB/s。

请读者用下面的命令把Meta-Llama-3-8B模型的预训练权重下载到本地待用。

算力魔方是一款可以DIY的迷你主机，采用了抽屉式设计，后续组装、升级、维护只需要拔插模块。通过选择不同算力的计算模块，再搭配不同的 IO 模块可以组成丰富的配置，适应不同场景。

性能不够时，可以升级计算模块提升算力；IO 接口不匹配时，可以更换 IO 模块调整功能，而无需重构整个系统。

本文以下所有步骤将在带有英特尔i7-1265U处理器的算力魔方上完成验证。

02

三步完成Llama3的INT4量化和本地部署

把Meta-Llama-3-8B模型的预训练权重下载到本地后，接下来本文将依次介绍基于Optimum Intel工具将Llama进行INT4量化，并完成本地部署。

Optimum Intel作为Transformers和Diffusers库与Intel提供的各种优化工具之间的接口层，它给开发者提供了一种简便的使用方式，让这两个库能够利用Intel针对硬件优化的技术，例如：OpenVINO™、IPEX等，加速基于Transformer或Diffusion构架的AI大模型在英特尔硬件上的推理计算性能。

Optimum Intel代码仓连接：

https://github.com/huggingface/optimum-intel。

01

第一步，搭建开发环境

请下载并安装Anaconda，然后用下面的命令创建并激活名为optimum_intel的虚拟环境：

由于Optimum Intel代码迭代速度很快，请用从源代码安装的方式，安装Optimum Intel和其依赖项openvino与nncf。

python -m pip install "optimum-intel[openvino,nncf]"@git+https://github.com/huggingface/optimum-intel.git

02

第二步，用optimum-cli对Llama3模型进行INT4量化

optimum-cli是Optimum Intel自带的跨平台命令行工具，可以不用编写量化代码，实现对Llama3模型的量化。

执行命令将Llama3-8B模型量化为INT4 OpenVINO格式模型：

optimum-cli export openvino --model D:\llama3\Meta-Llama-3-8B --task text-generation-with-past --weight-format int4 --group-size 128 --ratio 0.8 --sym llama3_int4_ov_model

03

第三步：编写推理程序llama3_int4_ov_infer.py

基于Optimum Intel工具包的API函数编写Llama3的推理程序，非常简单，只需要调用六个API函数：

1.

初始化OpenVINO Core对象：ov.Core()

2.

编译并载入Llama3模型到指定DEVICE：OVModelForCausalLM.from_pretrained()

3.

实例化Llama3模型的Tokenizer：tok=AutoTokenizer.from_pretrained()

4.

将自然语言转换为Token序列：tok(question, return_tensors="pt", **{})

5.

生成答案的Token序列：ov_model.generate()

6.

将答案Token序列解码为自然语言：tok.batch_decode()

完整范例程序如下所示，下载链接：

运行llama3_int4_ov_infer.py：

python llama3_int4_ov_infer.py

运行结果，如下所示：

03

构建图形化的Llama3 demo

请先安装依赖软件包：

pip install gradio mdtex2html streamlit -i https://mirrors.aliyun.com/pypi/simple/

下载范例程序：

然后运行：

python llama3_webui.py

运行结果如下：

04

总结

Optimum Intel工具包简单易用，仅需三步即可完成开发环境搭建、LLama模型INT4量化和推理程序开发。基于Optimum Intel工具包开发Llama3推理程序仅需调用六个API函数，方便快捷的实现将Llama3本地化部署在基于英特尔处理器的算力魔方上。

英特尔、英特尔标识、以及其他英特尔商标是英特尔公司或其子公司在美国和/或其他国家的商标。

©英特尔公司版权所有。

* 文中涉及的其它名称及商标属于各自所有者资产

推荐体验

相关资讯

简单三步使用OpenVINO 搞定ChatGLM3的本地部署

工具介绍英特尔OpenVINO 工具套件是一款开源AI推理优化部署的工具套件，可帮助开发人员和企业加速生成式人工智能 (AIGC)、大语言模型、计算机视觉和自然语言处理等 AI 工作负载，简化深度学习推理的开发和部署，便于实现从边缘到云的跨英特尔平台的异构执行。 ChatGLM3是智谱AI和清华大学KEG实验室联合发布的对话预训练模型。ChatGLM3-6B是ChatGLM3系列中的开源模型，在保留了前两代模型对话流畅、部署门槛低等众多优秀特性的基础上，ChatGLM3-6B引入了以下新特性： 1更强

人工智能 AIGC

英特尔技术汇 2024-04-17

使用 Optimum-Intel 和 OpenVINO GenAI 优化和部署模型

在端侧部署 Transformer 模型需要仔细考虑性能和兼容性。Python 虽然功能强大，但对于部署来说有时并不算理想，特别是在由 C++ 主导的环境中。这篇博客将指导您如何使用 Optimum-Intel 和 OpenVINO GenAI 来优化和部署 Hugging Face Transformers 模型，确保在最小依赖性的情况下进行高效的 AI 推理。为什么使用 OpenVINO 来进行端侧部署OpenVINO 最初是作为 C++ AI 推理解决方案开发的，使其非常适合在端侧设备部署中，其中最

HuggingFace 2024-10-21

玩转 AIGC：仅需三步，在 Mac 电脑部署本地大模型，打造私人 ChatGPT

玩转 AIGC：仅需三步，在 Mac 电脑部署本地大模型，打造私人 ChatGPT 你好，欢迎来到运维有术。今天分享的内容是玩转 AIGC「2024」系列文档中的仅需三步，在 Mac 电脑打造

运维有术 2024-05-02

简单三步！部署体验Stable Diffusion

一.前言最近，AI图像生成引人注目，它能够根据文字描述生成精美图像，这极大地改变了人们的图像创作方式。Stable Diffusion作为一款高性能模型，它生成的图像质量更高、运行速度更快、消耗的资源以及内存占用更小，是AI图像生成领域的里程碑。然而，部署体验一下Stable Diffusion也是一件麻烦的事，要么是网络限制，要么是GPU配置要求太高。对于没有高配GPU的用户，只能去白嫖大平台的了，曾使用Google Colab部署过，但步骤麻烦，而且容易掉线。近日接触百度的飞浆平台，并且配置运行体验S

Stable Diffusion 谷歌百度

雕虫巧技 2023-05-19

利用 Optimum Intel 和 fastRAG 在 CPU 上优化文本嵌入

嵌入模型在很多场合都有广泛应用，如检索、重排、聚类以及分类。近年来，研究界在嵌入模型领域取得了很大的进展，这些进展大大提高了基于语义的应用的竞争力。BGE、GTE以及E5等模型在MTEB基准上长期霸榜，在某些情况下甚至优于私有的嵌入服务。Hugging Face 模型 hub 提供了多种尺寸的嵌入模型，从轻量级 (100-350M 参数) 到 7B (如Salesforce/SFR-Embedding-Mistral) 一应俱全。不少基于语义搜索的应用会选用基于编码器架构的轻量级模型作为其嵌入模型，此时，

HuggingFace 2024-04-02

近期资讯

全面解读风冷冰箱温度调节方法与注意事项，保持食物新鲜

风冷冰箱在我们的日常生活中扮演着重要的角色，尤其是在炎热的夏天，冰箱的温度调节显得尤为重要。今天就来聊聊风冷冰箱的温度调节，帮助大家更好地使用冰箱，保持食物的新鲜。与传统的直冷冰箱相比，风冷冰箱的优点在于它能更好地保持食物的新鲜度，减少霜冻的产生。

新报观察 2024-12-27

ST中泰获得实用新型专利授权：“麦尔兹石灰窑通道清理拔钎吊具”

证券之星消息，根据天眼查APP数据显示ST中泰（002092）新获得一项实用新型专利授权，专利名为“麦尔兹石灰窑通道清理拔钎吊具”，专利申请号为CN202420469266.X，授权日为2024年12月27日。

证券之星 2024-12-27

晶合集成获得实用新型专利授权：“一种探针的清洁装置”

证券之星消息，根据天眼查APP数据显示晶合集成（688249）新获得一项实用新型专利授权，专利名为“一种探针的清洁装置”，专利申请号为CN202323253318.4，授权日为2024年12月27日。

证券之星 2024-12-27

南通锐亚机电取得一种浸胶生产线用堆垛装置专利，有效提高浸胶纸的成品质量和堆垛效率

金融界2024年12月26日消息，国家知识产权局信息显示，南通锐亚机电有限公司取得一项名为“一种浸胶生产线用堆垛装置”的专利，授权公告号CN222204264U，申请日期为2024年4月。

金融界 2024-12-26

华大智造获得实用新型专利授权：“一种移液装置”

证券之星消息，根据天眼查APP数据显示华大智造（688114）新获得一项实用新型专利授权，专利名为“一种移液装置”，专利申请号为CN202420483502.3，授权日为2024年12月27日。

证券之星 2024-12-27

河北诚恒塑料机械取得防止薄膜卷辊装置专利，能够起到防止断裂的薄膜回缩卷辊的作用

金融界2024年12月26日消息，国家知识产权局信息显示，河北诚恒塑料机械科技有限公司取得一项名为“一种防止薄膜卷辊装置”的专利，授权公告号CN222204261U，申请日期为2024年5月。专利摘要显示，本实用新型涉及一种防止薄膜卷辊装置，属于塑料膜吹膜机技术领域。

金融界 2024-12-26

在照片上添加文字的技巧与创意分享

无论是记录日常生活的点滴，还是分享旅行的精彩瞬间，照片都能传达出我们想要表达的情感和故事。那么，怎么在照片上添加文字呢？

新报观察 2024-12-27

轻松实现电脑与电视连接，享受大屏幕视听体验的实用指南

在现代的生活中，电脑与电视之间的连接已经变得越来越普遍。很多人喜欢把电脑的内容投射到大屏幕上，这样不仅可以享受更大的视觉体验，还能和家人朋友一起分享视频、游戏等各种内容。接下来，我就来聊聊怎么把电脑连到电视上，帮助你实现这个小目标。首先，要确定你的电脑和电视都有哪些接口。这一步非常重要，因为不同的设备可能会使用不同类型的连接方式。

新报观察 2024-12-27

浙江凯信光电取得一种 PC 复合膜边料卷收机构专利，控制卷收料盘上边料的缠绕张力

金融界2024年12月26日消息，国家知识产权局信息显示，浙江凯信光电科技有限公司取得一项名为“一种PC复合膜边料卷收机构”的专利，授权公告号CN222204263U，申请日期为2023年12月。

金融界 2024-12-26

多种测量海拔的方法及技巧，助你轻松掌握海拔高度测量技能

接下来，让我们来聊聊几种常见的测海拔的方法。原理很简单，随着海拔的升高，空气变得稀薄，气压也随之降低。

新报观察 2024-12-27

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1