来源 | IT之家
作者 | 汐元
今年以来,chatGPT 的火热出圈让生成式 AI 掀起了全球人工智能新浪潮,AI,正成为变革千行百业的新动力,也是各大科技公司共同押注的未来。
比如 AMD 最近就在 Advancing AI 活动中推出了数据中心 AI 芯片 AMD Instinct MI300X GPU,还有结合最新 AMD CDNA 3 架构和“Zen 4”CPU 的 MI300A 加速处理单元 APU 等等,引发了外界广泛关注。
而在“AI 改变世界”的探索之路上,其实有一家企业早早就展开了布局,就是英特尔。2018 年,英特尔就提出要在 PC 上引入 AI,还推出了“AI on PC Developer Program”的 AI PC 开发者计划。在此之后,英特尔持续将 AI 能力融入到旗下酷睿处理器产品中,从第 10 代酷睿-X 开始,英特尔就已经在其 CPU 中添加了 AI、深度学习相关的加速指令,包括在架构层面提升 AI 的性能,SoC 中内置 Intel GNA 以加速低功耗 AI 在 PC 上的应用等等,并且还将 AI 加速单元引入到 Xe、ARC 架构的 GPU 中。
英特尔多年的探索成果也将在最近迎来一次集中释放。12 月 15 日,英特尔就将在国内正式发布基于全新 Meteor Lake 架构的酷睿 Ultra 处理器,而在 Meteor Lake 处理器中,英特尔最重要的举措,就是将 Al 引入客户端 PC,并在 Meteor Lake 处理器架构中集成了独立的 NPU 单元,带来独立的低功耗 AI 加速能力。
具体到 Meteor Lake 中加入的集成式 NPU 单元,它实现更高效能的 AI 计算,包含了 2 个神经计算引擎,能够更好地支持包括生成式 AI、计算机视觉、图像增强和协作 AI 方面的内容。而且,这枚 NPU 不是单一孤岛式的架构,除了 NPU,CPU 和 GPU 也都可以进行 AI 运算,不同场景下会用不同的 AI 单元去应对,彼此协调,如此一来,其整体能耗比相比前代最多可以提升 8 倍之多。
而当生成式 AI 基本本确定为 AI 2.0 时代后,为了让 AIGC 能够更好地在 PC 本地端运行,英特尔也做了很多努力。
在我们传统的认知里,运行类似 ChatGPT 这种大语言模型必须要有大显存的显卡支持,比如前面我们讲到的 AMD 推出的 Instinct MI300X GPU,但是这距离广大消费者确实有点远,而英特尔为了让面向消费端的 12、13 代酷睿平台也能够顺利运行各种大语言模型并提供流畅的使用体验,他们构建了 BigDL-LLM 库,这个库专门针对 Intel 硬件的低比特量化设计,支持 INT3、INT4、INT5、INT8 等各种低比特数据精度,性能更好,内存占用也更少。
通过这个库,英特尔对各种大语言模型进行了优化和支持,包括一些开源的、可以在本地运行的大语言模型。这个库甚至可以在一台搭载 16GB 内存的英特尔轻薄本的机器上运行参数量高达 160 亿的大语言模型。此外还支持 LLaMA / LLaMA2、ChatGLM / ChatGLM2 等多个大语言模型。
且不说即将发布的酷睿 Ultra 系列,如今以第 12 代、第 13 代英特尔酷睿处理器和英特尔锐炫 A 系列显卡为代表的英特尔多款客户端芯片,均能提供强劲性能,以满足生成式 AI 对于高算力的需求。对此IT之家也做了实际的测试。
测试中,小编选择了一台通过英特尔 Evo 平台认证的轻薄本:华硕破晓 Air,这款轻薄本搭载英特尔 13 代酷睿 i7-1355U 处理器,16GB LPDDR5 内存。
小编在这台华硕破晓 Air 上装好英特尔推出的大语言模型 Demo。这个 Demo 集成了三个大语言模型,包括 ChatGLM2、LLaMA2 和 StarCoder。它们均通过英特尔的语料库进行了优化。
测试过程中,小编先在故事创作模式中让大模型 Demo 帮我先一个公司年会的主持人开场白,它很快就将一段完整得体的开场文案呈现了出来,并且整个过程的 First Latency 只有 1249.8ms。如果是自己思考、编辑,得花很久,在 PC 上使用 AI 大模型,分分钟就搞定了。
在大语言模型写文案的时候,小编看了一下华硕破晓 Air 性能资源的调度情况,13 代酷睿 i7-1355U 处理器占用率达到了 100%,内存占用达到了 9.7GB(62%),Xe 核显占用也达到了 39%。看来这个运算过程确实是在本地进行的。在英特尔不断的优化和 13 代酷睿处理器算力的提升下,确实能够在轻薄本上实现 AIGC 的落地。
接着小编又测试了一个问题,让它提取一篇新闻的核心信息,它也能很快很准确地将新闻内容给“摘要”出来。这对于我们日常查询资料、整理报告等都非常有用,可以大大提高我们完成这些工作的效率。
最后,小编让大模型帮自己写一篇朱自清《背影》的教学大纲,它同样很快就列出了一套逻辑清晰完整,内容详尽的大纲出来。对于工作有提炼、撰写大纲需求的人,比如说老师,即便在没有网络的情况下,也能利用 AI 辅助教学工作,非常方便。
除了 CPU,英特尔也十分注重对 GPU 核显性能的优化,让 GPU 也能在终端侧 AIGC 任务中扮演更重要的角色。例如针对广为人知的开源图像生成模型 Stable Diffusion,英特尔就启用了 OpenVINO 的加速,他们开发了一套 AI 框架,通过一行代码的安装,就可以加速 PyTorch 模型的运行。通过 Stable Diffusion 的 WebUI,可以在锐炬集成显卡和 Arc 独立显卡上运行 Stable Diffusion Automatic1111。
通过实际测试,可以看到在华硕破晓 Air 轻薄本上,Stable Diffusion 在集成显卡上的表现效果。96EU 版本的英特尔锐炬 Xe 显卡强大的算力,可以支持 Stable Diffusion 软件上运行 FP16 精度的模型,快速生成高质量图片。小编让它生成一张“正在看电视的男人”,在华硕破晓 Air 上,只用了 1 分多钟,就“顺利出片”了。
而在生成过程中,IT之家也通过性能资源管理器看到,GPU 的占用到了 100%,同时 CPU 也有 15% 的占用,可见这张图片确实是在本地利用 GPU 进行渲染的。
在过去,我们很难想象轻薄本可以拥有这样的性能,但随着 13 代酷睿处理器在性能、功耗比方面的进步,以及锐炬 Xe Graphics (96EU) 在 FP16、FP32 浮点性能的大幅提升,同时加入了 INT8 整数计算能力,这些都大大增强了 GPU 整体的 AI 图形计算能力。这也就是华硕破晓 Air 这样的轻薄本也能在本地侧很好地运行 Stable Diffusion 的重要因素。
并且在我们开头说到的英特尔 Meteor Lake 处理器中,GPU 核显性能还会得到进一步提升,将拥有 8 个 Xe GPU 核心 128 个渲染引擎,更增加了 8 个硬件的光追单元,还会引入 Arc 显卡的异步拷贝,乱序采样等功能,也对 DX12U 做了优化。
从 AI 变革世界的发展角度来说,英特尔将 AI 广泛引入 PC、带领数亿 PC 进入 AI 时代的努力是有着重要意义的,因为至少在可预见的未来,PC 都是人类最重要的生产力工具之一,英特尔的这些创新技术,让 AIGC 能够稳定、流畅地部署在 PC 终端侧,这是一种来自于底层的、根本性的赋能,让 PC 的生产力属性能够有脱胎换骨的变革,而个人计算的变革,进一步也会演化成全社会生产力变革。
所有这些,都能充分证明英特尔在 AIGC 领域的领导地位。他们的不断创新,为用户提供更智能、高效的计算体验,推动人工智能技术的发展和应用。相信随着技术的不断进步和完善,我们可以期待在未来看到更多更强来自英特尔的端云结合的 AI 应用和解决方案,让我们能够更快迈进由 AI 驱动的生产力大解放的时代。
皕赫国际18001942024 2024-12-20