当前位置:首页|资讯|AI大模型|GPT-4

AI大模型本地化部署Q/A硬件篇

作者:门的耳朵发布时间:2024-03-24

1. 模型规模与硬件配置

   硬盘空间的需求取决于你打算部署的模型大小。一般来说,模型越大,所需的硬件资源也越丰富。这里推荐的是Qwen1.5 72B模型,它的中文处理能力可与GPT4相媲美,属于中文大型模型的佼佼者。

2. 推荐魔改2080Ti的原因

   - 4卡魔改2080Ti可提供88G显存,使用vllm推理框架,Qwen1.5 72B能够处理15k上下文或达到28T/s的速度;

   - 8卡魔改2080Ti则提供174G显存,在vllm框架下,Qwen1.5 72B能处理30k上下文或达到35T/s的速度。

3. 显卡型号选择

   魔改2080ti有多个型号。若用于服务器,建议选择涡轮散热加底部供电的版本,这主要是出于散热和机箱空间的考虑。虽然启动服务时涡轮卡的噪音会比3风扇卡大,但在大模型推理时,300的版本已足够使用。购买300高级版(300A)并不必要,因为推理不需要超频,且价格高出300元。

   在淘宝选择信誉良好的商家,优先选择提供一年店铺保障和品牌魔改卡,如华硕。2080ti魔改市场已相当成熟,只要稳定运行一周,一般不会有太大问题。

4. 推理底座选择

   - 4卡底座推荐超微7048;

   - 8卡底座推荐超微4029。

   这些服务器主板支持IPMI,可实现远程开关和操控服务器。

   2080Ti使用PCIe3.0接口,因此选择支持PCIe3.0的主板即可。无需过高性能,以免浪费资源。

   根据这一理念,7048配置了Intel Xeon E5 2680 v4双处理器;4029配置了Intel Xeon金牌6133双处理器。72B模型在推理时大约需要70G内存,建议使用128G内存(32G*4)。

   硬盘应选择SSD,以确保大模型加载速度。7048没有nvme接口,需要通过PCIe转接。推荐使用U2接口的SSD,并建议至少两个硬盘,分别存储系统和数据。

   可以在淘宝一家店铺完成以上配置,并要求商家安装调试后再发货。

购买主机时还需注意:

   - 显卡电源线:2080ti需要双8pin接口,主机通常配备6+8pin,可能需要让商家提供或自行购买;

   - 服务器输出为VGA,若需连接显示屏进行设置,需要转接线或VGA显示屏;

   - 确保商家设置了IPMI密码并调整风扇转速控制;

   - 市场上的服务器多为淘汰品,购买时务必选择提供一年保障的商家,避免购买价格高且可能被筛选过的尾货。


NVLink在提升性能方面的影响非常有限,因此并非必需。在购买时,应考虑价格因素。NVLink的规格决定了显卡之间的间距。在购买前,应确保系统兼容性。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1