1. 模型规模与硬件配置
硬盘空间的需求取决于你打算部署的模型大小。一般来说,模型越大,所需的硬件资源也越丰富。这里推荐的是Qwen1.5 72B模型,它的中文处理能力可与GPT4相媲美,属于中文大型模型的佼佼者。
2. 推荐魔改2080Ti的原因
- 4卡魔改2080Ti可提供88G显存,使用vllm推理框架,Qwen1.5 72B能够处理15k上下文或达到28T/s的速度;
- 8卡魔改2080Ti则提供174G显存,在vllm框架下,Qwen1.5 72B能处理30k上下文或达到35T/s的速度。
3. 显卡型号选择
魔改2080ti有多个型号。若用于服务器,建议选择涡轮散热加底部供电的版本,这主要是出于散热和机箱空间的考虑。虽然启动服务时涡轮卡的噪音会比3风扇卡大,但在大模型推理时,300的版本已足够使用。购买300高级版(300A)并不必要,因为推理不需要超频,且价格高出300元。
在淘宝选择信誉良好的商家,优先选择提供一年店铺保障和品牌魔改卡,如华硕。2080ti魔改市场已相当成熟,只要稳定运行一周,一般不会有太大问题。
4. 推理底座选择
- 4卡底座推荐超微7048;
- 8卡底座推荐超微4029。
这些服务器主板支持IPMI,可实现远程开关和操控服务器。
2080Ti使用PCIe3.0接口,因此选择支持PCIe3.0的主板即可。无需过高性能,以免浪费资源。
根据这一理念,7048配置了Intel Xeon E5 2680 v4双处理器;4029配置了Intel Xeon金牌6133双处理器。72B模型在推理时大约需要70G内存,建议使用128G内存(32G*4)。
硬盘应选择SSD,以确保大模型加载速度。7048没有nvme接口,需要通过PCIe转接。推荐使用U2接口的SSD,并建议至少两个硬盘,分别存储系统和数据。
可以在淘宝一家店铺完成以上配置,并要求商家安装调试后再发货。
购买主机时还需注意:
- 显卡电源线:2080ti需要双8pin接口,主机通常配备6+8pin,可能需要让商家提供或自行购买;
- 服务器输出为VGA,若需连接显示屏进行设置,需要转接线或VGA显示屏;
- 确保商家设置了IPMI密码并调整风扇转速控制;
- 市场上的服务器多为淘汰品,购买时务必选择提供一年保障的商家,避免购买价格高且可能被筛选过的尾货。
NVLink在提升性能方面的影响非常有限,因此并非必需。在购买时,应考虑价格因素。NVLink的规格决定了显卡之间的间距。在购买前,应确保系统兼容性。