当前位置:首页|资讯|AI大模型

AI大模型本地化部署Q/A本地大模型部署篇

作者:门的耳朵发布时间:2024-03-24

转:NVIDIA 的朋友和我说他们内部一律都是 ubuntu,cuda 生产环境不建议用 debian、ubuntu 之外的任何系统,只会徒增烦恼。

操作系统建议Ubuntu22,长期维护版本。

这个是浪潮NF5568M4,超微7048同款

安装显卡驱动

这里点击附加驱动
选择上面这个驱动后,点击应用更改
驱动安装成功后,可以看到这
watch nvidia-smi

安装CUDA:

https://developer.nvidia.com/cuda-downloads

只需要执行Base Install命令

如果已经通过图形安装了驱动,千万不要再在此处安装驱动。会出现版本冲突的情况导致驱动无效。

安装Conda

https://conda.io/projects/conda/en/latest/user-guide/install/linux.html

可以按照官网提示安装

以上安装遇到问题,可以下面网站提问:

https://devv.ai/

如果安装遇到问题,可以来这里

安装vllm:

https://docs.vllm.ai/en/latest/getting_started/installation.html

vllm官网

vllm的大吞吐量,是特别适合沉浸式翻译的高并发,体验上会非常舒畅:


重要操作提示

为了确保计算机的稳定性,请在每次开机后执行以下命令,以稳定显卡的功耗。忽视这一步骤可能会导致由于功耗波动过大而引起计算机重启。

执行上述命令后,显卡的功耗将保持在当前状态,从而避免不必要的波动。这有助于提高系统的稳定性,特别是在运行资源密集的推理任务时。

vllm启动参考命令:

正常情况下,不建议开启--enforce-eager,因为会关闭cuda graph:

这个关系着推理的延迟,开启会显著降低延迟

服务启动后,兼容OpenAI API的软件即可调用该服务的API进行大规模语言模型推理。


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1