转:NVIDIA 的朋友和我说他们内部一律都是 ubuntu,cuda 生产环境不建议用 debian、ubuntu 之外的任何系统,只会徒增烦恼。
操作系统建议Ubuntu22,长期维护版本。
安装显卡驱动
安装CUDA:
https://developer.nvidia.com/cuda-downloads
如果已经通过图形安装了驱动,千万不要再在此处安装驱动。会出现版本冲突的情况导致驱动无效。
安装Conda
https://conda.io/projects/conda/en/latest/user-guide/install/linux.html
以上安装遇到问题,可以下面网站提问:
https://devv.ai/
安装vllm:
https://docs.vllm.ai/en/latest/getting_started/installation.html
vllm的大吞吐量,是特别适合沉浸式翻译的高并发,体验上会非常舒畅:
为了确保计算机的稳定性,请在每次开机后执行以下命令,以稳定显卡的功耗。忽视这一步骤可能会导致由于功耗波动过大而引起计算机重启。
执行上述命令后,显卡的功耗将保持在当前状态,从而避免不必要的波动。这有助于提高系统的稳定性,特别是在运行资源密集的推理任务时。
vllm启动参考命令:
正常情况下,不建议开启--enforce-eager,因为会关闭cuda graph:
服务启动后,兼容OpenAI API的软件即可调用该服务的API进行大规模语言模型推理。