在云服务器部署lora training,一大问题就是依赖缺失和冲突。可以利用miniconda或者anaconda建立虚拟环境来解决。
安装anaconda 或者 miniconda(官网上也有教程):
现在进入到虚拟环境中
首先解决cuda的配置,其中要配置合适的cuda版本以及对应版本的cuDNN
conda官方库中的cuda包都不完全,无法激活nvcc命令,因此使用conda-forge库中的cudatoolkit包,以及dev包来确保可以激活nvcc命令。这里以cuda11.7版本为例。
例如:
之后安装对应版本的tensorflow:
参考:https://docs.nvidia.com/deeplearning/frameworks/tensorflow-release-notes/rel-23-02.html#rel-23-02
可知我们需要的tensorflow的版本是2.8.0版本,tensorRT版本是8.2.5
之后安装pytorch:
或者,你可以使用pip的话:
以及安装pytorchvision:同样可以使用:
或者:
安装triton
下面参考:https://github.com/zwh20081/LoRA_onekey_deploy_script/blob/main/onekey_with_xformers_new.sh
之后可以安装xformers来加速lora的训练:
这时你的xformer 应当安装完毕。
之后安装Lora训练器:
此时可能会更新:
但是tensorflow可能会错误的升级到2.10版本。因此根据你的cuda版本降级tensorflow。
我这里还是降级到2.8.0:
之后
这时应当可以正常使用了。
configure 过程中可能有一些设置,推荐是:
修改ArgsList.py中的参数设置
之后再main.py的目录中使用:
Enjoy
回天一梦 2023-03-24
阿里云 2023-04-14
荣翔 2023-04-06