当前位置:首页|资讯|MOSS|GPT-4|GitHub|编程

MOSS LLM部署小记(硬件配置向)

作者:bili_38465313531发布时间:2023-05-21

GPT-4需要付费,3.5的API也需要付费了。此时使用国内开源模型满足日常体验的需求,无疑是不错的替代选择。在此小记MOSS部署时的硬件需求,方便更多朋友提前验证可行性。

MOSS官方代码链接:https://github.com/OpenLMLab/MOSS

本人所用CPU含48超线程,GPU有多卡,单卡显存32GB,驱动最高支持CUDA 10.1(由于不能轻易重启,所以短期内不太可能更新驱动)。

CPU部署情况

CPU不支持半精度,所以使用了FP32,部署sft模型。最终能够成功运行,但是一轮问答需要约20分钟。。。

GPU单卡部署情况

官方GitHub上有说明,加载FP16模型需要31GB,完成一轮对话约需42GB,所以单卡显存不足。在实践中,在加载模型时就已经会溢出显存了。

官方还提供了int8/4量化模型。但是如果显卡比较老(包括P100),那么可能需要将triton换成auto-gptq。其中,auto-gptq在其setup.py中规定torch版本不低于1.13.0,而CUDA10.1最高支持到1.8.1,所以本人没有尝试。如果你方便更新CUDA驱动,那么希望以下issue能够帮助到你:https://github.com/OpenLMLab/MOSS/issues/149

GPU多卡部署情况

最开始尝试的就是GPU多卡部署,失败后才尝试了其它方案。但是失败原因由于时间较久记不太清了,似乎是需要torch版本达到1.9.0以上,因为1.8缺少一些1.9.0以上才有的API。尽管PyTorch的代码是开源的,但各API之间存在依赖,copy1.9.0版本的API需要一系列修改,存在一定工作量。

后记

尽管最终与MOSS无缘,但MOSS与ChatGLM在很多地方很相似(包括但不限于核心类的命名,尽管实现不同,但接口类似),所以迁移起来很方便。作为日常体验版本,对于准确率的要求并不会非常高,所以期待后续能够有更友好的量化支持(驱动实在太老了QAQ)。

P.S. 封面图想放一张炫酷的MOSS图片,但是担心有版权问题放弃了,平平淡淡才是真叭~


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1