前有 ChatGPT,后有文心一言,最近几个月 AI 圈的产品可谓是爆发式发展。但这些语言大模型动辄需要上百 G 显存,对于个人电脑实在是负担不起。而近期由清华大学推出的开源对话 AI——ChatGLM-6B,最低只要 6G 显存,使得用户可以在大部分消费级的显卡上进行本地部署,为广大 AI 爱好者带来了福音。发布不过短短两周,Github 已有 9.8K Star,受认可程度可见一斑。
1. 下载
首先需要下载源代码:
以及从抱脸上下载模型文件,可能需要较长时间:
将下载的模型文件目录 chatglm-6b 移动到源代码目录下的 THUDM/chatglm-6b 目录。
2. 使用
建立 Python 虚拟环境,并安装依赖库:
如果 Pytorch 和 CUDA 未安装,需自行下载安装。网上教程极多,不再多讲。
直接运行根目录下 web_demo.py 文件,即可使用。
默认情况下,模型以 FP16 精度加载,运行上述代码需要大概 13GB 显存。如果 GPU 显存有限,可以尝试以量化方式加载模型,使用方法如下:
运行成功后会自动打开一个由 Gradio 搭建的 http://127.0.0.1:7860 页面,即可使用。
GPU 显存 占用较高,本人电脑勉强能用:
原始界面比较简陋,自己写一套新的界面,主要适配移动端。
后端
使用 FastApi 开发,支持流式响应:
前端
使用 Vue3 + Vant 开发,支持流式渲染输出:
界面效果
由于时间和个人水平有限,界面其实写得并不很好。但主要功能包括流式输出已经实现,减少了等待时间,还是有一些使用价值。
至于 ChatGLM-6B 的使用效果,虽然离 ChatGPT 仍有差距,但对于一个只有 60 亿参数的小模型来说,已经很不错了。期待正在内测的 ChatGLM-130B 有着更好的表现。