当前位置:首页|资讯|清华|ChatGPT|文心一言|ChatGLM|GitHub

011. 清华大学 ChatGLM-6B 模型,支持本地部署

作者:姚千山发布时间:2023-03-29

前言

前有 ChatGPT,后有文心一言,最近几个月 AI 圈的产品可谓是爆发式发展。但这些语言大模型动辄需要上百 G 显存,对于个人电脑实在是负担不起。而近期由清华大学推出的开源对话 AI——ChatGLM-6B,最低只要 6G 显存,使得用户可以在大部分消费级的显卡上进行本地部署,为广大 AI 爱好者带来了福音。发布不过短短两周,Github 已有 9.8K Star,受认可程度可见一斑。

简单部署

1. 下载

首先需要下载源代码:

以及从抱脸上下载模型文件,可能需要较长时间:

将下载的模型文件目录 chatglm-6b 移动到源代码目录下的 THUDM/chatglm-6b 目录。

2. 使用

建立 Python 虚拟环境,并安装依赖库:

如果 Pytorch 和 CUDA 未安装,需自行下载安装。网上教程极多,不再多讲。

直接运行根目录下 web_demo.py 文件,即可使用。

默认情况下,模型以 FP16 精度加载,运行上述代码需要大概 13GB 显存。如果 GPU 显存有限,可以尝试以量化方式加载模型,使用方法如下:

运行成功后会自动打开一个由 Gradio 搭建的 http://127.0.0.1:7860 页面,即可使用。

体验效果

GPU 显存 占用较高,本人电脑勉强能用:

占用显存

Web 部署

原始界面比较简陋,自己写一套新的界面,主要适配移动端。

后端

使用 FastApi 开发,支持流式响应:

前端

使用 Vue3 + Vant 开发,支持流式渲染输出:

界面效果

简单界面

由于时间和个人水平有限,界面其实写得并不很好。但主要功能包括流式输出已经实现,减少了等待时间,还是有一些使用价值。

至于 ChatGLM-6B 的使用效果,虽然离 ChatGPT 仍有差距,但对于一个只有 60 亿参数的小模型来说,已经很不错了。期待正在内测的 ChatGLM-130B 有着更好的表现。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1