这两天尝试按网上的许多教程把LLaMA的模型尝试部署到本地,算是之前ChatGPT火爆而一直没能尝试的补偿性尝鲜。不得不说,这新出现的AI确实令我很惊讶,和以前的xx助手完全不在一个级别上,部署并试验成功之后有点小兴奋,算是随便写点日记之类的娱乐一下。
本人不是相关专业的(其实是完全不沾边的地科生),捣鼓这个就是闲暇时间自娱自乐放松,如果有什么误导性的内容,大家可以在评论或者私信指出。
在个人电脑上部署GPT-3级别的NLP模型应该主要面临的就是系统资源短缺的问题,譬如装载文件需要的大显存的缺失(甚至顶级消费级显卡也显得无能为力)。刚开始本人准备把NeoX-20B下载下来进行玩耍,结果看了又看发现需要的显存大小完全超出了那可怜的2070的能力范围,但是又不甘心用参数过少的模型,找来找去发现了LLaMA.cpp这个神器。
这个具体实现形式不太清楚,但是按照说明步骤意义做下来,辅以设置48G的虚拟内存(页面文件)(我本机的物理内存只有16G),居然勉强把30B参数的文件装载了进去(虽然生成token速度慢得令人发指)。这个LLaMA.cpp简单说就是没有好显卡,只要硬盘空间够,就可以装载运行,当然如果大量依赖虚拟内存的话速度会远不如正常装载。
再就是目前按正常渠道流出的LLaMA/Alpaca似乎不支持流畅的中文对话,但是据我所知已经有人推出了基于此的微调模型,大家可以搜索一下,应该也开源了。