发现一个UI好看,使用方便的本地AI工具Jan,通过Jan用户可以一键部署开源的AI大模型比如Mistral,Llama还有基于Llama的零一万物或手动导入其他模型。也可以通过API Key访问GPT4。支持n卡加速,没有n卡也可以用纯cpu计算。
Jan可以在官网免费下载,支持win,苹果芯片的mac和linux。windows客户端为免安装的exe,自己打开即可,linux客户端提供了deb和appimage,deb安装snap报错的话可以用dpkg -i命令安装。我手上的mac mini才8g内存mac端就不折腾了。Jan官网地址https://jan.ai
Windows平台测试使用的硬件是i7 13700k和rtx 3090,内存64GB,显存24GB,cuda版本12.4.89。打开软件后再Advance Setting里可以打开N卡加速和设置文件地址。
左侧Hub中可以直接部署模型已经有很多,这里主要测试LlaMa 2 Chat 7B和Yi 34B。70B参数的LlaMa 2在吃完我所有内存和显存后直接报错。
Max Tokens直接拉满。开启N卡加速的情况下,LlaMa 2 7B只占用约8G显存,Token Speed来到了50/s,可以说非常快了,知识类提问回答质量还不错,但回答优先英语。
同样基于的LlaMa的零一万物中文支持明显更好。但由于参数更大,Token Speed只有约11/s,使用时吃满3090的24GB显存的同时,还吃了20GB+的内存。
Linux平台使用的是一台i5 8350U的笔记本电脑,内存16GB无独显。系统为Ubuntu 22.04。
受限于内存只能跑参数少些的模型,首先还是7B的LlaMa 2。
内存占用抛开系统开销其实只有3GB不到,比Windows平台的同模型略少,Token Speed当然低得多只有5/s左右,生成时间长了由于cpu降频,Token Speed会掉到4/s左右。同样回答内容为英文。
接下来换只有10亿参数的TingLlaMa。
参数降低之后Token Speed显著提升,来到20/s左右,内存占用也非常低只有1GB左右。TingLlaMa可以做中文回答。但是知识类提问的回答质量对比7B的LlaMa 2显著降低。
总得来说对于知识类的问题,有一台算力还不错,内存/显存够大的本地PC用本地AI大模型完全可以满足工作学习的大部分需求,即使是老笔记本运行低参数的本地大模型也不会有太大压力。最近的移动平台如骁龙8gen3也已经可以本地运行10B级大模型,也许AI很快就能标配到所有终端设备中。
木易毛毛 2023-11-17
学术Fun 2023-11-25