最近NousResearch/Nous-Hermes-13b模型比较火(至少TheBloke/Nous-Hermes-13B-GPTQ的下载量已经高达160K了)。该模型自称在各种任务中表现不亚于GPT-3.5-turbo,长回复、低幻觉率和缺乏OpenAI审查机制的优点。群友和我测试了下感觉也挺不错的。
重点是,昨晚有个群友尝试把chinese-alpaca-13b的lora和Nous-Hermes-13b融合在一起,成功了,模型的中文能力得到提升,有兴趣可以试试。目前该群友以上传融合后的模型请在hugging face上搜索: Bandifishing/Nous-Hermes-13b-Chinese
网址:https://huggingface.co/Bandifishing/Nous-Hermes-13b-Chinese
该模型是原版非量化模型,要加载的话建议启动bitsandbyts的load-in-4bit或load-in-8bit功能(懒人包的启动程序的设置页面有选项),不然会爆显存。
今早我查阅了Chinese-LLaMA-Alpaca的文档,也把chinese-alpaca-13b的lora和Nous-Hermes-13b融合了,并制作了ggml模型(适合在无独立显卡/A卡/显存不足)的用户使用。目前已先上传q5_1模式到hugging face上,
请在hugging face上搜索:coyude/Nous-Hermes-13b-Chinese-GGML
网址:https://huggingface.co/coyude/Nous-Hermes-13b-Chinese-GGML
目前还有8个版本的模型正在上传中。下午打算看看能不能转成GPTQ量化模型。
GGML模型可以使用显卡加速,大致流程在这个文档上:
https://github.com/oobabooga/text-generation-webui/blob/main/docs/llama.cpp-models.md
即打开启动器→更新管理→打开环境
依次输入那四条指令
随后在启动参数的追加参数一栏上加上--n-gpu-layers xxx
其中xxx代表分配到GPU的层数。
如果您有足够的VRAM,请使用高数字,例如--n-gpu-layers 200000将所有层卸载到GPU上。
否则,请从低数字开始,例如--n-gpu-layers 10,然后逐渐增加它直到内存耗尽。
借了一张群友的图,当提示检测到显卡时代表成功。