当前位置:首页|资讯|AI聊天机器人|Alpaca|LoRA|OpenAI

[AI对话]模型推荐Nous-Hermes-13b+chinese-alpaca-lora

作者:coyude发布时间:2023-06-11

最近NousResearch/Nous-Hermes-13b模型比较火(至少TheBloke/Nous-Hermes-13B-GPTQ的下载量已经高达160K了)。该模型自称在各种任务中表现不亚于GPT-3.5-turbo,长回复、低幻觉率和缺乏OpenAI审查机制的优点。群友和我测试了下感觉也挺不错的。


模型介绍
160K下载量


重点是,昨晚有个群友尝试把chinese-alpaca-13b的lora和Nous-Hermes-13b融合在一起,成功了,模型的中文能力得到提升,有兴趣可以试试。目前该群友以上传融合后的模型请在hugging face上搜索: Bandifishing/Nous-Hermes-13b-Chinese 

网址:https://huggingface.co/Bandifishing/Nous-Hermes-13b-Chinese



该模型是原版非量化模型,要加载的话建议启动bitsandbyts的load-in-4bit或load-in-8bit功能(懒人包的启动程序的设置页面有选项),不然会爆显存。



今早我查阅了Chinese-LLaMA-Alpaca的文档,也把chinese-alpaca-13b的lora和Nous-Hermes-13b融合了,并制作了ggml模型(适合在无独立显卡/A卡/显存不足)的用户使用。目前已先上传q5_1模式到hugging face上,

请在hugging face上搜索:coyude/Nous-Hermes-13b-Chinese-GGML

网址:https://huggingface.co/coyude/Nous-Hermes-13b-Chinese-GGML



目前还有8个版本的模型正在上传中。下午打算看看能不能转成GPTQ量化模型。


GGML模型可以使用显卡加速,大致流程在这个文档上:

https://github.com/oobabooga/text-generation-webui/blob/main/docs/llama.cpp-models.md


即打开启动器→更新管理→打开环境

依次输入那四条指令

随后在启动参数的追加参数一栏上加上--n-gpu-layers xxx

其中xxx代表分配到GPU的层数。

如果您有足够的VRAM,请使用高数字,例如--n-gpu-layers 200000将所有层卸载到GPU上。

否则,请从低数字开始,例如--n-gpu-layers 10,然后逐渐增加它直到内存耗尽。

借了一张群友的图,当提示检测到显卡时代表成功。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1