前几天阿里发布了他们的开源大语言模型通义千问(qwen),根据介绍,这个模型不仅在多项评分中排名靠前,而且支持长对话、对api使用能力也有较大进步。而闻达作为一个LLM调用平台,就十分适合qwen。
wenda其实可以直接运行未量化的通义千问qwen-7b模型,只是速度实在感人。每秒只能生成0.2字,难称可用。
首先说一下,这里面的坑还挺多的,但是也没那么多。简简单单就能搞定。
首先量化,我懒,找的别人在h站上量化好的,感谢发布者的工作。链接:https://huggingface.co/AironHeart/Qwen-7B-Chat-8bit
然后,一定仔细看qwen-7b的readme,你遇到的全部问题里面都记录了,给个好评。然后记得遇到缺啥就安装啥,除了bitsandbytes。
首先在环境中安装必要组件
这只是能保证可用,想能用(18g显存以下的),就得量化。
完成int8的配置
之后不出意外,会提示缺少bitsandbytes,这时候一定要注意版本,Windows需要特定版本才能运行。
我用的这个:
安装完成后就可用正常运行了。这个就是成功的标志
另外发现一个有意思的现象,运行qwen时候,显卡功耗非常低,180w tdp只能跑到24w,速度每秒2字。看项目反馈,有人是提到运行速度慢的问题,目前qwen项目人员也在找问题所在。希望可以找到提高速度的方法。(超长对话显存会来到11g多,长对话时还是要注意)
qwen-7b感觉比glm2-6b聪明点,但是我问的问题不多,实际上差别不大,还需要进一步测试
(顺带一提,问通义千问网页版的时候的回答错的离谱)
我遇到的坑:readme中是max_memory = max_memory忘改,直接pip install bitsandbytes-windows,其他的记不清了
All-In-One 2023-08-20