当前位置:首页|资讯|通义千问|大语言模型

小记一下在wenda上使用量化的通义千问(qwen-7b-chat)

作者:传说中的L哥发布时间:2023-08-12

前几天阿里发布了他们的开源大语言模型通义千问(qwen),根据介绍,这个模型不仅在多项评分中排名靠前,而且支持长对话、对api使用能力也有较大进步。而闻达作为一个LLM调用平台,就十分适合qwen。

wenda其实可以直接运行未量化的通义千问qwen-7b模型,只是速度实在感人。每秒只能生成0.2字,难称可用。

究其原因,通过电脑性能监测发现,运行的时候,不仅调用了外接的显卡(跑LLM的主力,12g显存)还同时调用的内置显卡(1650,凑数的,我是笔记本外接显卡)同时cpu也有负荷。推测是自动进行了多卡推理,但是巨大的性能差异和雷电3的小水管严重拖慢了速度。于是进行int8(只有10g多的显存占用)量化运行

首先说一下,这里面的坑还挺多的,但是也没那么多。简简单单就能搞定。

首先量化,我懒,找的别人在h站上量化好的,感谢发布者的工作。链接:https://huggingface.co/AironHeart/Qwen-7B-Chat-8bit

然后,一定仔细看qwen-7b的readme,你遇到的全部问题里面都记录了,给个好评。然后记得遇到缺啥就安装啥,除了bitsandbytes。

首先在环境中安装必要组件



这只是能保证可用,想能用(18g显存以下的),就得量化。

readme中参考


完成int8的配置

之后不出意外,会提示缺少bitsandbytes,这时候一定要注意版本,Windows需要特定版本才能运行。

我用的这个:

安装完成后就可用正常运行了。这个就是成功的标志


另外发现一个有意思的现象,运行qwen时候,显卡功耗非常低,180w tdp只能跑到24w,速度每秒2字。看项目反馈,有人是提到运行速度慢的问题,目前qwen项目人员也在找问题所在。希望可以找到提高速度的方法。(超长对话显存会来到11g多,长对话时还是要注意)


qwen-7b感觉比glm2-6b聪明点,但是我问的问题不多,实际上差别不大,还需要进一步测试


(顺带一提,问通义千问网页版的时候的回答错的离谱)

我遇到的坑:readme中是max_memory = max_memory忘改,直接pip install bitsandbytes-windows,其他的记不清了



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1