6个中文开源语言模型的对话体验

作者：璃花昼发布时间：2023-03-08

体验了一些中文开源的语言模型，功能上可以算做类ChatGPT的模型吧（虽然模型结构完全不一样），效果上肯定不能和ChatGPT比，但基本的对话功能已经有了雏形，有一定的理解能力和回答能力。并且因为是开源模型，可以在这个基础上收集语料继续训练，有可拓展的空间。

这些模型不一定是完全用来对话的，还有生成、判别之类的其他功能，这里只是进行了本地部署，并初步测试了它们的对话功能。

ChatRWKV

代码地址：https://github.com/BlinkDL/ChatRWKV

模型地址：https://huggingface.co/BlinkDL

在【Models】里面选择一个模型，然后在【FIles and versions】里面选择一个版本进行下载

模型结构：近些年随着 Transformer 的火爆后，RNN 明显逐渐没落了，然而 RWKV 反其道行之，选择使用了纯 RNN 结构，通过对架构的修改，同时拥有了 RNN 和 Transformer 两者的优点。

参数数量：目前有1.5B、3B、7B、14B四种，参数数量越多效果越好。14B大约要28G显存，我显存只有24G，所以我这里用的模型是RWKV-4-Pile-7B-Instruct-test2-20230209，大约要15G显存。

训练数据：331B个token的语料上训练。

测试方法：下载代码和模型，模型和代码在同一个目录下，如图修改chat.py的参数，执行chat.py即可

对话体验：模型在回答的时候是有理解到问题的，也是有回答到一些点的，但回答的内容更像是在根据我的话生成内容，而不是在和我对话，可能这个模型本身就是基于生成文本来训练的。可以在开头加上+gen、+qa、+qq之类的指令，来控制对话的内容是生成模式还是独立对话等。

EVA2

代码地址：https://github.com/thu-coai/EVA

模型地址：https://huggingface.co/thu-coai/EVA2.0-xlarge

另外还有base和large两个版本，这里用的是最大的xlarge版本

参数数量：xlarge 2.8B

论文地址：https://arxiv.org/abs/2203.09313

训练数据：经过清洗的Wudao对话语料库

测试方法：下载代码，然后下载模型到model目录即可

对话体验：可以进行日常的闲聊，回答比较随心所欲。

gpt2-dialogbot-base-chinese

代码地址：https://github.com/shibing624/dialogbot

模型地址：https://huggingface.co/shibing624/gpt2-dialogbot-base-chinese

模型结构：基于GPT2

训练数据：来自一些论坛、电视剧的对话语料

测试方法：下载代码，然后下载模型到model目录即可

对话体验：能够进行一些简单的闲聊对话，有点在网上和人瞎扯的感觉。

chat-DialoGPT-small-zh

模型地址：https://huggingface.co/liam168/chat-DialoGPT-small-zh

模型结构：比较老的一个基于GPT2的对话模型，目前已被GODEL替代，但可惜没有找到GODEL的开源中文模型。

论文地址：https://arxiv.org/abs/1911.00536

训练数据：中文聊天数据

测试方法：下载模型到model目录即可，模型地址中有测试的代码

对话体验：比较抽象。这里他有提示padding的问题，不过加上这两个参数：padding=True和padding_side='left'，似乎也没有什么改变。

PromptCLUE

代码地址：https://github.com/clue-ai/PromptCLUE

模型地址：https://huggingface.co/ClueAI/PromptCLUE-base-v1-5

在线测试：https://www.cluebenchmarks.com/clueai.html

模型结构：基于t5-large

参数数量：base 220M，large 770M

训练数据：万亿级别token

测试方法：我这里直接用modelscope框架。也可以下载原始代码和模型，然后用示例代码进行测试

对话体验：这是一个多任务预训练零样本的语言模型，可以支持情感分析、阅读理解、提取、生成、翻译等几十种任务，但是在对话方面好像并不擅长，所以这里只是简单测试一下问答的情况。开源的是base版本，比网页上的large版本效果也会差一些。

ChatYuan

代码地址：https://github.com/clue-ai/ChatYuan

模型地址：https://huggingface.co/ClueAI/ChatYuan-large-v1

在线测试：模型的介绍页面的【Colab在线试用】

模型结构：基于PromptCLUE-large进一步训练

训练数据：数亿条功能对话多轮对话数据

测试方法：这里同样使用modelscope框架，也可以用原始代码和模型测试

对话体验：这个模型是基于PromptCLUE-large用对话数据训练的，虽然PromptCLUE可能对话效果并不是很好，但ChatYuan在对话领域已经有了很大的提升。简单的短对话都能够有效的进行，并且有对上下文的理解。不过对话很长时，还是会有些问题。

总体上，这些模型的规模可能只有ChatGPT的千分之一，能达到这样有一定理解能力的效果已经不错了，说明整体的方向没有走偏。

后续可以尝试的，可以选一个模型作为基础模型，然后在一个特定领域的对话语料集上进行微调，如果能在这个领域有不错的效果，那么就能有进一步的应用空间。

当然这些模型结构和ChatGPT并不一样，如果要训练结构一样的小型ChatGPT，可以参考OpenAssistant，也是一个可尝试方向（就是成本可能有点高）。

另外，随着这两天的LLaMA模型被公开，应该很快就会有各种各样自研的大型语言模型出来了。

巩义网站建设是企业发展中至关重要的一环。一个成功的企业网站不仅仅是一个展示产品和服务的平台，更是企业形象和品牌的代表。在建设企业网站时，首先要考虑用户体验。网站的设计应简洁明了，易于导航，让用户能够快速找到他们需要的信息。其次，网站内容要具有吸引力和独特性，能够吸引用户停留并了解企业的核心价值。同时，网站的响应速度也至关重要，快速加载能提升用户体验。另外，企业网站也需要考虑搜索引擎优化（SEO）。通过优化网站内容和结构，使其更容易被搜索引擎收录和排名，从而提升网站的曝光度和流量。此外，移动端适配也是不可忽

做网站建设设计小程序 2024-12-28

第一次世界大战（1914-1918）是一个战斗方式急剧变化的时期。在西线，传统的战壕战使得战争的进程陷入了长期僵持。面对复杂的战场环境，各国军队纷纷寻找突破僵局的新手段。在这一背景下，德国也开始探索装甲部队的构想，尽管这一时期的德国装甲部队并未成为决定性力量，但它们的出现却为后来的装甲战术与技术的演变铺平了道路。德国的装甲部队起步：初步设想与技术限制第一次世界大战爆发之初，装甲车辆的概念尚未成熟，尤其是在德军中，重视传统的骑兵和炮兵作战模式。随着战争的深入，西线的战壕战愈加复杂，敌对双方互相对峙，战局

Potato217 2024-12-28

简介ndm下载器其全称为Neat Download Manager，是一款免费、轻量、高速的下载工具，它和idm（Internet Download Manager）类似，界面简洁都具备多线程下载、断点续传、浏览器集成、嗅探资源、支持 HTTP、HTTPS 和 FTP 协议等特点，区别在于idm是付费产品且只支持windows系统，而ndm下载器则为免费的跨平台产品，支持windows和mac系统。该软件的官方版本仅支持英文界面。为了让国人使用起来更加方便，在此准备了ndm 下载器汉化补丁（仅支持wind

墨宇星辰888 2024-12-28

6个中文开源语言模型的对话体验

推荐体验

相关资讯

OpenAI或将发布新的开源语言模型

传OpenAI正准备发布新的开源语言模型

ChatGPT开源替代品激增之际，OpenAI拟发布新的开源语言模型

ChatGPT一周年：开源语言大模型的冲击

把GPT集成到任何系统！语言模型工程实践与开源语言模型社区研究

近期资讯

B站托福词汇量必备神器！！！赶紧来

巩义网站建设：如何打造一个成功的企业网站

挑衅为啥称叫板？

努力的果实：会有好结果

高中英语核心词汇887个…

勤源FinOps：实现政务云精准成本分摊与高效计费

德国一战装甲部队

奇妙的伪素数

2026经济学考研名校百家行之武汉大学

NDM下载器免费高速支持windows和mac

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响