ollama部署Qwen2.5-7B模型尝鲜测试

作者：wwwzhouhui发布时间：2024-09-19

前言

2024年9月18日阿里开源了Qwen2.5一系列模型，及专门针对编程的 Qwen2.5-Coder 和数学的 Qwen2.5-Math 模型。所有开放权重的模型都是稠密的、decoder-only的语言模型，提供多种不同规模的版本，包括：

Qwen2.5: 0.5B, 1.5B, 3B, 7B, 14B, 32B, 以及72B;
Qwen2.5-Coder: 1.5B, 7B, 以及即将推出的32B;
Qwen2.5-Math: 1.5B, 7B, 以及72B。

除了3B和72B的版本外，Qwen2.5所有的开源模型都采用了 Apache 2.0 许可证。您可以在相应的模型仓库中找到许可证文件。此外，本次通义千问团队还开源了性能不输于GPT-4o的 Qwen2-VL-72B

具有以下特点:

更大的训练数据集：Qwen2.5 语言模型的所有尺寸都在最新的大规模数据集上进行了预训练，该数据集包含多达 18T tokens。相较于 Qwen2，Qwen2.5 获得了显著更多的知识（MMLU：85+），并在编程能力（HumanEval 85+）和数学能力（MATH 80+）方面有了大幅提升。
更强的指令遵循能力：新模型在指令执行、生成长文本（超过 8K 标记）、理解结构化数据（例如表格）以及生成结构化输出特别是 JSON 方面取得了显著改进。Qwen2.5 模型总体上对各种system prompt更具适应性，增强了角色扮演实现和聊天机器人的条件设置功能。
长文本支持能力：与 Qwen2 类似，Qwen2.5 语言模型支持高达 128K tokens，并能生成最多 8K tokens的内容。
强大的多语言能力：它们同样保持了对包括中文、英文、法文、西班牙文、葡萄牙文、德文、意大利文、俄文、日文、韩文、越南文、泰文、阿拉伯文等 29 种以上语言的支持。
专业领域的专家语言模型能力增强，即用于编程的 Qwen2.5-Coder 和用于数学的 Qwen2.5-Math，相比其前身 CodeQwen1.5 和 Qwen2-Math 有了实质性的改进。具体来说，Qwen2.5-Coder 在包含 5.5 T tokens 编程相关数据上进行了训练，使即使较小的编程专用模型也能在编程评估基准测试中表现出媲美大型语言模型的竞争力。同时，Qwen2.5-Math 支持中文和英文，并整合了多种推理方法，包括CoT（Chain of Thought）、PoT（Program of Thought）和 TIR（Tool-Integrated Reasoning）。

ollama 官方也第一时间升级支持Qwen2.5 0.5B 、1.5B 、7B 、32B、72B 模型

下面我们就以7B模型给大家部署和演示以下Qwen2.5 模型到底怎么样。

ollama 版本升级

首先我们需要将本地ollama 升级到最新版本v0.3.11 以便更好的支持最新的模型，我们从ollama 最新版本升级说明也可以看到本次版本对Qwen2.5 模型的支持

下载ollama 最新v0.3.11 版本（我们就以windows 版本为案例介绍）

将下载的OllamaSetup.exe 下载到本地。

检查本地ollama

在安装ollama 之前我们先检查一下ollama 本地环境的版本.windows cmd窗口中输入

ollama -v

显示是0.3.10 版本

安装ollama

将刚才下载的OllamaSetup.exe 双击安装。这个安装比较简单，这里就不详细展开。

模型下载

接下来我们下载最新的qwen2.5 7B instruct模型

我们在windows cmd窗口中输入

ollama pull qwen2.5:7b-instruct

等待模型下载，下载的模型速度取决您的网络速度。

使用

使用ollama 命令行窗口推理

启动模型

ollama run qwen2.5:7b-instruct

模型启动完成，这样我们就可以实现模型推理了。

我们查看显卡，qwen2.5:7b-instruct 默认4B量化的模型大概占用 4.7GB显存推理速度也还可以。

使用第三方chatbox 来实现推理

下载chatbox 套壳软件。 https://chatboxai.app/zh

下载好chatbox 配置一下ollama

点击保存后，完成chatbox 设置

我找几个有点难度的问题。

回答正确，没有翻车。

我们的问题：

同源结构经常被引用作为自然选择过程的证据。以下所有的结构都是同源结构，除了 (A) 鸟的翅膀和蝙蝠的翅膀 (B) 鲸鱼的鳍和人的手臂 (C) 海豚的胸鳍和海豹的鳍 (D) 昆虫的前腿和狗的前肢

回答的是正确的。

总结

目前我们使用ollama 提供的qwen2.5:7b-instruct （4B量化）模型在 4060显卡上推理使用起来还是非常方便了，准确性和推理速度都可以满足我们市场对模型使用。由于时间关系我这里就没做详细展开，据说它也是支持funcation call 功能。下期我们分享和其他工具的组合使用，今天分享就到这里，感兴趣小伙伴可以留言、点赞、收藏加关注。