当前位置:首页|资讯|通义千问

跨设备运行小小阿里云通义千问大模型 Qwen1.5-0.5B-Chat

作者:Second_State发布时间:2024-02-26

Qwen1.5-0.5B-Chat[1],是阿里云开发的基于大量数据预训练的 transformer 模型,是 Qwen 2 的测试版。此次发布的 1.5 版本的模型在聊天模型、多语言支持方面进行了改进,并且为所有大小的模型都提供了 32K 上下文长度的稳定支持。该模型专为文本生成设计,可用于后训练和持续预训练等任务。Qwen 团队此次共发布了6种不同参数的模型,包括 0.5B[2]、1.8B[3]、4B[4]、7B[5]、14B[6] 和72B。

本文中,以Qwen1.5-0.5B-Chat为例,我们将介绍以下内容。你可以参考本文,更改命令行上的模型名称[7]来运行其他参数的模型。

  • 如何在自己的设备上运行Qwen1.5-0.5B-Chat

  • 如何为Qwen1.5-0.5B-Chat创建兼容OpenAI的API服务

我们将使用LlamaEdge[8](Rust + Wasm技术栈)来为该模型开发和部署应用程序。无需安装复杂的Python包或C++工具链!了解我们为何选择此技术栈[9]。

在自己的设备上运行Qwen1.5-0.5B-Chat

步骤1:通过以下命令行安装WasmEdge[10]。

curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install.sh | bash -s -- --plugin wasi_nn-ggml

步骤2:下载 Qwen1.5-0.5B-Chat模型[11] GGUF 文件。由于模型大小为459 MB,下载时间不会很长。如果无法访问 HuggingFace,可以使用

curl -LO https://huggingface.co/second-state/Qwen1.5-0.5B-Chat-GGUF/resolve/main/Qwen1.5-0.5B-Chat-Q5_K_M.gguf

步骤3:下载一个跨平台的可移植 Wasm 文件,用于聊天应用。该应用让你能在命令行中与模型聊天。该应用的 Rust 源代码在这里[12]。

curl -LO https://github.com/LlamaEdge/LlamaEdge/releases/latest/download/llama-chat.wasm

就这样。可以通过输入以下命令在终端与模型聊天。

wasmedge --dir .:. --nn-preload default:GGML:AUTO:Qwen1.5-0.5B-Chat-Q5_K_M.gguf llama-chat.wasm -p chatml

这个可移植的Wasm应用会自动利用设备上的硬件加速器(例如GPU)。

[You]:
What is Sora?

[Bot]:
Sora is a fictional character from the anime and manga series "One Punch Man." Sora is known for his unique fighting style, which involves using his hands to manipulate objects and create powerful attacks. Sora has appeared in various forms throughout the series, including as a main character, a supporting character, or a side character.

为 Qwen1.5-0.5B-Chat 创建兼容OpenAI的API服务

一个兼容 OpenAI 的 Web API 能让模型与不同的 LLM 工具和代理框架(如 flows.network、LangChain 和 LlamaIndex)一起工作。

下载一个 API 服务器应用。它也是一个跨平台的可移植 Wasm 应用,可以在各种 CPU 和 GPU 设备上运行。

curl -LO https://github.com/LlamaEdge/LlamaEdge/releases/latest/download/llama-api-server.wasm

然后,下载聊天机器人 Web UI,从而通过聊天机器人 UI 与模型进行交互。

curl -LO https://github.com/LlamaEdge/chatbot-ui/releases/latest/download/chatbot-ui.tar.gz
tar xzf chatbot-ui.tar.gz
rm chatbot-ui.tar.gz

接下来,使用以下命令行启动模型的 API 服务器。然后,打开浏览器访问 http://localhost:8080[13]开始聊天!

wasmedge --dir .:. --nn-preload default:GGML:AUTO:Qwen1.5-0.5B-Chat-Q5_K_M.gguf llama-api-server.wasm -p chatml

从另一个终端, 你可以使用 curl 与 API 服务器进行交互。

curl -X POST http://localhost:8080/v1/chat/completions \
  -H 'accept:application/json' \
  -H 'Content-Type: application/json' \
  -d '{"messages":[{"role":"system", "content": "You are a sentient, superintelligent artificial general intelligence, here to teach and assist me."}, {"role":"user", "content": "Write a short story about Goku discovering kirby has teamed up with Majin Buu to destroy the world."}], "model":"Qwen1.5-0.5B-Chat"}'

就是这样啦。WasmEdge 是运行LLM应用最简单、最快、最安全的方式[14]。试试看吧!

联系我们!

加入WasmEdge discord 和我们交流![15]对运行此模型有疑问?请前往second-state/LlamaEdge[16]提出issue或预约演示[17],跨设备运行 LLM!


关于 WasmEdge


WasmEdge 是轻量级、安全、高性能、可扩展、兼容OCI的软件容器与运行环境。目前是 CNCF 沙箱项目。WasmEdge 被应用在 SaaS、云原生,service mesh、边缘计算、边缘云、微服务、流数据处理、LLM 推理等领域。


GitHub:https://github.com/WasmEdge/WasmEdge

官网:https://wasmedge.org/

‍‍Discord 群:https://discord.gg/U4B5sFTkFc

文档:https://wasmedge.org/docs

参考资料[1]

Qwen1.5-0.5B-Chat: https://huggingface.co/Qwen/Qwen1.5-0.5B-Chat

[2]

0.5B: https://huggingface.co/second-state/Qwen1.5-0.5B-Chat-GGUF

[3]

1.8B: https://huggingface.co/second-state/Qwen1.5-1.8B-Chat-GGUF

[4]

4B: https://huggingface.co/second-state/Qwen1.5-4B-Chat-GGUF

[5]

7B: https://huggingface.co/second-state/Qwen1.5-7B-Chat-GGUF

[6]

14B: https://huggingface.co/second-state/Qwen1.5-14B-Chat-GGUF

[7]

更改命令行上的模型名称: https://www.secondstate.io/articles/selfhost-huggingface-llms/

[8]

LlamaEdge: https://github.com/LlamaEdge/LlamaEdge/

[9]

了解我们为何选择此技术栈: https://www.secondstate.io/articles/fast-llm-inference/

[10]

WasmEdge: https://github.com/WasmEdge/WasmEdge

[11]

Qwen1.5-0.5B-Chat模型: https://huggingface.co/second-state/Qwen1.5-0.5B-Chat-GGUF

[12]

这里: https://github.com/second-state/llama-utils/tree/main/chat

[13]

http://localhost:8080: http://localhost:8080/

[14]

运行LLM应用最简单、最快、最安全的方式: https://www.secondstate.io/articles/fast-llm-inference/

[15]

WasmEdge discord 和我们交流!: https://discord.com/invite/U4B5sFTkFc

[16]

second-state/LlamaEdge: https://github.com/second-state/LlamaEdge

[17]

预约演示: https://code.flows.network/webhook/vvAtEBUk6QMhVVLuw7IU





Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1