我只用一个命令行就跨设备运行了 Nous-Hermes-2-Mixtral-8x7B-SFT

作者：Second_State发布时间：2024-01-23

轻量 2MB AI 推理APP 可完全跨平台运行，在自己的 Mac 试试吧！

想要快速开始，只需在自己的设备上运行一个命令[1]即可在本地跑 Nous-Hermes-2 大模型。这个命令行工具会自动下载并安装 WasmEdge 运行时、模型文件和用于推理的完全可移植 Wasm 应用。

Nous Hermes 2 Mixtral 8x7B SFT[2] 是 Nous Research 基于 Mixtral 8x7B MoE 大模型上训练的受监督微调模型。它接受了超过 1,000,000 个主要由 GPT-4 生成的数据条目以及来自整个 AI 领域开放数据集的其他高质量数据的训练，在各种任务上实现了最先进的性能。该模型使用 ChatML 作为 prompt 格式，为大模型参与多轮聊天对话提供了一个更加结构化的系统。

本文中，我们将介绍：

在自己的设备上运行 Nous-Hermes-2-Mixtral-8x7B-SFT
为 Nous-Hermes-2-Mixtral-8x7B-SFT 大模型创建一个与 OpenAI 兼容的 API 服务

我们将使用 LlamaEdge[3]（Rust + Wasm 技术栈）开发和部署此模型的应用程序。不需要安装复杂的 Python 包或 C++ 工具链！了解我们选择这个技术栈的原因。[4][Image: Easily Implement dolphin-2.2-yi-34b on Your Device with Rust + Wasm (12).png]

在自己的设备上运行 Nous-Hermes-2-Mixtral-8x7B-SFT

步骤1：通过以下命令行安装 WasmEdge[5]。

curl -sSf https://raw.githubusercontent.com/WasmEdge/WasmEdge/master/utils/install.sh | bash -s -- --plugin wasi_nn-ggml

步骤2：下载 Nous-Hermes-2-Mixtral-8x7B model GGUF file[6]. 由于模型的大小为几十个 GB，下载可能需要一定时间。

curl -LO https://huggingface.co/second-state/Nous-Hermes-2-Mixtral-8x7B-SFT-GGUF/resolve/main/Nous-Hermes-2-Mixtral-8x7B-SFT-Q5_K_M.gguf

步骤 3：下载聊天应用程序的跨平台可移植 Wasm 文件。该应用程序让你能用命令行与模型聊天。该应用程序的Rust 源代码在这里[7]。

curl -LO https://github.com/second-state/LlamaEdge/releases/latest/download/llama-chat.wasm

完成啦！可以通过输入以下命令在终端与模型进行聊天。

wasmedge --dir .:. --nn-preload default:GGML:AUTO:Nous-Hermes-2-Mixtral-8x7B-SFT-Q5_K_M.gguf llama-chat.wasm -p chatml

可移植 Wasm 应用程序会自动利用设备上的硬件加速器（如 GPU）。

[You]: Write a Rust program to check if the output is prime [Bot]: Here's a simple Rust program that takes an input from the user, checks whether it's divisible by any number other than 1 and itself (i.e., not a prime), and prints "prime" or "not prime": ```rust use std::io; fn main() { println!("Enter a positive integer: "); let mut input = String::new(); io::stdin().read_line(&mut input) .expect("Failed to read line"); let input: u32 = match input.trim().parse() { Ok(num) => num, Err(_) => { println!("Invalid input!"); return; } }; if is_prime(&input){ println!("{} is prime!", input); } else{ println!("{} is not prime.", input); } } fn is_prime(n: &u32) -> bool { if *n < 2 { return false; } for i in 2..=(*n as f64).sqrt() as u32 { if n % &i == 0 { return false; } } true } This program uses a helper function `is_prime`, which checks whether the number is prime or not using trial division. It iterates from 2 to the square root of the input, checking if it's divisible by any of these numbers. If none divide evenly, then it returns true (the input is prime).

为大模型创建与 OpenAI 兼容的 API 服务

与 OpenAI 兼容的 Web API 让该模型可与不同的 LLM 工具和代理框架（如 flows.network、LangChain 、LlamaIndex 等）一起工作。

下载一个 API 服务器应用程序。它也是一个跨平台可移植的 Wasm 应用程序，可以在各种不同 CPU 和 GPU 设备上运行。戳此查看该 app 的 Rust 源代码。[8]

curl -LO https://github.com/second-state/LlamaEdge/releases/latest/download/llama-api-server.wasm

然后，下载聊天机器人 Web UI，以通过聊天机器人 UI 与模型进行交互。

curl -LO https://github.com/second-state/LlamaEdge/releases/latest/download/llama-api-server.wasm curl -LO https://github.com/second-state/chatbot-ui/releases/latest/download/chatbot-ui.tar.gz tar xzf chatbot-ui.tar.gz rm chatbot-ui.tar.gz

接下来，使用以下命令行启动模型的 API 服务器。然后，用浏览器访问 http://localhost:8080[9] 就能开始聊天了。

wasmedge --dir .:. --nn-preload default:GGML:AUTO:Nous-Hermes-2-Mixtral-8x7B-SFT-Q5_K_M.gguf llama-api-server.wasm -p chatml

还可以从另一个终端使用 curl 与 API 服务器交互。

curl -X POST http://localhost:8080/v1/chat/completions \ -H 'accept:application/json' \ -H 'Content-Type: application/json' \ -d '{"messages":[{"role":"system", "content": "You are a sentient, superintelligent artificial general intelligence, here to teach and assist me."}, {"role":"user", "content": "Write a short story about Goku discovering kirby has teamed up with Majin Buu to destroy the world."}], "model":"Nous-Hermes-2-Mixtral-8x7B-SFT"}'

就这样。WasmEdge 是运行 LLM 应用程序最简单、最快速、最安全的方式[10]。尝试一下吧！

加入 WasmEdge Discord[11]提问和分享见解。如果对运行这个模型有任何问题，请访问 second-state/llamaedge[12] 提 issue，或预约demo[13]。

参考资料[1]

一个命令: https://www.secondstate.io/run-llm/

[2]

Nous Hermes 2 Mixtral 8x7B SFT: https://huggingface.co/NousResearch/Nous-Hermes-2-Mixtral-8x7B-SFT

[3]

LlamaEdge: https://github.com/second-state/LlamaEdge/

[4]

了解我们选择这个技术栈的原因。: https://www.secondstate.io/articles/fast-llm-inference/

[5]

WasmEdge: https://link.zhihu.com/?target=https%3A//github.com/WasmEdge/WasmEdge

[6]

Nous-Hermes-2-Mixtral-8x7B model GGUF file: https://huggingface.co/second-state/Nous-Hermes-2-Mixtral-8x7B-SFT-GGUF

[7]

Rust 源代码在这里: https://github.com/second-state/llama-utils/tree/main/chat

[8]

戳此查看该 app 的 Rust 源代码。: https://github.com/second-state/llama-utils/tree/main/api-server

[9]

http://localhost:8080: http://localhost:8080/

[10]

运行 LLM 应用程序最简单、最快速、最安全的方式: https://www.secondstate.io/articles/fast-llm-inference/

[11]

加入 WasmEdge Discord: https://discord.com/invite/U4B5sFTkFc

[12]

second-state/llamaedge: https://github.com/second-state/LlamaEdge

[13]

demo: https://code.flows.network/webhook/vvAtEBUk6QMhVVLuw7IU

近期资讯

幸运大爆炸，带你玩转年会创意抽奖。

一年一度的公司年会来临，我们不仅有机会回顾过去一年的成就，还能在欢声笑语中迎来新一年的希望。而今年，我们要让这份期待升级，用一场别开生面的年会创意抽奖活动，让每个人的笑容更加灿烂！为了让每个人都能参与到这场抽奖盛宴中，我们可以选择凡网云互动工具作为我们的得力助手。这款工具以其易用性和互动性著称，让我们的抽奖活动既公平又充满乐趣。参与方式简单到令人难以置信：只需扫描二维码，进入我们的小程序，你的年会之旅就此开启！在这里，你将体验到的不仅仅是抽奖的紧张刺激，还有各种互动游戏和挑战，让你在等待抽奖结果的同时

帆可云官网 2024-12-26

Unity3D特效实训营课程介绍

[链接] 大家好，欢迎关注u3d游戏特效课程；本课程线上+线下都可以学习。线上课程：免费试学一个案例之后，对课程满意再报名，实实在在做教育！试学课程链接：魔法弹道案例【需要课程资料的小伙伴加UP猪联系方式联系客服老师领取】线上就业班-实训营课程：全程辅导+直播作业点评+就业推荐（零基础入门到精通）： 1、报名后给您提供完整的课程体系；拉您进VIP学习群； 2、学习过程中遇到问题，随时找专业老师远程1对1辅导，直播作业点评+技术指导，教学服务周期2年； 3、报名即签订培训服务合同，保障您的教学服务和

点线CG 2024-12-26

络道工控 2024-12-26

TN和 IPS 液晶屏有什么区别？

TN 和 IPS 是最常见的液晶面板类型。TN 液晶面板更便宜，响应速度快，能耗更低。IPS 液晶面板则在广视角和显示效果方面遥遥领先。LCD，就是我们常说的液晶显示屏，由于其轻薄、稳定、低功耗的特点，是主要的平板显示技术之一。在LCD技术诞生之初，由于价格太高，液晶面板厂推出了结构简化的平价版--TN LCD，它伴随着的是色彩显示质量低、有效视角小的天然缺陷。后来，IPS技术被引入LCD，改善了上述缺陷，显示色彩准确，可视视角广。可以说IPS是TN技术的升级版。下文中，我们将从不同角度介绍 TN LCD

有屏网 2024-12-26

RK3576开发板技术笔记之一：RK3576性能介绍

前段时间瑞芯微官方发布了一个新平台，RK3576，我们这边也收到了好多客户的咨询，目前来看，这款芯片的的竞争力还是可以的，经过我们的辛勤努力，RK3576单板做出来了，这两天我整理整理，逐步把一些笔记分享一下老规矩，第一篇依旧是整体介绍 [图片] Geekbeench5 CPU 跑分比较 [图片] GFXBench5 GPU跑分比較 l CPU 性能：架构：采用八核大小核构架，包括四核 A72 大核与四核 A53 小核，还搭配一个 M0 协处理器。这种架构能够在保证高性能的同时，灵活地应对不同的任务

电鱼智能 2024-12-26

我只用一个命令行就跨设备运行了 Nous-Hermes-2-Mixtral-8x7B-SFT

在自己的设备上运行 Nous-Hermes-2-Mixtral-8x7B-SFT

为大模型创建与 OpenAI 兼容的 API 服务

推荐体验

相关资讯

告别OpenAI 一个命令行跨设备运行 Dolphin-2.6-Phi-2

只需4个命令行，就能在Mac上运行Mistral-7B-Instruct大模型

仅一个命令行！用 2MB 推理 App 在本地跨平台运行大语言模型

用 ChatGPT 开发一个能听懂人话的命令行工具

ChatGPT教我写了一个AI聊天命令行工具hello_chat_gpt

近期资讯

幸运大爆炸，带你玩转年会创意抽奖。

Unity3D特效实训营课程介绍

外贸CRM含义揭秘，特性功能与应用双重解读

回收站清空几天可找回？如何恢复电脑回收站删除的文件

手套箱内的工作气体需要定期更换吗？

PLC 伺服电机控制器 NPN PNP 光电开关限位开关接线板

TN和 IPS 液晶屏有什么区别？

RK3576开发板技术笔记之一：RK3576性能介绍

货架安全高标准，团体标准严格要求

RK3576开发板技术笔记之二：RK3576开发板介绍

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

我只用一个命令行就跨设备运行了 Nous-Hermes-2-Mixtral-8x7B-SFT

在自己的设备上运行 Nous-Hermes-2-Mixtral-8x7B-SFT

为 大模型创建与 OpenAI 兼容的 API 服务

为大模型创建与 OpenAI 兼容的 API 服务