LlamaEdge v0.4.0 发布了! 关键改进:
支持了 Llava 系列 VLM(视觉语言模型),包括 Llava 1.5和 Llava 1.6
LlamaEdge API Server 支持了 RAG 服务(即 OpenAI Assistants API)
简化了 run-llm.sh 脚本交互,改善新用户的上手体验
Llava 是一种开源视觉语言模型 (VLM)。它支持多模态对话,用户可以将图片插入对话中,并让模型根据图片回答问题。Llava 团队于 2024 年 1 月发布了 LLaVA-NeXT(Llava 1.6),并称它在多项基准测试中击败了 Gemini Pro。
LlamaEdge 0.4.0 支持基于 Llava 1.5 和 Llava 1.6 构建的推理应用程序。参考文章跨设备运行 Llava-v1.6-Vicuna-7B 。目前,由于 Llava 模型的限制,每个对话只能包含一张图片。你应该在对话的一开始上传图像,然后与大模型讨论该图片。
OpenAI Assistant API 让用户能导入自己的文档和专有知识,从而使大模型能够更准确地回答特定领域的问题。为大模型补充外部文献的技术通常称为 RAG(检索增强生成)。LlamaEdge 的 API server llama-api-server.wasm 现在提供了一对新端点,供开发者轻松构建 RAG 应用程序。
/v1/rag/document 端点会将文档分块并将输入文档转换为 embeddings 并保留 embeddings。
/v1/rag/query 端点使用保存的 embeddings 中的上下文回答用户查询。
上述端点将 Qdrant 数据库服务器的连接 URL 作为请求的一部分。Qdrant 数据库存储和检索外部文档或知识的向量 embeddings。embeddings 是使用 API Server llama-api-server.wasm 启动的 LLM 生成的。
我们正在根据用户反馈不断改进 run-llm.sh 脚本。呼声最大的需求是让想要尽快启动并运行聊天机器人的新用户更容易上手。现在,如果不带任何参数运行脚本,脚本将为你选择一组合理的默认值。
bash <(curl -sSfL 'https://raw.githubusercontent.com/LlamaEdge/LlamaEdge/main/run-llm.sh')
它将自动下载并启动 Gemma-2b 模型并在浏览器中打开 http://127.0.0.1:8080,然后你就可以开始聊天了!
如果想指定要下载和运行的 LLM,可以在 --model 参数中给出模型名称。以下命令使用流行的 Llama2-7b-chat 模型启动基于 Web 的聊天机器人。
bash <(curl -sSfL 'https://raw.githubusercontent.com/LlamaEdge/LlamaEdge/main/run-llm.sh') --model llama-2-7b-chat
我们还支持参数中的以下模型名称。如果你想支持某些大模型,请创建 PR 添加喜欢的大模型。
gemma-2b-it
stablelm-2-zephyr-1.6b
openchat-3.5-0106
yi-34b-chat
yi-34bx2-moe-60b
deepseek-llm-7b-chat
deepseek-coder-6.7b-instruct
mistral-7b-instruct-v0.2
dolphin-2.6-mistral-7b
orca-2-13b
tinyllama-1.1b-chat-v1.0
solar-10.7b-instruct-v1.0
最后,可以使用 —interactive 标志以交互方式选择并确认脚本中的所有步骤。
bash <(curl -sSfL 'https://raw.githubusercontent.com/LlamaEdge/LlamaEdge/main/run-llm.sh') --interactive
就是这样。一如既往,我们很乐意听到您的意见和反馈。
关于 WasmEdge
WasmEdge 是轻量级、安全、高性能、可扩展、兼容OCI的软件容器与运行环境。目前是 CNCF 沙箱项目。WasmEdge 被应用在 SaaS、云原生,service mesh、边缘计算、边缘云、微服务、流数据处理、LLM 推理等领域。
GitHub:https://github.com/WasmEdge/WasmEdge
官网:https://wasmedge.org/
Discord 群:https://discord.gg/U4B5sFTkFc
文档:https://wasmedge.org/docs