2023 年是 ChatGPT 和 LLM(大型语言模型)之年。 2024 年将是开源 LLM 之年! 仅 Huggingface 上就有超过 10,000 个开源 LLM 发布,其中最好的模型已经接近 GPT4 性能,且资源需求少得多,用户的隐私/控制也好得多。
你是否尝试过在本地运行开源 LLM,例如 Llama2、Mistral、Yi、Mixtral MoE? 借助由 Rust 和 WasmEdge[1] 提供支持的 LlamaEdge[2],你现在可以在几分钟内在自己的计算机上启动并运行 LLM 应用程序。 此外,该应用程序可跨 CPU 和 GPU 平台移植! 可以在 M3 MacBook 上进行开发和测试,并在 NVIDIA 边缘服务器上进行部署。
对 AI 的云和边缘基础设施感兴趣的小伙伴,我们邀请你申请 WasmEdge 参加的2024 春季 Linux 基金会 LFX Mentorship 的四个项目。
我们有四个 Mentorship 项目,专注于通过支持新的 AI 运行时引擎来扩展 WasmEdge 的跨平台运行 LLM 的能力:
burn.rs - 基于 Rust 的 AI 推理框架
Whisper.cpp - C++ 中的多语言语音识别
Intel Extension for Transformers - 针对 Intel 芯片优化的基于 CPU 的推理运行时
MLX - 苹果最新的人工智能框架
WasmEdge 已经支持 llama.cpp 作为推理运行时。 现在我们想要添加更多后端,从而让 WasmEdge 应用程序可以在更多硬件和软件堆栈上运行。
我们的目标是让 WebAssembly 代码在专用硬件及其推理框架上运行,而无需更改代码甚至重新编译。 例如,当 Wasm 文件在 Intel 芯片上运行时,它会自动检测并使用 Intel Extension for Transformer。 当它运行在 Apple 芯片时,它会自动检测并使用 MLX。
立即申请加入 WasmEdge 的 LFX Mentorship,在开源领域崭露头角,同时获得 3000 美元到 6600 美元的津贴!
burn.rs 是一个用 Rust 编写的新兴深度学习框架,专注于跨设备的极高灵活性、效率和可移植性。 它已经为 Llama2、Whisper 和 Stable Diffusion 等模型提供支持。
在此项目中,你需要添加 burn.rs作为 WasmEdge WASI-NN 插件的新后端。 由于 burn 是用 Rust 编写的,因此 mentee 需要具备 Rust 和 Wasm 的应用知识。
查看详情[3] | Pretest[4] | 申请链接[5]
与 Llama.cpp 一样,whisper.cpp 是 OpenAI 的 Whisper 模型在 C/C++ 中的端口。 Whisper 是一个在多语言语音识别、语音翻译和语言识别方面表现出色的模型。 添加它可以使 WasmEdge 运行语音工作负载。
在此项目中,你将添加 whisper.cpp 作为 WasmEdge WASI-NN 插件的新后端。 此任务的一个很好的参考是 llama.cpp[6] 的实现。 mentee 需要熟悉 C++ 和 Wasm。
查看详情[7] | Pretest[8] | 申请链接[9]
Intel® Extension for Transformers 是一个基于 Transformer 的工具包,可加速 Intel 芯片(包括 CPU 和 GPU)上的 LLM 推理。 如今 GPU 资源紧缺,Intel 芯片上的推理框架对于在没有 GPU 的情况下获得高性能至关重要。
在此项目中,你将添加 Intel® Extension for Transformers 作为 WasmEdge WASI-NN 插件的新后端。 mentee 需要具备 C++ 和 Wasm 的应用知识。
查看详情[10] | Pretest[11] | 申请链接[12]
MLX 是 Apple 芯片上用于机器学习的阵列框架。 与 Intel® Extension for Transformers 类似,MLX 可以加速 Apple 芯片上的推理性能。
在此项目中,你将添加 MLX 作为 WasmEdge WASI-NN 插件的新后端。 mentee 需要具备 C++ 和 Wasm 的应用知识。
查看详情[13] | Pretest[14] | 申请链接[15]
在 LFX mentorship[16]平台上申请你最喜欢的项目,申请从2024年1月29日开始,到2月13日结束。
在 2 月 20 日 5:00 PDT (21:00 HKT) 之前完成 pretest[17]
等待结果。
WasmEdge 是专为服务器、云和边缘环境设计优化的 WebAssembly 运行时。 它支持云原生开发的关键功能,例如高吞吐量、低延迟和原生架构集成。
WasmEdge 最近通过 llama.cpp 运行时作为 WASI-NN 插件的后端添加了对大型语言模型 (LLM) 推理的支持。 这让我们能在 CPU 和 GPU 上使用一样的 Wasm 模块进行推理。
查看基于 WasmEdge 构建的 LlamaEdge 项目,以便在本地轻松运行开源 LLM 或使用 OpenAI 的 API 接口将它们集成到你的应用程序中。
通过利用 Wasm 的高效字节码格式和编译器工具链集成,WasmEdge 为 AI/LLM 推理等工作负载提供了强大的优势,同时通过可移植性简化了部署复杂性。
探索 WasmEdge 的源代码[18],了解更多信息。欢迎大家的开源贡献!
有疑问?欢迎参加WasmEdge[19]2 月 6 日的[20]社区会议,直接与 mentor 交流吧。
参考资料[1]
WasmEdge: https://github.com/WasmEdge/WasmEdge
[2]LlamaEdge: https://github.com/second-state/LlamaEdge
[3]查看详情: https://github.com/WasmEdge/WasmEdge/issues/3172
[4]Pretest: https://github.com/WasmEdge/WasmEdge/discussions/3182
[5]申请链接: https://mentorship.lfx.linuxfoundation.org/project/16b35930-5b29-43af-b02c-cdf851069c85
[6]llama.cpp: https://github.com/WasmEdge/WasmEdge/tree/master/plugins/wasi_nn
[7]查看详情: https://github.com/WasmEdge/WasmEdge/issues/3170
[8]Pretest: https://github.com/WasmEdge/WasmEdge/discussions/3182
[9]申请链接: https://mentorship.lfx.linuxfoundation.org/project/a5c2cc3e-a8fe-4fcb-b74f-be74b65a6385
[10]查看详情: https://github.com/WasmEdge/WasmEdge/issues/3169
[11]Pretest: https://github.com/WasmEdge/WasmEdge/discussions/3182
[12]申请链接: https://mentorship.lfx.linuxfoundation.org/project/8b592388-6a17-4a8f-82e4-121131c217d0
[13]查看详情: https://github.com/ml-explore/mlx
[14]Pretest: https://github.com/WasmEdge/WasmEdge/discussions/3182
[15]申请链接: https://mentorship.lfx.linuxfoundation.org/project/395d3659-e7c2-413f-8f95-42d079c9d0bc
[16]LFX mentorship: https://mentorship.lfx.linuxfoundation.org/
[17]pretest: https://github.com/WasmEdge/WasmEdge/discussions/3182
[18]WasmEdge 的源代码: https://github.com/WasmEdge/WasmEdge/discussions/3182
[19]WasmEdge: https://community.cncf.io/events/details/cncf-wasmedgeruntime-community-presents-wasmedge-community-meeting-2024-02-06/
[20]2 月 6 日的: https://community.cncf.io/events/details/cncf-wasmedgeruntime-community-presents-wasmedge-community-meeting-2024-02-06/