|原文章发布于2024年08月06日
再次刷新端侧多模态天花板,面壁「小钢炮」 MiniCPM-V 2.6 模型重磅上新!发布即支持 llama.cpp、ollama、vllm 推理!仅 8B 参数,取得 20B 以下单图、多图、视频理解 3 SOTA 成绩,一举将端侧AI多模态能力拉升至全面对标 GPT-4V 水平。更有多项功能首次上「端」:小钢炮一口气将实时视频理解、多图联合理解、多图 ICL 等能力首次搬上端侧多模态模型,更接近充斥着复杂、模糊、连续实时视觉信息的多模态真实世界,更能充分发挥端侧 AI 传感器富集、贴近用户的优势。 ➤ 模型介绍
🔗 多图、视频首上端!3 SOTA 面壁小钢炮,创 GPT-4V 端侧全面对标新时代! ➤ GitHub地址
🔗 https://github.com/OpenBMB/MiniCPM-V
➤ Hugging Face 地址
🔗 https://huggingface.co/openbmb/MiniCPM-V-2_6
➤ B站配套视频 ,搭配食用更佳
🔗 https://www.bilibili.com/video/BV1sM4m1172r/?spm_id_from=333.999.0.0&vd_source=1534be4f756204643265d5f6aaa38c7b公众号后台回复“小钢炮”,可解锁知识库教程全文。
1. 首先前往huggingface下载pytorch权重:
2. 使用git下载安装vllm
3. 创建一个python代码调用vllm
4. 使用视频推理
1. 使用git下载安装vllm
2. 命令行启动vllm服务
--dtype 计算精度
max-model-len 模型处理最大长度
api-key 密码
gpu_memory_utilization gpu使用率
更多参数请访问:https://docs.vllm.ai/en/latest/models/engine_args.html
3. 使用python代码调用vllm的http服务
3.1 传入网络图片
3.2 传入本地图片
设备要求:运行非量化版内存超过19g,运行量化版超过8g内存
1. 下载依赖包
2. 获取openbmb的llama.cpp分支
3. 编译llama.cpp
4. 获取MiniCPM-V 2.6的gguf权重
方法一:
a. 首先前往huggingface或者modelscope下载pytorch权重:
b. 使用上述llama.cpp将模型权重转化为gguf文件:
c. 如果需要的话,对语言模块进行量化:
方法二:
直接前往MiniCPM-V 2.6-gguf官方仓库下载模型,ggml-model-Q4_K_M.gguf(量化版)和ggml-model-f16.gguf二者选其一。
下载地址:https://huggingface.co/openbmb/MiniCPM-V-2_6-gguf/tree/main
5. 开始推理:
5.1 图片推理指令
5.2 视频推理指令
ollma官方github即将合并我们的ollama分支,请关注我们的 GitHub
设备要求:运行非量化版本需要19g以上内存,运行量化版本需要8g以上内存
1. 按照上述llama.cpp教程获取gguf模型
语言模型最好是量化模型。
2. 获取openbmb官方ollma分支
3. 环境需求
cmake version 3.24 or above
go version 1.22 or above
gcc version 11.4.0 or above
4. 安装大型模型依赖项:
5. 编译ollama
6. 编译成功,在ollama主路径启动ollama:
7. 创建一个Modelfile:
Modelfile的内容如下:
8. 创建ollama模型实例:
9. 另起一个命令行窗口,运行ollama模型实例:
10. 输入问题和图片 URL,以空格分隔
🎉 小彩蛋
欢迎大家将自己的实操体验发布在知乎上,发布后联系小助手即可有机会加入「面壁小钢炮的朋友们」开发者计划,获取小钢炮限量周边🤩
推荐话题1:
面壁「小钢炮」系列上新最强端侧多模态模型MiniCPM-V 2.6,其性能如何,有哪些应用场景?
推荐话题2:
如果本地要装大模型,建议哪个开源大模型?
➤ 欢迎加入 OpenBMB 社区一起讨论
后台回复“小钢炮”,解锁「面壁小钢炮MiniCPM通关宝典」全文。
官方网站
https://www.openbmb.org
GitHub
https://github.com/OpenBMBhttps://github.com/thunlp
长期开放招聘|含实习
开发岗 | 算法岗 | 产品岗
交流QQ群
735930538