今天分享的是【2023多模态预训练模型在OPPO端云场景的落地实践报告】 报告出品方:OPPO研究院
智慧搜图不仅能单独搜词也能放一起搜,实现真正的口语化表达搜索,所想即所得,如“去年在动物园拍的老虎”等。因此需要类似多模态大模型 CLIP (OpenAI) 的图文理解能力其二,高效搜索速度。相比动辄翻上十几分钟半个小时的相册,现在无论从桌面下拉智慧搜索、打开相册、或是用语音助手,都只需要一句话就能搜到想要的图片,系统级地提升了找信息的效率。因此如何实现大模型在端侧的轻量化部署有重大的意义。
实现端侧智慧搜索的关键因素:
其一,"人话”解读能力。智慧搜图不仅能单独搜词也能放一起搜,实现真正的口语化表达搜索,所想即所得,如“去年在动物园拍的老虎"等。因此需要类似多模态大模型 CLIP (OpenAI) 的图文理解能
力。
其二,高效搜索速度。相比动辄翻上十几分钟半个小时的相册,现在无论从桌面下拉智慧搜索、打开相册、或是用语音助手,都只需要一句话就能搜到想要的图片,系统级地提升了找信息的效率。因此如何实现大模型在端侧的轻量化部署有重大的意义
大模型轻量化端侧技术落地的难点:
缩多模态大模型并确保精度。这并非简单用剪枝或量化等方法,直接压缩几倍模型大小就能搞定。毕竟对于端侧而言,算力有限的情况下,能部署的模型大小是往往只能达到大模型的几十分之-
与算法模型升级相对应的,需要在端侧实现-个性能鲁棒的向量检索引擎,保证大模型下端的工程性能
免责声明:以上报告均系本平台通过公开、合法渠道获得,报告版权归原撰写/发布机构所有,如涉侵权,请联系删除 ;资料为推荐阅读,仅供参考学习,如对内容存疑,请与原撰写/发布机构联系
AbMole 2024-12-16
科盛光伏 2024-12-16