当前位置：首页|资讯|ChatGPT|大语言模型

AR 赛道距离它的 ChatGPT 时刻只差一个 LMM 了吗？

作者：机器之能发布时间：2023-10-08

ChatGPT 大语言模型

机器之心PRO · 会员通讯 Week 39

---- 本周为您解读 ③个值得细品的 AI & Robotics 业内要事 ----

1. AR 赛道距离它的 ChatGPT 时刻只差一个 LMM 了吗？

LMM（大型多模态模型）为什么这么重要？为什么说 LMM 是从 GUI 到 NUI 的核心技术？NUI 是下一代消费级计算平台的破局点吗？Meta、OpenAI 等大厂在业务上有哪些布局？投身多模态大模型的大厂，谁未来最有可能在 AR 赛道取得领先优势？...

2. 大模型病例汇总

LLM 发展至今都有哪些挑战？为什么大语言模型会存在“逆转诅咒”现象？幻觉问题、推理延迟等等，LLM 发展至今都有哪些病例？...

3. 硅谷 AI 独角兽两大阵营：Anthropic VS OpenAI 全线历程盘点

亚马逊、谷歌纷纷向 Anthropic 投资，他们能做什么？Anthropic VS OpenAI，各自阵营形式如何？从对标产品、融资、合作网络关系看，谁输谁赢？...

...本期完整版通讯含以上 3 项专题解读 + 38 项本周 AI & Robotics 赛道要事速递，其中技术方面 10 项，国内方面 8 项，国外方面 12 项...

本期通讯总计 23833 字，可免费试读至 6 %

消耗 99 微信豆即可兑换完整本期解读（约合人民币 9.9 元）

要事解读 ①AR 赛道距离它的 ChatGPT 时刻只差一个 LMM 了吗？

日期：9 月 26 日 - 9 月 30 日

事件：近日，Meta推出了多模态版Llama2，即 AnyMAL；OpenAI 推出了 GPT-4V （ision）LMM；与此同时，Meta 推出 Meta Quest 3 VR头显，并与 Ray-Ban 合作打造的智能眼镜 Ray-Ban，两款设备均计划接入MetaAI 智能助理；随着多模态LLM技术的日益成熟，AR赛道似乎又迎来了新的曙光？

Meta 和 OpenAI 最新的 LMM 了解一下？

1、Meta推出了多模态版 Llama2，即 AnyMAL（Any-Modality Augmented Language Model）。AnyMAL 基于 Llama 2 模型，可以对不同模态输入内容（文本、图像、视频、音频、IMU 运动传感器数据）实现理解，并生成文本响应。具体来说，这是一个经过训练的多模态编码器集合，可将来自各种模态（包括图像、视频、音频和 IMU 运动传感器数据）的数据转换到 LLM 的文本嵌入空间。[17]

2、OpenAI 上线了 GPT-4V （ision）大模型，用户可以使用基于更新后的 ChatGPT 上传一张或多张图像配合进行对话，获取相关帮助和见解。同时，用户还可以使用设备的触摸屏圈出希望 ChatGPT 关注的图像部分。

3、OpenAI 在发布时仅放出了 18 页的技术文档，后续微软方面公布了一份长达 166 页的报告，定性地探讨了 GPT-4V 的功能和使用情况。

4、微软的报告共分为 11 个章节，重点介绍了 GPT-4V 可以执行的任务，包括：

① 用测试样本来探索 GPT-4V 的质量和通用性，现阶段 GPT-4V 能够支持的输入和工作模式，以及提示模型的有效方法。

② 对这些样本的观察表明，GPT-4V 在处理任意交错的多模态输入方面具有前所未有的能力，并且其功能的通用性使 GPT-4V 成为强大的多模态通用系统。

③ GPT-4V 对图像独特的理解能力可以催生新的人机交互方法，例如视觉参考提示（visual referring prompting）。报告最后深入讨论了基于 GPT-4V 的系统的新兴应用场景和未来研究方向。该研究希望这一初步探索能够激发未来对下一代多模态任务制定的研究，开发和增强 LMM 解决现实问题的新方法，并更好地理解多模态基础模型。[18]

5、报告中提及 LMM 的未来趋势方向如下

① LMM 应该能够生成交织的图像文本输出，以支持全面的多模态内容理解和生成。

② LMM 应该能够从各种信息源持续学习，如网上内容、真实世界环境等，以实现持续自我进化。

③ 未来的 LMM 不应该仅仅依赖组织良好的数据进行学习，它应该能够处理更加杂乱的数据源。

④ 未来 LMM 的学习过程不应该仅仅依赖于图像-文本对的数据集，应该是更加通用和连续的。[23]

LMM 为什么这么重要？为何基于 LMM 的 NUI 已成为科技大厂必争之地？[19][20][21][22]

1、AR 技术的目标是为用户提供一个沉浸式、真实和自然的体验。尽管 AR 技术已经取得了一定的进展，但它仍未真正达到类似 ChatGPT 上线时令用户惊叹的 “aha moment”。核心的问题在于 NUI（自然用户界面）的体验尚不完善。

2、NUI 是指一种用户界面设计哲学，旨在使用户与计算机系统或设备的交互尽可能自然和直观。这通常涉及触摸、手势、语音和其他自然的交互方式。

3、为了实现真正的沉浸式体验，AR 应用通常需要用户能够以最自然、直观的方式与其互动，这就是 NUI 的核心。例如，用户可能通过手势、眼动、语音命令或身体动作与 AR 内容进行交互。这种交互方式不仅更符合 AR 的沉浸式特性，而且在许多情况下（如穿戴 AR 眼镜时）也更为实用和方便。

4、LMM 可以处理多种类型的输入，如文本、图像、声音等，从而为用户提供更加丰富和多样化的交互体验。这些模型的能力不仅仅是识别和生成内容，更重要的是理解和响应用户的需求，为他们提供有价值的反馈。

① 多模态是指将多种感官进行融合，而多模态交互是指人通过声音、肢体语言、信息载体（文字、图片、音频、视频）、环境等多个通道与计算机进行交流，充分模拟人与人之间的交互方式。

② 多模态技术的目标是让 AI 能够同时处理和理解多种类型的输入，如文本、图像、声音等，从而为用户提供更加自然和直观的交互体验。

5、基于 LMM 的 AI Agent、智能助理等交互式 AI 可以为 NUI 提供智能，使其能够理解和响应用户的需求，而 NUI 为交互式 AI 提供了一种自然、直观的交互方式。

推荐体验

相关资讯

你的GPT跟ChatGPT可能只差了一个DPU

“人类永远不会嫌网络太快，就像永远不会嫌高铁太快，你只会嫌它慢，希望它更快些。”一个月内，百度、阿里、腾讯、商汤、讯飞、360等国内大厂扎堆发布“中国版 GPT ”，这家的名字还没记清楚，另一家的又

ChatGPT 百度腾讯商汤

MetaPost 2023-04-22

你离梵高只差一个工具！

AI绘画工具能够深度学习大师们的画作，从而了解他们的风格和技巧，并将这些知识应用到新的创作中。AI只是帮助你更好地将这些情感和构想表达出来，它是你的工具，而不是主导。因为无论技术发展到哪一步，它始终只是工具，…

AI绘画深度学习

星创AI 2023-09-13

ChatGPT代替不了的职业，它算一个

7337为我们描摹了这样一幅星月交辉的浪漫图景：以手工锤制而成的金质月相图案，位于12点钟位置。喷砂处理的细腻云朵环绕四周，由亮片点缀的蓝色漆面铺就“宝玑蓝”夜空。轻轻转动腕表，便可见繁星点点。18

ELLEMEN睿士 2023-04-03

打造爆款文章，你只差这一个工具

人人都是自媒体的时代，个体通过内容创作在塑造个人IP，企业依托内容营销打造品牌内核。然而身处信息爆炸的中心，内容创作者要持续地表达与输出，总要面对众多挑战。如何选题才能打造爆款文章？如何获得内容灵感让品牌巧妙植入？如何精准配图又能避免版权风险？如何及时高效输出，却能避开常见的语法错误与内容风险？大模型的智慧涌现，让内容创作从创意、撰写到发布的全链路都在悄然改变。基于最新发布的讯飞星火V3.0，星火内容运营大师迎来重磅升级，实现“内容选题推荐、文章智能写作、AI精准配图与一站式运营”。免费的一站式AIGC内

讯飞开放平台 2023-11-24

青平时刻：我们需要的不只是一个ChatGPT

科技企业竞跑ChatGPT赛道，多领域智慧应用可期。视觉中国供图输入问题，就会生成一份“近乎完美”的回答，它似乎无所不能。5天注册用户突破百万，到1月末活跃用户达到1亿，不少人担心自己的工作可能会被

中国青年网 2023-02-17

近期资讯

联发科把全大核卷到次旗舰！天玑8400竟然干掉了旗舰

12月23日，联发科正式发布了新一代移动平台天玑8400，最大亮点莫过于将天玑9300/9400系列上的全大核CPU设计思路，第一次引入到了次旗舰档次。同时，天玑8400在GPU性能、综合能效、游戏、AI等各

2024-12-26

微星新款31.5寸显示器发布：4K 240Hz屏、配DP 2.1接口

快科技12月26日消息，微星推出了新款31.5寸显示器——MPG 322URX QD-OLED流光，首发7999元。作为该显示器的核心亮点之一，DP2.1技术的应用无疑提升了其市场竞争力。DP2.1技术是

鹿角 2024-12-26

法拉第未来前高管涉嫌造假！交付车辆均为贴牌车

快科技12月26日消息，美国新兴电动汽车制造商Canoo被指控虚假宣传其在俄克拉荷马州的电动汽车生产情况。该公司此前宣布已向州政府交付首批“俄克拉荷马州制造”的电动汽车，但前员

2024-12-26

董明珠称躺平不能怪年轻人是家长太溺爱了

快科技12月26日消息，近日，格力电器董事长董明珠做客了新浪《珍知酌见栏目》，与新浪财经CEO邓庆旭对话谈及了对年轻人“躺平”这个话题的理解。她表示，这不怪年轻人，而是教育、

秋白 2024-12-26

独家供应RTX 50！三星揭开GDDR7显存的秘密

快科技12月26日消息，RTX 50系列显卡即将发布，一大卖点就是升级GDDR7显存，而在桌面上将全部由三星提供，笔记本上三星依然是主力。三星等厂商在GDDR7显存上首次使用了PAM3信号技术，即三级脉

上方文Q 2024-12-26

人肉体死后记忆延续！李想：硅基家人将在我有生之年实现

快科技12月26日消息，“消失”在公众视野九个月后，理想汽车CEO李想重新出现在公众视野。在2024理想AI Talk第一集访谈中，李想将人工智能视为“未来的全部”，认为大模型的

朝晖 2024-12-26

阿塞拜疆客机迫降坠毁该机型曾多次发生事故：1起在中国

快科技12月26日消息，昨日，阿塞拜疆航空公司一架从首都巴库飞往俄车臣共和国首府格罗兹尼的J2-8243客机在哈萨克斯坦阿克套机场坠毁，哈萨克斯坦官方透露，目前已知至少有32人幸存。公开资料显

落木 2024-12-26

新规出台：新能源车下地库三大“新门槛”！

如今，新能源汽车早已成为车市“香饽饽”，但随着新能源汽车数量猛增，停车和充电问题也成了大难题，特别是新能源车进地库问题，更是频繁成为热议焦点。日前，江苏发布的一则新规&m

2024-12-26

中国自研文物科考船交付：通信、定位全国产

快科技12月26日消息，据央视新闻报道，今日，我国自主研发设计并建造的深远海多功能科学考察及文物考古船“探索三号”在广州南沙正式交付启航。据介绍，“探索三号”于20

拾柒 2024-12-26

全球顶级设计大师操刀：长安启源新大五座SUV内饰官图发布

快科技12月26日消息，长安启源全新中大型SUV车型C798（内部代号）内饰官图发布，该车采用了全新的设计理念，整体造型围绕“纯净舒适（Pure）”、“数智未来（Smart）”、&l

2024-12-26

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2026 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1