问了一个搞robotics的朋友,Figure 01在robo这个领域来说,其实还是有意义的。其实它主要是厉害在能够准确的执行识别、抓取、移动等任务,而不是自媒体宣传的优势。至于大模型、openai、多模态等等热门关键词,都是给外行和资本看的,如果想了解这方面的技术,可以看看大模型的 function call,这不是很强的技术(相对而言)。更多的信息:figure 01的技术思路和 humane ai 有点相似。
既然谈到了多模态,其实现在没有公开的优秀的多模态的产品,哪怕是openai、Google等一众AI公司也没有公布“不以虚假宣传为目的”多模态产品(GPT DALLE严格意义上不算多模态,Sora目前不算)。多模态,其实这是一个很难的task,多模态不仅仅涵括到之前语言大模型所有的难点,还包括某种类似于“大一统”的难点:如何找到一个大一统的low来描述多模态的数据形式(语言是vector,图片是matrix,视频是streaming,只是打个比方)。这个情况有点类似于物理中的大一统理论,目前也是没有结果的。物理学家可以找到某两两之间的联系,但是他们哪怕是爱因斯坦究极一生也做不出大一统理论。那么,现在在GenAI的领域,会突破这种诅咒吗?我们,至少是我,无法也不配做出准确的估计。
也谈到了AGI,这个以前从技术角度有讲过多次,不再细说。