ChatGPT的横空出世,打的老牌科技巨头谷歌措手不及。在OpenAI+微软的双重压力下,自赋“红码”的谷歌亮出“大招”。
近日,谷歌和柏林工业大学的团队重磅推出史上最大的视觉语言模型——PaLM-E,参数量高达5620亿(GPT-3的参数量为1750亿)。集成语言、视觉,用于机器人控制。相比大语言模型(LLM),它被称为视觉语言模型(VLM)。VLM与LLM不同之处,在于VLM对物理世界是有感知的。
在AI领域,面对微软的步步紧逼,谷歌显然已经开始慌了。人工智能本应该是谷歌的优势。
多年来,谷歌一直在进行各种长远的技术投资,涉及自然语言处理、机器学习、计算机视觉、自主驾驶、量子计算等多个方面,并取得了一系列重要的科技成果和商业应用。
然而OpenAI推出的ChatGPT爆火,让谷歌不免紧张了起来。一般来说,谷歌和微软在不同的领域有着不同的竞争优势,但是,就ChatGPT而言,其可以自行生成文本。因此ChatGPT被一些人视为谷歌搜索引擎的终极挑战者。而考虑到OpenAI与微软的密切关系,ChatGPT似乎带来了双重威胁。
它的突然成功让谷歌不得不加快速度,试图在这个领域迎头赶上。
谷歌在内部提出要求,在几个月时间里将“生成式人工智能”技术集成到所有主要产品中。根据谷歌在职员工、前员工,以及其他与该公司关系密切的人士的说法,目前谷歌的感觉是,自己在一个关键的优势领域处于落后位置,因此在公司内部引发了不小的焦虑。
因此,其步伐不免加快。除了上述的PaLM-E模型。
2022年2月,谷歌推出了一款名为"Switch Transformer"的新型自然语言处理模型。该模型采用了一种新颖的自适应计算方法,可以根据数据的不同特征自动适应计算,从而在各种自然语言处理任务上取得了更好的性能表现。
2022年3月,谷歌宣布推出了一种多语言语言模型(Multilingual Language Model, MLM),可以支持超过100种语言的自然语言处理任务。该模型在包括文本分类、命名实体识别、情感分析等任务中取得了优异的性能。
2022年3月,谷歌发布了一款自然语言生成引擎(Natural Language Generation, NLG),可以根据用户提供的信息自动生成符合语法规则和语义要求的自然语言文本。该引擎可以应用于多种场景,如客服对话、自动回复、摘要生成等。
秉持着“AI虐我千百遍,我待AI如初恋”的心理,谷歌在日前推出史上最大“通才”AI模型——PaLM-E。谷歌PaLM-E的成功或许可以为其打赢一场漂亮的战役。
目前外界对谷歌的这些举动评价较为积极。一方面,谷歌的这些新模型和引擎在自然语言处理领域都取得了优异的性能,体现了谷歌在技术研发和创新方面的实力。另一方面,谷歌在多语言处理和自然语言生成等领域的研究和应用,为构建更加智能和全球化的语言技术体系提供了重要的支持和推动。但同时,这些新模型和引擎也面临着一些挑战,如模型复杂度高、计算资源需求大、数据隐私等问题,需要进一步研究和解决。
那么谷歌的PaLM-E模型到底是什么?与ChatGPT模型相比,有哪些优劣势?我们一起来看下面的分析。
先来看看这个PaLM-E模型究竟是什么?
据目前的信息,谷歌PaLM-E是谷歌在自然语言处理领域中开发的一种语言模型。PaLM-E代表“Pre-training and Language Model-Enhanced”,它是基于谷歌的Bert(Bidirectional Encoder Representations from Transformers)模型的进一步改进。
相比于Bert模型,PaLM-E模型引入了一些额外的技术和改进。其中一项重要的改进是“瓶颈层”,它可以通过使用较小的瓶颈层减少模型的计算负担,并提高模型的训练和推理效率。另外,PaLM-E还增加了一种新的训练目标,称为“语言模型增强(Language Model-Enhanced)目标”,它可以帮助模型更好地处理长序列和未知单词等情况。
但其实,无论是谷歌PaLM-E模型还是BERT模型都是基于Transformer架构的预训练语言模型。这与OpenAI所推出的ChatGPT所使用的预训练模型相同,也就是基础架构是相同的。
而这个基础架构Transformer 正是由谷歌发布,一些人把它带来的人工智能领域方面的进步称作transformer AI。外界对Transformer拥有强大的表征能力和并行计算优势也十分看好。斯坦福大学的研究人员在2021年8月的一篇论文中将Transformer称作“基础模型”,认为它推动了AI的范式转变。
谷歌团队将Transformer模型概括为一句话:Attention is All You Need. 这是一个完全基于注意力机制的编解码器模型,完全抛弃了之前其他模型引入注意力机制后仍然保留的循环与卷积结构,在任务表现、并行能力和易于训练性方面都有大幅提升,因此也成为了后续机器翻译和其他许多文本理解任务的重要基准模型。
Transformer可以读取许多单词或句子来训练模型,充分理解词之间的相互关联,并预测接下来出现的词。Transformer架构不断发展并扩展到多种不同的变体,从语言任务扩展到其他领域。该模型应用相当广泛,可以实时翻译文本和语音,保证听障者也可以顺利参会;可以帮助研究人员了解DNA中的基因链和蛋白质中的氨基酸链,加快药物设计进程等等。
可以说,在初期,谷歌在人工智能方面的实力不容小觑。
而PaLM-E的推出是为了让AI同时具备“理解文字”和“读懂图片”的能力,不仅能够输出文字,还能输出指令使得机器人的智能化跃上一个新的台阶。
据谷歌介绍称,当得到一个高级命令,如“把抽屉里的米片拿给我”,PaLM-E可以为带有手臂的移动机器人平台(由谷歌机器人公司开发)生成一个行动计划,并自行执行这些行动。
PaLM-E 通过分析来自机器人摄像头的数据来实现这一目标,而无需对场景进行预处理。这消除了人类对数据进行预处理或注释的需要,使机器人控制更加自主。
PaLM-E 还很有弹性,能够对环境做出反应。例如,PaLM-E 模型可以引导机器人从厨房里拿一袋薯片,由于PaLM-E 集成到了控制回路中,它对任务中可能发生的中断有了抵抗力。在一个视频例子中,一名研究人员从机器人手中抓起薯片并移动它们,但机器人找到了薯片并再次抓起它们。
另外,PaLM-E模型也可控制机器人自主完成原需人类指导的复杂任务。除了机器人技术外,谷歌研究人员还观察到使用大型语言模型作为PaLM-E核心的几个有趣效果,其中一个是PaLM-E能表现出“正向转移”,这意味其可将从一个任务中学到的知识和技能转移到另一个任务中,相较单任务机器人模型能有更好的表现。
值得注意的是,身为谷歌 AI 劲敌的微软近期也发表了“ChatGPT for Robotics”的论文,以类似的方式结合视觉数据和大型语言模型来控制机器人。
谷歌PaLM-E模型和ChatGPT模型都是在自然语言处理领域中非常有代表性的语言模型。其中,谷歌此次公布的PaLM-E参数量高达5620亿,而GPT-3的参数量为1750亿。谁会更胜一筹?
相比ChatGPT模型,谷歌PaLM-E模型实现的一定突破:
如更好的处理长序列,谷歌PaLM-E模型采用了语言模型增强技术,可以更好地处理长序列,使得模型能够更好地理解上下文信息。而ChatGPT模型并没有采用这种技术,因此在处理长文本时可能会存在一些限制。
在训练效率方面,谷歌PaLM-E模型在瓶颈层的设计上采用了更小的隐藏层和更高的批处理大小,从而提高了训练和推理的效率。而ChatGPT模型在训练时需要更大的批处理大小,因此训练效率相对较低。
在应用场景方面,谷歌PaLM-E模型在各种自然语言处理任务上都表现出了优秀的性能,如文本分类、命名实体识别、情感分析、机器翻译等。而ChatGPT模型更多地应用于对话生成等任务。
尽管谷歌PaLM-E模型在一些方面取得了突破,但相对于ChatGPT模型,它仍存在一些不足之处,
首先,PaLM-E模型语言生成能力较弱,PaLM-E模型虽然在各种自然语言处理任务上表现出了优秀的性能,但在语言生成任务上的表现相对较弱。相比之下,ChatGPT模型专注于对话生成等任务,具有更好的生成能力。
其次,PaLM-E模型缺乏预训练模型的公开。虽然PaLM-E模型在学术界广受好评,但它没有公开预训练模型,这限制了它在实际应用中的使用范围和便利性。相比之下,ChatGPT模型已经公开了多个预训练模型,可以方便地应用于各种自然语言处理任务。
最后,PaLM-E模型需要更多的计算资源来训练和推理,因此在部署和应用方面可能需要更高的成本和投入。
综上所述,虽然谷歌PaLM-E模型在某些方面具有优势,但在语言生成、公开预训练模型和计算资源等方面仍存在一些不足。
人工智能诞生之初,社会各界对AI无比乐观,专家甚至表示机器将在20年内完成人类的所有工作。很快,研究成果的匮乏直接带来了资金支持的削减和大批项目的流产,极度的乐观被极度的悲观取代,AI寒冬到来。接着,新技术、新发现又再次点燃了人们对于AI的热情,使得资金重新注入、进展再次到来。如此循环往复,人们对AI的情绪在悲观和乐观之间反复震荡,AI就这样螺旋式上升发展。
在AI的螺旋式上升发展过程中,挑战和机遇并存,惊喜和意外同在,人们的乐观和悲观情绪更是时常转换。在人工智能发展这条快车道上,谁都有可能暂时超车。
文:媛媛 余小鱼 / 数据猿