01
比ChatGPT更强大的AI应用来了?
最近,微软推出了全能型人工智能模型——Kosmos-1。与局限于文本内容( LLM)的ChatGPT相比,Kosmos-1属于多模式大型语言模型(MLLM),目前能同时理解文字与图像内容,未来会整合更多的输入模式,如音频、视频。
从上图Kosmos-1的应用中我们可以很直观的看出,Kosmos-1和ChatGPT一样具有多轮对话能力、逻辑推理能力等像人类一样的思维能力,并在此基础上增加了图片的输入模式。
02
除了视觉对话,Kosmos-1还能怎么用?我们来看一下微软研究员在《Language Is Not All You Need》这篇学术论文中所展示的Kosmos-1的应用示例。
图1~2展示了Kosmos-1的图像解释说明能力,有点像小时候我们做的看图说话类题目;图3~6展示了Kosmos-1的视觉应答能力,其中包含图像、网页、数学公式的识别及应答;图7~8展示了Kosmos-1的数字识别能力。
对了,Kosmos-1还是第一个能完成零样本瑞文智商测试的AI,只是准确率还不高,经过指令调教之后,准确率为26%。
和ChatGPT一样,AI不懂的东西我们可以去教它。比如,Kosmos-1无法从图片判断出是哪种啄木鸟,或者说,它并不知道三趾啄木鸟和绒毛啄木鸟的区别,这时候我们可以告诉它这两类啄木鸟的特征分别是什么,帮助它进行判断。
总的来说,Kosmos-1目前既可以进行语言理解、语言对话等语言任务,也可以实现图像说明、视觉识别、视觉对话、视觉智商测试等视觉任务,相当全能。
03
前有与OpenAI合作的ChatGPT,后有更全能的Kosmos-1,微软在人工智能的赛道上可谓风骚绝代。
要知道,在移动互联网时代,这位老大哥是落后的。
微软成立于 1975 年,凭借着强大的 Windows 操作系统以及软件领域的实力,坐上了科技界的头把交椅。
1998年,谷歌诞生了。
随着移动互联网的崛起,谷歌的安卓系统成为了主流。在自己的强项——操作系统上输给了后起之秀,微软对自己错失良机懊悔不已。
后来微软推出了必应,想在谷歌擅长的搜索引擎领域分一杯羹,但结局大家也都知道——真的只是分了一小杯羹。
而自CEO纳德拉上任后,微软的愿景描述中加入了AI。微软将自身的发展战略从「移动为先、云为先」修改为「智能云和智能边缘计算」。
这次布局的成果我们也看到了,在以聊天机器人为代表的AI之战第一回合中,微软更胜一筹。接下来谷歌会如何反击,我们拭目以待。
04
微软的发展历程告诉我们,暂时的落后并不可怕,不要纠结已经失利的当下,而要关注充满机遇的未来。及早布局,才能弯道超车。
而我也很有幸见证这一切,一边感慨着科技巨头们的精彩过往,一边期待着下一个超越ChatGPT和Kosmos-1的人工智能。
我并不确定你会不会忽然地出现在街角的咖啡店,但通用人工智能会出现在下一个街角,是确定的。
文中部分图片来自论文《Language Is Not All You Need: Aligning Perception with Language Models》