近期,ChatGPT迎来重大更新,加入了语音和图像识别功能,用户可以直接与ChatGPT进行语音对话,上传图片让AI帮助分析我们所看到的内容。这相当于为AI增添了眼睛、耳朵和嘴巴,也就是ChatGPT的多模态。在演示视频中,ChatGPT能够通过分析用户上传的图片,给出具体的操作建议,如调整自行车座椅的高度等。
据微软的一份166页的测评报告,OpenAI最新多模态语言模型GPT-4V(视觉版GPT-4)的能力和局限得到了全面的讨论和分析。报告发现,GPT-4V拥有前所未有的处理杂乱多模态输入的能力,且其功能高度通用,可泛化到多种任务,成为一个强大的多模态通用系统。这可能催生新的人机交互方式,例如使用视觉内容进行提示。这种强大的功能可能会对各行各业的工作岗位产生威胁,加速取代更多的工作岗位。
来源:金融界汽车