中国商报(记者 赵熠如)对话响应速度接近人类水平、可改变说话语气、可理解人类情感,还可以唱歌、讲故事、解方程……OpenAI新一代旗舰生成模型 GPT-4o的发布,让现实更逼近科幻电影。与此同时,GPT-4o依旧主打免费。
业内人士认为,国内大模型目前处于追随阶段,在补齐短板的同时需要多方面创新发力。
功能更强更自然
5月14日凌晨,OpenAI 发布了新一代旗舰生成模型GPT-4o。据OpenAI官网介绍,GPT-4o中的“o”代表Omni,也就是“全能”的意思。
OpenAI首席技术官米拉·穆拉蒂表示,GPT-4o提供了GPT-4的智能水平,但在GPT-4的基础上改进了文本、视觉和音频方面的能力,且将在未来几周内“迭代式”地在公司产品中推出。
据悉,GPT-4o在英语文本和代码上的性能与GPT-4 Turbo的性能相匹配,但在非英语文本上的性能显著提高。GPT-4o可以跨文本、音频和视频进行实时推理,使人机交互更加自然。
GPT-4o的实时语音翻译功能更加自然流畅,可以按要求改变说话语气,还可以进行实时视频交互,并通过人的表情和语调理解判断出人的情绪。除此之外,它还可以讲故事、唱歌、创作、看图解方程式、解答代码问题等。
GPT-4o正在根据人类表情理解情绪。(图片源自视频截图)
此外,GPT-4o在理解和生成图像方面的能力也更好,它可以把OpenAI的Logo印到杯垫上,并且拥有3D视觉内容生成的能力,还可以根据文字生成漫画分镜。
GPT-4o正在看图解方程式。(图片源自视频截图)
与此同时,GPT-4o几乎可达到无延迟响应,其最快可以在232毫秒的时间内响应音频输入,平均响应时长为320毫秒,这与人类在对话中的响应时间相似。
“GPT-4o的表现非常惊艳。这也再次证明了,人工智能发展非常迅速,其正在快速融入并改变我们的生活生产方式。所以,我们积极拥抱这一轮新的科技革命非常重要。”西南证券传媒首席分析师刘言对中国商报记者表示。
主打免费且好用
在功能更强的同时,GPT-4o依旧主打免费,并推出桌面版程序,更加方便好用。
穆拉蒂表示,OpenAI的一个重要使命是将先进的AI工具免费提供给每个人。
据悉,ChatGPT的免费用户可以用最新发布的GPT-4o模型来进行数据分析、图像分析、互联网搜索、访问应用商店等操作。付费用户将会获得高达5倍的消息限制。
穆拉蒂还表示,OpenAI将推出桌面版ChatGPT,其可以被轻松集成到用户的工作流程中。同时,为了让用户与ChatGPT交互更加容易、自然,OpenAI还更新了用户界面,使用户无需关注用户界面,只需要关注如何协作。OpenAI还与苹果一起推出了适用于macOS的桌面级应用。
“GPT-4o可以为苹果手机的Siri改版做适配,这样就可以把ChatGPT用户从1亿的量级推广到10亿量级了。”清华大学新闻与传播学院元宇宙文化实验室主任沈阳对中国商报记者表示。
此次GPT-4o的发布,在业内人士看来,是国内外大模型差距的又一次拉大,国内大模型目前仍处于追赶阶段。
“主要原因是ChatGPT每一次的功能迭代都具有较强的创新性。”沈阳表示。
不过,刘言认为,国内和海外在人工智能上的差异正在缩小,最近一些新开源的模型,其功能也非常惊艳。
“对于国内大模型而言,第一是补齐短板,第二是要从若干个创新点进行发力,因为大模型里面可以创新的点也是不少的。”沈阳表示。
“国内AI发展,重要的是保持独立性。我们既要学习别人的优点,也要结合自身的需要和特点,让科技成为利国利民的工具。”刘言说。
小R资源 2024-08-09