继文生视频模型Sora之后,新晋人工智能霸主Open AI再一次给外界带来惊喜。北京时间5月14日,预热已久的Open AI正式向公众发布了语音大模型GPT-4o(全能模型)。
全新的大模型炸场
据介绍,GPT-4o在保持GPT-4级别的智能的同时,对文本、视觉和音频功能进行了改进,可以综合利用语音、文本和视觉信息进行推理,扮演个人语音交互助手。
OpenAI表示,GPT-4o里的“o”是Omni的缩写,也就是“全能”的意思,接受文本、音频和图像的任意组合作为输入,并生成文本、音频和图像输出。它可以在短至232毫秒、平均320毫秒的时间内响应音频输入,与人类在对话中的反应速度一致。
目前,GPT-4o的多语言功能得到了增强,在50种不同的语言中表现更佳。在OpenAI的API中,GPT-4o的处理速度是GPT-4(特别是 GPT-4 Turbo)的两倍,价格则是GPT-4 Turbo的一半,同时拥有更高的速率限制。
语音功能震撼亮相
这一次,Open AI向世人展现了强大且丝滑的语音对话等多模态能力。而语音版GPT-4o将“在未来几周内”开始提供。开发人员将能够使用GPT-4o的文本和视觉模式,并在未来几周内向“一小部分值得信赖的合作伙伴”提供音频和视频功能。
过去530天里,AI 聊天机器人ChatGPT持续风靡全球,研发ChatGPT的OpenAI公司身处聚光灯下,并迅速成长为860亿美金估值的 AI 独角兽。英伟达CEO黄仁勋曾表示,ChatGPT的出现是 AI 的“iPhone时刻”。
现如今,毫无疑问,OpenAI 发布的最新模型GPT-4o,号称目前全球最强的 AI 大模型GPT-4o,以拟人化、超自然、超低时延的语音功能惊艳登场,将再次搅动AI科技圈。
行业专家认为,GPT-4o的免费开放不仅展现了OpenAI在AI领域的领导地位,更可能重新定义AI市场的竞争格局,促使其他科技巨头重新评估其商业模式和服务策略。同时,这也揭示了在GPT强大能力下重新定义场景,并找新产品出路,这或许是大模型发展的长期、正确方向。
微美全息打造大模型垂直应用赛道
随着大模型发展进入快车道,资料显示,人工智能创企微美全息(WIMI.US)AI技术创新更迭,技术专利成果集成到大模型产品矩阵中,在竞逐大模型的路上,持续接入大模型的能力,同时在“场景的搜索”和“聚焦运用”,通过打造垂直大模型场景努力解决用户痛点或刚需,为全球AI大模型技术的普及和发展注入了强劲动力。
如今,微美全息在AI大模型技术全面助力下,孕育开拓一批新业务、新模式、新业态,尤其重点布局了人形机器人产业,成为自身重要的经济增长新引擎。基于AI 大模型技术的加持,微美全息主要研究方向有语言识别、图像识别、自然语言处理,这些研究方向对于机器人智能化有重要意义,同时也是智能机器人研发的难点,将推动人形机器人渗透率提升。
受益于AI大模型技术、产业化进程提速,微美全息展开大规模布局研发,由此开创人形机器人新赛道带来的发展机遇,使得产品在中下游市场规模扩大、应用范围拓展。借助新一代AI大模型技术带来的发展机遇,微美全息有望实现技术上的突破,未来实现大模型+音频+AI人形机器人产品战略,不断高速增长追赶国际水平。
结语
整体上,OpenAI这一突破性决定标志着AI技术应用的又一里程碑,预示着个人与机器之间的交互即将迈入一个前所未有的智能化和普及化时代。值得注意的是,谷歌即将在5月14日召开I/O 开发者大会,宣布安卓、谷歌搜索等方面的更新。如今OpenAI再度宣战,压力也直接给到了即将正面迎战的谷歌。那么接下来,就看谷歌的表现了。