当地时间12月6日晚,谷歌宣布推出其规模最大、功能最强大的新一代大型语言模型Gemini,并在多个方面超越ChatGPT,再次引发市场对人工智能产业的想象空间,并带动A股AI概念股大幅上涨。
多模态,还是多模态。
根据谷歌的说法,Gemini之所以如此出色,是因为它的多模态能力、复杂的推理和先进的编码能力。
GPT-4也号称多模态模型,但它不是直接训练一个多模态模型,OpenAI先分别训练了纯文本、纯视觉和纯音频模型,然后将他们拼接在一起。与GPT-4不同,Gemini 原生是多模态的。谷歌从一开始就建立了一个“多感官”模型,给其“投喂”多模态数据(包括文字、音频、图片、视频、PDF文件等)进行训练。 “这有助于Gemini从头开始无缝地理解和推理各种输入,远远优于现有的多模式模型。”
据谷歌介绍,从自然图像、音频、视频理解到数学推理,Gemini Ultra在32个常用的学术基准的30个上领先GPT-4。Gemini 在 MMLU(大规模多任务语言理解)上的得分为 90%,高于GPT-4的86.4%,成为首个超越人类专家表现的模型。(MMLU测试包括数学、物理、历史、法律、医学和伦理等57个学科,旨在考察世界知识和解决问题的能力)
据悉,Gemini 1.0 针对不同尺寸进行了优化,分别是:Ultra、Pro 和 Nano(大杯,中杯和小杯)。Gemini Ultra用于高度复杂任务的最大型号;Gemini Pro能够完成大多数其他任务的中量级型号;Gemini Nano,一种足够小的高效型号,可以放在你的手机上。Pro和Nano即日推出,而Ultra则要等到明年。
当下AI应用遇到瓶颈,原因之一是基础模型能力尚未有本质性迭代。Google Gemini的发布,刷新了现有模型的测评结果,且原生支持多模态,为应用的跃升打下基础。
我们“优秀交易员”节目持续关注AI带来的产业变革和投资机会,在11月份,OpenAI最新大模型GPT-4 Turbo发布时,我们就详细梳理了多模态下,AI应用的四大投资方向和代表公司,制作了专题《GPT-4升级加速AI应用落地》, 目前来看,这四大方向正是近期强势表现的板块,有需要专题报告的小伙伴,欢迎免费索取。