当前位置:首页|资讯|英伟达|OpenAI

AI圈也过了个年

作者:人工智能大讲堂发布时间:2024-03-01

就在大家欢度新年时,AI圈也发生了3件大事。

Chat with RTX

英伟达发布Chat with RTX,现在,你只要有一张GeForce™ RTX 30 或者 40 系列的显卡就能将大模型部署到本地了,这样你就不用花钱调用openai的API了。

https://us.download.nvidia.com/RTX/ChatWithRTX_Installer.zip

因为所有东西都是部署在本地,所以你也不用考虑数据安全问题了,也不用害怕你的私有数据会被别人拿去做训练了。

如果仅仅是本地部署大模型也没什么,毕竟其它机器学习框架也能实现。

它不是简单的对话系统,你可以定义自己的知识库,让大模型基于你的知识库做回答,并且操作简单,你只要告诉它文档,图像或者视频的路径即可。

其背后的原理是RAG(检索增强生成),RAG的核心是将基于检索的模型和生成式模型的优势结合起来,也就是,在生成回答之前,让一个大型语言模型(LLM)参考一个权威的知识库,这个知识库可以是特定领域的,也可以是组织内部的。这样可以在不重新训练大模型的前提下,提高LLM输出的相关性。

上面就是RAG的原理示意图,首先要构造知识库,也就是将文档划分成段落,然后计算段落的embedding向量,如果是图片则可以通过OCR提取文本,最后建立索引。

当用户提出问题时,计算问题的embedding向量,通过相似性计算得到与问题最相关的段落,最后将段落输入给大模型作为参考上下文,大模型就会基于上下文做出回答,而不是只基于训练学习到的知识或者搜索互联网。

那么如何计算段落的embedding向量?前面我说过可以通过word2vec计算一个单词的embedding,一段文本就可以把这个段落每个词的embedding加起来做个平均就可以了,但是这种方法效果不好。

目前常用的方法是使用tranformer 编解码器最后一层的输出,openai的Embedding API接口就是这么干的,对话API则是使用这些向量去预测单词。

但是,要实现这样的信息检索系统,LangChain也能做,通过LLama-index构造向量数据库,然后再传给大模型。

我觉得最大的亮点还是加速推理,这是NVIDIA的强项,也是卖点,chat with rtx的背后是TensorRT-LLM,也就是NVIDIA针对大模型的加速推理引擎。

开发这么一个应用Demo,估计也是醉翁之意不在酒,大有扒开衣服秀大腿的意思。


Gemini 1.5

世界网红马斯克曾说,当初成立openai的初衷是创立一家开源、非盈利性质的组织,以对抗像Google这样的闭源、营利性公司,以应对AI在未来给人类带来的威胁,毕竟,能消灭AI的必将是另一种更强大的AI。

openai自2022年起先后发布了ChatGPT、GPT4、Sora等大模型,有那么一点一家独大的意思。

Google当然也不甘落后,先是在2023年发布多模态大模型Gemini 1.0,试图弯道超车,面对openai与微软的亲亲我我,Google不得不又憋了个大招:Gemini 1.5 。

相比1.0,它主要升级了两个点。

第一点,是超大的信息处理能力,有多大呢?一个小时的视频、11个小时的音频、或者是超过70万字的代码库,它都可以一次性的阅读处理完,GPT4 turbo的上下文长度是128K,Gemini 1.5把这个门槛直接拉到了10兆。

以后,你那些几十万、几百万字的小说,它能帮你一次性看完。

第二点,光有这个记忆能力还不够啊!它还能够对大量的多模态信息进行复杂的推理,也就是同时能够处理文本、图像、音频、视频等信息。

这么说太抽象了,咱们举个例子。

研究人员给它提供了一份阿波罗登月的任务书,记录长达402页,然后抽出一张图,问它这脚印是什么意思?

Gemini 不仅能记住所有信息,而且能无误回答:

“这是阿波罗登月的时刻,个人的一小步,人类的一大步。”

不仅如此,他们给Gemini 输入了一部长达44分钟的老电影,然后问它:

电影里有一个查看票据的镜头,出现在什么时间点?票据的金额是多少?

它竟然能够准确地回答出来!!!

可能到了这里,你还没有体会到它的强大,我再说一个例子。

英伟达的AI科学家给了我们一个惊人的案例。

卡拉曼语是新几内亚不到200人使用的语言,Gemini 从来没有见过,但是它仅通过一本词典,一份语言文档,400个句子,就能够完全学会,并且把英文翻译成遵循词典语法结构的卡曼语,而且它没有经过任何的微调,只是单纯的通过自主学习就掌握了,这么复杂的技能,一般人可做不到。

目前Gemini 1.5还没有完全开放,只给了部分开发者。并且它是闭源的,最近Gemini团队又发布了开源大模型Gemma,与Mistral和Llama2等开源大模型相比,其训练数据有6万亿个token,号称最强开源模型。


文生视频大模型Sora

这两天刷爆了朋友圈的Sora,是openai新推出的一个文生视频的新模型。

虽然官方发布的技术报告没有详细说明使用什么模型、怎么训练的、也没开源任何代码和数据,但有人猜测Sora使用的并非突破性技术,都是一些现有技术,例如,扩散模型、Transformer,只不过将这些技术合理结合起来,再加上GPT4大模型的加持,就形成了涌现的效应。

但图灵奖得主LeeCun仍然不看好Sora,他仍坚信生成模型没前途,Sora之所以效果好,只不过是大力出奇迹。

但从效果看,Sora确实吊打了现有视频生成模型pika和runway,从技术层面看,pika和runway虽然用的也是扩散模型,但本质上是在二维的图形上进行各种像素操作,它并没有真正了解这个世界的模型,也没有掌握这个世界的物理规律。

而Sora呢,是将大模型和扩散模型结合在一起,大模型不仅能够人机对话,最重要的是它理解了人类语言,了解我们这个世界的模型,了解我们这个世界的知识。

那什么是物理世界的物理规律?

比如说在所有产生的视频里,雪花受重力影响会向下飘落,灯光遇到地面上的水会发生反射,纸飞机碰到树会掉下来,一个汉堡被人咬了一口会剩下半个汉堡。

如果自动驾驶和机器人具备这种世界知识,那么,自动驾驶汽车除了具备感知能力,还具有了认知能力。

自ChatGPT问世以来,不少人表示,文案工作者要失业了,Sora出现后,又有人表示影视行业要瑟瑟发抖了。

这种猜测也不无道理。

对于做特效的公司,以前要做一只假老虎,大概辛辛苦苦建模几个月,渲染花上半年,费用也高达上千万甚至上亿元。

而现在,只需要写一段提示词,调用一个接口就实现了,不满意还可以修改。

除此之外,还有哪些影响呢?

这里我想到一个应用场景,就是Sora和VisionPro结合在一起,你说一段话,就能在现实世界叠加一段视频。

想念苍老师了,就可以马上让她给你跳一段舞蹈。



Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1