本周AI见闻新增—见闻新视角
每周见闻
本周要点汇总:
1、马化腾表示AI堪比电力工业革命;美团扩张算法招聘,悄悄研发大模型。
2、 OpenAI发布iOS版本chatGPT,向Plus用户开放70款插件
3、 Meta发布AI芯片-MTIA,25年才能问世,目前还会采用英伟达GPU。
4、 AI绘图新里程碑-DragGAN实现大象转身,汽车一键“敞篷”。
5、具身智能开创AI主动感知,人工智能的下一个浪潮。
6、云从科技发布从容大模型,垂直领域的商业化路径才是国产大模型的机会。
7、 AI黑科技-在家也能体验迪士尼的“飞跃地平线”;半机械“蜘蛛人”颠覆人机交互的认知。
见闻新视角
在腾讯 2023 年股东大会上,马化腾表示:“最初大家都以为AI是互联网十年不遇的机会,但是现在对AI的认知已经上升到百年发展机遇,可类比电力工业革命。”腾讯当下也在埋头研发AI技术,但是不急于短期求成,未来会在应用、内容生态创造更多的价值,不仅仅专注于toC端,同样重视to B端的机会。
此外,美团在秘密研发大模型,从3月初开始布局该领域,近日算法团队也在扩张中,并且还在筹划成立单独的“平台部门”,帮助美团大模型通过具体的商业化形式落地。
见智研究认为:当下大模型的竞争非常卷,许多开源的大模型的出现更是加大了这个内卷速度。但是开源大模型的问题在于很难进行商业化,更多的是用于学术性研究;而海外封闭式的先进大模型如果应用在一些关键领域,又会有安全性的隐患问题。
所以发展国内大模型的趋势则在于中文预料库的丰富程度,并且本地化优势强的特征,具有较高的安全性和保密性,未来中文专用大模型的市场化需求会非常高。
特别值得关注的是:大模型和应用结合的商业化价值。无论是openAI、微软还是谷歌都已经陆续开始生态版图扩张,这也是国内AI发展的必然路径,研发成果最终都要变现,产生更大的商业价值。
重磅发布
1、OpenAI发布iOS版本chatGPT,向Plus用户开放70款插件
本周,OpenA宣布正式发布iOS版本chatGPT,需要 iOS 16.1或更高版本才能使用。并承诺安卓版也即将发布。
手机端的ChatGPT支持跨设备同步用户的历史记录,还集成了OpenAI的开源语音识别系统Whisper,用户可以用语音输入内容;能够进行问答、语言翻译、教育辅导、以及自动生成文本等。
此外,ChatGPT向有PLUS用户开放联网功能,允许70个第三方插件使用。
见智研究认为:无论是手机端应用的推广还是开放第三方插件的使用,都是OpenAI为提高用户粘性,进一步做到用户下沉所做出的努力。
移动端的开放会极大提高用户使用频率,在便捷程度方面远高于PC端。自ChatGPT发布以来,用户就一直反馈想在移动端使用ChatGPT。而随着移动端的开放,ChatGPT的日活数量将会再突破新高,商业价值也会达到新的高度。另外,访问量的激增,对算力的需求也会进一步扩大。
此外,第三方插件目前虽然说是仅向PLUS付费用户开放,但是以当前AI内卷的程度来看,全面免费也是指日可待的。
2、 Meta发布AI专用芯片-MTIA
MTIA是专门为训练和推理设计的可编程芯片,MTIA的推出极大大提高了Meta在AI方面的硬件实力。科技巨头的竞争最后都无法逃离核心硬件,特别是在发展AI的时代,算力水平是发展的基石,无法掌握算力,发展进程势必会受制于“他人”。
但是MTIA还有很大的优化空间,预计还要等到25年才能问世。在与NNP和GPU性能测试上来看,MTIA在低、中等复杂度模型上有更好的表现,但是在高复杂度上和GPU还相差甚远。
见智研究认为:Meta发展AI芯片是为长远计,毕竟芯片才是握在手中的核心硬实力,但高性能芯片研发之路非常漫长,该款芯片的设计也早在2020年就开始了。而在当前来看,Meta仍旧会采用英伟达的GPU,毕竟在22年的时候Meta刚刚为引入英伟达GPU而对自己的数据中心进行了颠覆性设计,之后还会主要依靠RSC超算中心发展AI。
3、AI绘图新里程碑-DragGAN实现所有想象
AI绘图被Diffusion模型独领风骚的日子,被DragGAN彻底打破了。名为《Drag Your GAN》的沦为引爆AI绘图圈,该论文由MPII、MIT、宾大、谷歌等机构的学者联合发布,目前已被SIGGRAPH2023录用。
该模型几乎能够实现人们对修图的所有需求,从物体形态、细节、甚至是方向、布局都可以改变,堪称核弹级Photoshop。
用户只需要对照片设置几个操作点(红点)、目标点(蓝点),然后进行拖拽,就可以生成新的图像。
见智研究认为:DragGAN的出现表明机器在图像学习的训练又达到了一个新的高度。值得关注的是:DragGAN具有更强大的泛化能力,可以创建出超出训练数据的图像,比如狮子的嘴型就被完全改变,这基本上就是全新生成内容,而不是原本人们认知中的修图功能。
DragGAN与之前的方法相比,并不依赖于特定领域的建模或辅助网络,而是采用一个通用的框架,利用GAN来辨别图像质量,用点追踪的方式完成图像变形功能。有了这个强大的功能,摄像师、修图师都要偷着乐了。
4、 具身智能开创AI主动感知,人工智能的下一个浪潮。
在ITF World 2023半导体大会上,英伟达CEO黄仁勋又放出豪言,人工智能的下一个浪潮将是具身智能。
见智研究认为:具身智能带来的AI价值远比人形机器人更大。具身智能最大的特质就是能够以主人公的视角去自主感知物理世界,用拟人化的思维路径去学习,从而做出人类期待的行为反馈,而不是被动的等待数据投喂。在人类的五大感官中视觉获取的信息占比超过80%,并且让机器理解人类语言也是非常重要的,所以机器视觉和多模态大模型正是开启机器自我感知学习的两把钥匙。详情内容参见英伟达带火的“具身智能”是什么?AI价值远比机器人更大。
5、云从科技发布从容大模型
人工智能平台公司云从科技在广州发布从容大模型,并展示从容大模型的对话、编程、阅读、中考真题答题等基础能力。从容大模型目前处于内测阶段。该模型属于文生文大模型,还不能完成文生图等多模态大模型的功能。
在开放测试中表现情况:反应速度快,但内容准确性还有待提高。并且数据库的时效性比较低,还在21年。另外,该模型在数学、推理能力上表现还没有达到预期。
见智研究认为:国内大模型的优势在于中文语料库上的丰富程度远高于国外先进大模型。虽然在领先程度上很难追赶ChatGPT,但是从容大模型未来会在垂直产业的应用发展上具有领先性,特别是在金融、政务和制造业领域进行专属行业模型的开发,致力于模型的商业化变现。
AI黑科技
1、在家也能体验迪士尼的“飞跃地平线”
国外 Nils Bakker 开发者用 ChatGPT 成功打造一个「虚拟空间传送」系统,采用虚幻引擎 5.1 + ChatGPT + Google Maps 3D Tiles API,用户只需要输入地点,系统将会将采用第一人的视角,带你俯瞰全世界的美景,在家体验飞越地平线的快乐这不就来了。
将 Google 3D Tiles 和 ChatGPT 的 API 结合起来,再利用虚幻引擎的能力,让用户能够身临其境般的感受空间穿梭。这下躺在家里也能感受飞跃地平线的魅力了。
见智研究认为:AI尚且属于行业发展的早期,想象力和创造力都非常重要,行业赛道和商业机会将会如雨后春笋般出现。
2、半机械“蜘蛛人”来了
Jizai Arms的日本机器人公司设计了一种蜘蛛状机器人肢体系统,让人类拥有了可自由操控的机械臂。该系统由六个手臂组成,可以由佩戴它们的用户控制。可最多安装四个机械臂,值得关注的是该系统改变了人机交互的方式。
该假肢非常灵活,可以执行各种任务,应用范围从仓库到医院手术室,未来能够帮助改善残疾人的生活质量。
见智研究认为:机械臂与真人“合体”打开了人机结合的想象空间,刷新了人们对机器人发展的认知上限,未来还会有更多的不可能被实现。
下周看点
期待OpenAI的第一个开源大模型,能否改写Meta的开源王者地位?