腾讯研究院AI速递 20240621

作者：腾讯研究院发布时间：2024-06-21

腾讯生成式AI AGI 人工智能

生成式AI

一、揭秘Ilya新公司SSI安全超级智能：背靠5吨GPU，核能级安全

1. SSI致力于打造核能级别的AI安全；以安全为首要任务，不分心于其他商业活动；

2. 公司拥有丰富资金和资源，创始人的背景和人脉确保资金充足和技术支持；

3. Ilya与合伙人重申了对AI安全的承诺，SSI将专注于开发既安全又强大的超级智能系统。

https://mp.weixin.qq.com/s/d6TocI3bJ3AC9JAwxmPJZA

二、 GPT-4o破ARC-AGI无法被挑战的神话！71%准确率略低人类

1. GPT-4o击破ARC-AGI基准，成为新的技术领先状态（SOTA），在训练集上达到71%的准确率;

2. ARC-AGI由François Chollets创立，曾被认为是通用人工智能的难题，历年来进展缓慢;

3. 测试者Ryan通过生成和测试数千个Python程序，突破以往性能，尽管存在视力和编码的弱点，展示了LLM的潜力和限制.

https://mp.weixin.qq.com/s/avkGFdvi4NwosJHg8xDqfA

三、 Meta发布最新RAG评价基准，公认最强的GPT-4仅得40分

1. Meta发布RAG评价基准，GPT-4配合RAG仅获得40分（百分制）显示技术仍有提升空间;

2. RAG技术通过增强LLM与外部知识的结合，试图解决LLM生成答案时的“幻觉”问题;

3. CRAG评测基准设计包括多种任务和评估方法，旨在全面测试RAG系统在多样化和动态问答场景中的性能.

https://mp.weixin.qq.com/s/GNLk6BzJXNxTsLoM0JL1AA

四、 ShareGPT4V团队利用百万高质量视频-字幕，提升多模态能力

1. ShareGPT4Video系列由顶级研究团队推出，专注于通过高质量视频-字幕数据集提升视频理解和生成能力;

2. 采用差分滑窗视频描述策略，有效生成详细视频字幕，适用于任意分辨率和长度的视频;

3. 研究成果包括大规模视频-文本数据集和ShareCaptioner-Video模型，后者支持高效、精确的视频描述生成.

https://mp.weixin.qq.com/s/-PK2R40Z0qSDK0CbkeM9VA

五、 Aim Security 官宣获得1800万美元融资，增强生成式AI安全

1. Aim Security获得1800万美元A轮融资，由Canaan Partners领投，YL Ventures跟投;

2. 公司由有丰富网络安全背景的Matan Getz和Adir Gruss于2022年创立;

3. Aim Security开发的安全平台旨在应对AI带来的数据和隐私威胁，管理和保护AI工具的使用.

https://mp.weixin.qq.com/s/VBPEtm591Ytnk-Y8mRfFkA

六、清华推出首个通用城市时空预测模型UniST，零样本场景开箱即用

1. 清华大学推出UniST，首个纯时空通用模型，用于城市时空预测，具备跨城市和领域的广泛应用性;

2. UniST利用基于Transformer的架构和时空提示（prompt），在多城市数据集上实现了零样本和少样本学习，提高预测精度;

3. 该模型通过整合多种掩码策略和时空数据，展现出在交通管理、资源分配等多个领域的强大泛化和预测能力.

https://mp.weixin.qq.com/s/4rxmEx-8cYfgWHX6ct9gag

七、斯坦福AI视频工具Hedra免费开放！音、图、视频同一工作流

1. 斯坦福初创公司发布的视频生成工具Hedra，能生成30秒逼真视频，支持音频、图像与视频整合;

2. Hedra的实测表现显示，它可以处理多种音色和角色描述，虽然在处理非人类角色和特写时存在挑战;

3. 工具面临的问题包括人物识别误判和特定动漫人脸畸变，官方计划逐步改进并扩展视频尺寸和输入形式.

https://mp.weixin.qq.com/s/02I7IYKea1AbozmJcEUiBQ

前沿科技

八、北大推出全新机器人多模态大模型RoboMamba！支持高效的推理和操作

1. 北京大学开发的RoboMamba模型整合了视觉编码器与Mamba状态空间语言模型，提供端到端的机器人推理与操纵能力;

2. RoboMamba实现视觉常识与机器人任务的推理，通过高效微调策略快速学习操纵位姿预测;

3. 模型在多个通用和机器人评估基准上表现出色，其操作预测在真实世界和模拟器测试中也显示了强大的性能和快速的推理速度.

https://mp.weixin.qq.com/s/ED2bnE6NDT83zlF9QXHg6Q

九、登Nature，超越GPT-4V，MIT、哈佛开发人类病理学多模态AI「副驾驶」

1. 哈佛大学和MIT研究团队开发了PathChat，一款多模态AI「副驾驶」，专门用于人类病理学，表现超越GPT-4V;

2. PathChat通过融合视觉和语言输入，处理具有高复杂性的病理学诊断和教育问题;

3. 研究展示PathChat在多项选择和开放式问题的评估中表现出色，具备与病理专家互动的潜力。

https://mp.weixin.qq.com/s/1niK39dZNDe_32MzRDPxtg

报告观点

十、马斯克最新专访：我没投资任何永生技术，活太久会对社会产生负面影响

1. 马斯克预测人工智能将在一年内带来显著变化，并在五年内带来激进变化;

2. 马斯克表示SpaceX的最终目标是实现生命的多行星化，扩展人类意识边界;

3. 马斯克没有投资任何永生技术，认为活得太久可能对社会产生负面影响。

https://mp.weixin.qq.com/s/Xk3pC1g4Fa76tX9q1JK3Bw

👇订阅下方合集，获取每日推送

近期资讯

奇瑞们，该逃离直播间了

流量与销量未必成正比！持续了半年的车企直播浪潮，并没有激发出更大的市场需求。

科技新知 2024-12-30

奔驰能守住200万销量红线吗？

奔驰“情怀”转化率降低

新能源观察家 2024-12-30

杭州跑出超级隐形冠军：年入8.35亿，全球第十

杭州的鸿星科技，正式向上交所发起IPO冲刺。

铅笔道 2024-12-30

亲历者讲述：旅拍摄影师，这碗饭有多难吃？

乱象与“黑料”

环球旅讯 2024-12-30

上网“哭穷”的年轻人，买到低价机票了吗？

真正的答案，写在机票的定价机制和波动因素里。

电厂 2024-12-30

败在“宫斗”中的康佳，并购求存

华侨城的责任?

源媒汇 2024-12-30

“视觉中国”之后，图片维权已然成了一门生意

大量“mini版视觉中国”出现，让图片版权保护成了一门生意。

三易生活 2024-12-30

三易生活 2024-12-30

腾讯研究院AI速递 20240621

推荐体验

相关资讯

腾讯研究院AI速递 20240304

近期资讯

奇瑞们，该逃离直播间了

奔驰能守住200万销量红线吗？

杭州跑出超级隐形冠军：年入8.35亿，全球第十

亲历者讲述：旅拍摄影师，这碗饭有多难吃？

上网“哭穷”的年轻人，买到低价机票了吗？

败在“宫斗”中的康佳，并购求存

“视觉中国”之后，图片维权已然成了一门生意

一天三起事故，波音究竟怎么了？

麦当劳要推更多“穷鬼套餐”

支持跨店下单，美团外卖要搞出点新花样

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响