当前位置:首页|资讯|腾讯|微软|生成式AI|搜索引擎

腾讯研究院AI速递 20240726

作者:腾讯研究院发布时间:2024-07-26

生成式AI

一、 用AI生成的数据训练AI,模型会崩溃?最新Nature封面

1. 使用AI生成的数据训练新的AI模型导致了“模型崩溃”,表现为生成内容的质量逐代下降,最终导致输出无意义的信息;

2. 牛津、剑桥等机构的研究发现,合成数据的使用类似于近亲繁殖,会导致数据质量低下,建议更多使用人类数据以避免这种情况;

3. 研究强调,为防止AI模型退化,应在训练数据中保持一定比例的原始数据,并探索更鲁棒的训练算法.

https://mp.weixin.qq.com/s/1kUNJDqW6R5lSDH_2dM-sA

二、 开源疯狂内卷!Mistral Large 2发布,超Llama 3.1支持中文

1. Mistral Large 2支持多语言,包括中文,参数量达1230亿,优于不支持中文的Llama 3.1;

2. 在代码生成和数学推理方面表现优异,支持多种编程语言,性能在主流模型中排名靠前;

3. 设计针对单节点推理,适用于长上下文应用,与多个云平台有技术合作,便于部署和使用.

https://mp.weixin.qq.com/s/7d_KqQrMpd1GReDlVqe6_Q

三、 RLHF不够用了,OpenAI设计出了新的规则奖励机制RBR

1. OpenAI开发了基于规则的奖励(RBR)机制,提供灵活适应性以适应变化的安全政策,减少对人类数据的依赖;

2. RBR通过定义期望的模型响应规则,自动执行模型微调,提高了模型的安全性和效率;

3. RBR允许快速更新规则,适应新的安全准则,减少了大量人工数据需求和重新训练的成本.

https://mp.weixin.qq.com/s/gn_MoLjessnCMxRNNjhtuw

四、 微软旗下Bing搜索引擎,正式上线基于 AI 的生成式搜索功能

1. 微软Bing搜索引擎正式支持AI生成式搜索功能,通过自然语言处理和生成模型理解用户查询并提供直接答案,减少查找和筛选时间;

2. 传统搜索引擎基于关键词匹配和链接分析,难以满足问答需求,AI搜索引擎利用训练数据和模型知识库,提高信息获取效率;

3. AI搜索引擎市场竞争加剧,Bing的新功能可能对Google的市场地位构成挑战。

https://mp.weixin.qq.com/s/Bc55cuOS7GudnW0tKTqsfQ

五、 Open-Sora Plan v1.2发布,3D全注意力架构,提升物理理解

1. Open-Sora Plan v1.2发布,引入新的3D全注意力架构,提升AI对物理世界的立体理解能力;

2. 通过优化的CausalVideoVAE结构,显著提升视频生成的清晰度、一致性及推理速度;

3. Open-Sora Plan v1.2开源代码、数据和模型,促进AI视频生成技术的共享和进步.

https://mp.weixin.qq.com/s/wJcUlQnivRPEnrB7q-f5aQ

六、 Adobe Firefly Vector AI 更新,Illustrator和Photoshop狂飙进化

1. Adobe Firefly Vector AI 模型为 Illustrator 和 Photoshop 带来生成式 AI 功能,能自动生成可编辑的矢量图形;

2. Illustrator 新增生成形状填充、增强的文本到图案和 Mockup 工具,提升矢量图形创作的灵活性和效率;

3. Photoshop 引入选择笔刷工具和文本生成图像功能,简化操作步骤并支持更精细的图像编辑和创作.

https://mp.weixin.qq.com/s/7mdpKBIWVpw8gUSg8mEQBw

七、 减轻幻觉新SOTA,迭代自训练ANAH-v2,上海AI lab发布

1. 上海AI lab开发的ANAH-v2迭代自训练框架使用期望最大化算法,自动扩展幻觉检测数据集并提升标注准确性;

2. 7B参数的ANAH-v2模型在幻觉检测基准HaluEval和HalluQA上表现优于GPT-4,达到新的SOTA;

3. ANAH-v2通过多轮对话形成的训练数据,有效提高了模型在处理幻觉问题时的性能和泛化能力.

https://mp.weixin.qq.com/s/M3dAx9PSP8x7NA1HC85zzA

前沿科技

八、 腾讯、清华等生物大模型作者专访,畅谈AI生物学、细胞模型技术

1. 大型细胞模型(LCM)如scBERT和Geneformer,基于类似LLM的结构,用于单细胞转录组学,展示了在生物学任务中的应用潜力;

2. LCM面临的技术挑战包括如何将复杂的生物数据转换为AI兼容格式,处理数据的高维性和稀疏性,以及在有限数据和资源下优化模型性能;

3. LCM的发展促进了生物学研究的变革,特别是在细胞类型注释、基因网络分析等领域,预示着AI与生命科学深度融合的未来趋势.

https://mp.weixin.qq.com/s/goJTMDMqw85MiRciBBpYGg

报告观点

九、 Perplexity CEO 谈 AI 搜索的未来:做知识发现引擎,不是搜索引擎

1. Perplexity 结合搜索引擎和大型语言模型(LLM),通过引用互联网上的来源,减少LLM的幻觉问题,提高信息的可靠性和研究便利性;

2. Perplexity 的核心创新包括增强生成(RAG)、思维链推理和网络索引,旨在提供有引用支持的准确答案;

3. CEO Aravind Srinivas 视 Perplexity 为知识发现引擎而非传统搜索引擎,强调其在帮助用户探索和扩展知识方面的功能.

https://mp.weixin.qq.com/s/ziIuWdDfbbVi1XgA_iqDRQ

十、 红杉美国合伙人谈AI布局:分发革命接近极限,下一次是计算革命!

1. 红杉资本合伙人Pat Grady预测,未来的技术革命将是计算革命,重点在于AI模型的应用深度而非广度;

2. 基础模型公司可能不会像大型云服务公司那样规模庞大,更类似于数据库公司,主要提供开发者API;

3. AI的主要应用将在服务行业,如法律和咨询,利用AI进行数据处理和决策支持,而不是简单替换现有软件.

https://mp.weixin.qq.com/s/flDv0pfNHYY4f4y-MJ5x8w

👇订阅下方合集,获取每日推送


Copyright © 2024 aigcdaily.cn  北京智识时代科技有限公司  版权所有  京ICP备2023006237号-1