机器之心 & ArXiv Weekly
参与:楚航、罗若天、梅洪源
本周论文包括美国东北大学、MIT 等机构提出的 Reflexion,该方法赋予智能体动态记忆和自我反思的能力;苏黎世大学的研究者证明了 ChatGPT 在多项注释任务(包括相关性、立场、主题和框架检测)上优于众包工作平台和人类工作助理等研究。
目录
Fairness-guided Few-shot Prompting for Large Language Models
ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks
Blind Video Deflickering by Neural Filtering with a Flawed Atlas
Reflexion: an autonomous agent with dynamic memory and self-reflection
Disentanglement with Biological Constraints: A Theory of Functional Cell Types
Emergence of Maps in the Memories of Blind Navigation Agents
Erasing Concepts from Diffusion Models
ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:Fairness-guided Few-shot Prompting for Large Language Models
作者:Huan Ma、Changqing Zhang 等
论文地址:https://arxiv.org/abs/2303.13217
摘要:本文从 “预测偏差” 的角度重新审视了 NLP 领域中的 prompt 优化问题,发现了一个关键现象:一个给定的 prompt 的质量取决于它的内在偏差。基于这个现象,文章提出了一个基于预测偏差的替代标准来评估 prompt 的质量,该度量方法能够在不需要额外开发集 (development set) 的情况下通过单个前向过程来评估 prompt。
具体来说,通过在一个给定的 prompt 下输入一个 “无内容” 的测试,期望模型输出一个均匀的预测分布(一个 “无内容” 的输入不包含任何有用的信息)。因此,文中利用预测分布的均匀性来表示给定 prompt 的预测偏差。这与先前的后校准方法 [4] 用的指标类似,但与后校准在固定的 prompt 情况下使用这个 metric 进行概率后校准不同的是,文中进一步探索了其在自动搜索近似 prompt 中的应用。并通过大量实验证实了一个给定 prompt 的内在偏差和它在给定测试集上的平均任务表现之间的相关性。
该工作提出了两种新颖的策略以高效的方式搜索高质量的 prompt:(1) T-fair-Prompting (2) G-fair-Prompting。
推荐:重新审视 Prompt 优化问题,预测偏差让语言模型上下文学习更强。
论文 2:ChatGPT Outperforms Crowd-Workers for Text-Annotation Tasks
作者:Fabrizio Gilardi、Meysam Alizadeh 等
论文地址:https://arxiv.org/abs/2303.15056
摘要:近日,来自苏黎世大学的研究者证明了 ChatGPT 在多项注释任务(包括相关性、立场、主题和框架检测)上优于众包工作平台和人类工作助理。
此外,研究人员还做了计算:ChatGPT 的每条注释成本不到 0.003 美元 —— 大约比 MTurk 便宜 20 倍。这些结果显示了大型语言模型在大幅提高文本分类效率方面的潜力。
研究人员使用了之前的研究收集的 2382 条推文样本。这些推文由训练有素的注释者(研究助理)标记为五种不同的任务:相关性、立场、主题和两种框架检测。实验中,研究者将任务作为零样本分类提交给 ChatGPT,并同时给 MTurk 上的众包工作者,然后根据两个基准评估了 ChatGPT 的性能:相对于众包平台上人类工作者的准确性,以及相对于研究助理注释者的准确性。
结果发现,在五分之四的任务上,ChatGPT 的零样本准确率高于 MTurk。对于所有任务,ChatGPT 的编码器协议都超过了 MTurk 和训练有素的注释者。此外在成本上,ChatGPT 比 MTurk 便宜得多:五个分类任务在 ChatGPT(25264 个注释)上的成本约为 68 美元,在 MTurk(12632 个注释)上的成本约为 657 美元。
图 1. 与 MTurk 上高分标注人相比,ChatGPT zero-shot 的文本标注能力。ChatGPT 在五项任务中的四项中的准确性优于 MTurk。
推荐:ChatGPT 数据标注比人便宜 20 倍,而且还更准。
论文 3:Blind Video Deflickering by Neural Filtering with a Flawed Atlas
作者:Chenyang Lei 、 Xuanchi Ren
论文地址:https://arxiv.org/pdf/2303.08120.pdf
摘要:该 CVPR 2023 论文致力于研究一种通用的闪烁去除方法:(1)对于各种闪烁模式或水平均具有较高的泛化性(例如,旧电影、高速相机拍摄的慢动作视频),(2)仅需要一段闪烁视频,并不需要其他辅助信息(例如,闪烁类型、额外的时间一致视频)。由于该方法没有过多假设,它具有广泛的应用场景。
通过两个关键的观察和设计,作者成功提出了一个通用的、无需额外指导的通用去闪烁方法,可以消除各种闪烁伪影。
一种良好的盲去闪烁模型应该具有跟踪所有视频帧之间对应点的能力。视频处理中的多数网络结构只能采用少量帧作为输入,导致感知野较小,无法保证长期一致性。研究者观察到神经图集非常适合闪烁消除任务,因此将引入神经图集到这项任务中。神经图集是视频中所有像素的统一且简洁的表示方式。如图 (a) 所示,设 p 为一个像素,每个像素 p 被输入到映射网络 M 中,该网络预测 2D 坐标(up,vp),表示像素在图集中对应的位置。理想情况下,不同帧之间的对应点应该共享图集中的一个像素,即使输入像素的颜色不同也应该如此。也就是说,这可以确保时间一致性。
其次,虽然从共享的图层中获取的帧是一致的,但图像的结构存在缺陷:神经图层不能轻松地建模具有大运动的动态对象;用于构建图层的光流也不完美。因此,作者们提出了一种神经过滤策略,从有缺陷的图层中挑选好的部分。研究者们训练了一个神经网络来学习两种类型的失真下的不变性,这两种失真分别模拟了图层中的伪影和视频中的闪烁。在测试时,该网络可作为过滤器很好地工作,以保留一致性属性并阻止有缺陷的图层中的伪影。
推荐:一键去除视频闪烁。
论文 4:Reflexion: an autonomous agent with dynamic memory and self-reflection
作者:Noah Shinn 、 Beck Labash
论文地址:https://arxiv.org/pdf/2303.11366.pdf
摘要:在最近的一篇论文中,来自美国东北大学、MIT 等机构的研究者提出 Reflexion,该方法赋予智能体动态记忆和自我反思的能力。
为了验证方法的有效性,该研究评估了智能体在 AlfWorld 环境中完成决策任务的能力,以及在 HotPotQA 环境中完成知识密集型、基于搜索问答任务的能力,在这两项任务的成功率分别为 97% 和 51%。
Reflexion 智能体的整体架构如下图 1 所示,其中 Reflexion 利用 ReAct(Yao et al., 2023)。在第一次试验中,智能体从构成初始查询的环境中获得任务,然后智能体执行由 LLM 生成的一系列动作,并从环境中接收观察和奖励。对于提供描述型或持续型奖励的环境,该研究将输出限制为简单的二元成功状态以确保适用性。
推荐:当 GPT-4 反思自己错了:性能提升近 30%,编程能力提升 21%。
论文 5:Disentanglement with Biological Constraints: A Theory of Functional Cell Types
作者:James C. R. Whittington, Will Dorrell
论文地址:https://openreview.net/pdf?id=9Z_GfhZnGH
摘要:该研究受生物学启发,揭示了机器学习和神经科学之间有趣的联系,并从数学上证明机器学习中的约束会导致线性网络解缠结(disentanglement)。该研究还通过实验表明,相同的约束对于非线性情况也是有效的。总的来说,这项研究从数学的角度对单个神经元和大脑结构给出了更深层的理解。
推荐:ICLR 2023 杰出论文奖提名。
论文 6:Emergence of Maps in the Memories of Blind Navigation Agents
作者:Erik Wijmans、Manolis Savva 等
论文地址:https://openreview.net/pdf?id=lTt4KjHSsyl
摘要:该论文基于认知科学和机器学习的跨学科方法,让仅具备自我运动(egomotion)(不具备其他任何感知)的导航智能体学得有效表征,并实现有效导航。该研究对表征学习具有重要意义。
推荐:ICLR 2023 杰出论文奖。
论文 7:Erasing Concepts from Diffusion Models
作者:Rohit Gandikota 、 Joanna Materzynska 等
论文地址:https://arxiv.org/pdf/2303.07345v1.pdf
摘要:在最近的一篇论文中,来自美国东北大学、麻省理工学院的作者提出了一种在预训练之后有选择地从文本条件模型的权重中删除单个概念的方法。
此前的方法侧重于数据集过滤、post-generation 过滤或推理指导,而本文提出的方法不需要重新训练,这对于大型模型来说是不可思议的。基于推理的方法可以审查或有效引导模型输出的方式以避免生成不需要的概念。相比之下,本文的方法直接从模型的参数中将概念移除,从而可以安全地分配其权重。
下图展示了训练过程。
推荐:Stable Diffusion 学会在绘画中直接「擦除」侵权概念。
ArXiv Weekly Radiostation
机器之心联合由楚航、罗若天、梅洪源发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
本周 10 篇 NLP 精选论文是:
1. A comprehensive evaluation of ChatGPT's zero-shot Text-to-SQL capability. (from Philip S. Yu)
2. ReCOGS: How Incidental Details of a Logical Form Overshadow an Evaluation of Semantic Interpretation. (from Christopher D. Manning, Christopher Potts)
3. Towards Making the Most of ChatGPT for Machine Translation. (from Dacheng Tao)
4. Error Analysis Prompting Enables Human-Like Translation Evaluation in Large Language Models: A Case Study on ChatGPT. (from Dacheng Tao)
5. Language Models can Solve Computer Tasks. (from Pierre Baldi)
6. Training Language Models with Language Feedback at Scale. (from Kyunghyun Cho)
7. Bias or Diversity? Unraveling Semantic Discrepancy in U.S. News Headlines. (from Jiebo Luo)
8. Zero-shot Entailment of Leaderboards for Empirical AI Research. (from Sören Auer)
9. Scaling Expert Language Models with Unsupervised Domain Discovery. (from Noah A. Smith)
10. GPTEval: NLG Evaluation using GPT-4 with Better Human Alignment. (from Yang Liu)
本周 10 篇 CV 精选论文是:
1. AutoAD: Movie Description in Context. (from Andrew Zisserman)
2. AVFormer: Injecting Vision into Frozen Speech Models for Zero-Shot AV-ASR. (from Cordelia Schmid)
3. PAIR-Diffusion: Object-Level Image Editing with Structure-and-Appearance Paired Diffusion Models. (from Nicu Sebe, Trevor Darrell)
4. SCADE: NeRFs from Space Carving with Ambiguity-Aware Depth Estimates. (from Leonidas Guibas)
5. FlexNeRF: Photorealistic Free-viewpoint Rendering of Moving Humans from Sparse Views. (from Larry S. Davis)
6. BundleSDF: Neural 6-DoF Tracking and 3D Reconstruction of Unknown Objects. (from Dieter Fox, Jan Kautz)
7. Physics-Driven Diffusion Models for Impact Sound Synthesis from Videos. (from Antonio Torralba)
8. Masked Diffusion Transformer is a Strong Image Synthesizer. (from Ming-Ming Cheng, Shuicheng Yan)
9. InceptionNeXt: When Inception Meets ConvNeXt. (from Shuicheng Yan)
10. TimeBalance: Temporally-Invariant and Temporally-Distinctive Video Representations for Semi-Supervised Action Recognition. (from Mubarak Shah)
本周 10 篇 ML 精选论文是:
1. Ideal Abstractions for Decision-Focused Learning. (from Eric Horvitz)
2. Physics-informed PointNet: On how many irregular geometries can it solve an inverse problem simultaneously? Application to linear elasticity. (from Leonidas J. Guibas)
3. Planning with Sequence Models through Iterative Energy Minimization. (from Joshua Tenenbaum)
4. An EMO Joint Pruning with Multiple Sub-networks: Fast and Effect. (from Licheng Jiao)
5. Federated Learning without Full Labels: A Survey. (from Yang Liu, Kai Chen)
6. Fairness-Aware Data Valuation for Supervised Learning. (from Mário A. T. Figueiredo)
7. Predicting Adverse Neonatal Outcomes for Preterm Neonates with Multi-Task Learning. (from Jiebo Luo)
8. Neural Collapse Inspired Federated Learning with Non-iid Data. (from Deng Cai)
9. Adaptive Riemannian Metrics on SPD Manifolds. (from Nicu Sebe)
10. How Does Attention Work in Vision Transformers? A Visual Analytics Attempt. (from Liang Wang, Kwan-Liu Ma)