机器之心 & ArXiv Weekly
参与:楚航、罗若天、梅洪源
本周主要论文包括 OpenAI 开源新模型代码,一步成图,1 秒 18 张;爆火论文打造《西部世界》雏形:25 个 AI 智能体,在虚拟小镇自由成长。
目录
CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society
Consistency Models
Generative Agents: Interactive Simulacra of Human Behavior
INSTRUCTION TUNING WITH GPT-4
SegGPT: Segmenting Everything In Context
4K-NeRF: High Fidelity Neural Radiance Fields at Ultra High Resolutions
Efficiently Leveraging Multi-level User Intent for Session-based Recommendation via Atten-Mixer Network
ArXiv Weekly Radiostation:NLP、CV、ML 更多精选论文(附音频)
论文 1:CAMEL: Communicative Agents for “Mind” Exploration of Large Scale Language Model Society
作者:Guohao Li 、 Hasan Abed Al Kader Hammoud 等
论文地址:https://ghli.org/camel.pdf
摘要:3 月 21 日,阿卜杜拉国王科技大学的研究人员开源了用于探索大语言模型(LLM)思想和能力的多智能体代码库 CAMEL,提出了通过角色扮演框架来研究 LLM 智能体的行为和能力。
该论文提出了一个名为 “角色扮演”(Role-Playing)的新型多智能体框架,使多个智能体能够进行对话并合作解决分配的任务。智能体会被分配不同的角色,并被期望应用他们的专业和知识来找到满足他们共同任务的解决方案。该框架使用启示式提示(Inception Prompt)来引导聊天智能体完成任务,同时与人类意图保持一致。
图 1. 角色扮演框架。这里需要人输入的是一个简单的想法(Idea),角色的分配(Role Assignment),比如开发股票交易机器人,可以选择一个 Python 程序员作为助手(AI Assistant),一个股票交易员作为法令者(AI User)。在人类用户输入结束后,任务加工器(Task Specifier)会把任务具体化,比如可以通过对社交网路平台上特定股票进行情感分析,然后根据情感分析的结果进行股票交易。当任务被具体化后,两个基于 ChatGPT 的 AI 智能体开始合作完成任务,比如进行工具的安装和导入。
推荐:多个 ChatGPT 合作完成指定任务。
论文 2:Consistency Models
作者:宋飏、 Ilya Sutskever 等
论文地址:https://arxiv.org/pdf/2303.01469.pdf
摘要:OpenAI 提出了 Consistency Models,这是一类新的生成模型,无需对抗训练即可快速获得高质量样本。与此同时,OpenAI 还发布了 Consistency Models 实现以及权重。
具体而言,Consistency Models 支持快速 one-step 生成,同时仍然允许 few-step 采样,以权衡计算量和样本质量。它们还支持零样本(zero-shot)数据编辑,例如图像修复、着色和超分辨率,而无需针对这些任务进行具体训练。Consistency Models 可以用蒸馏预训练扩散模型的方式进行训练,也可以作为独立的生成模型进行训练。
研究团队通过实验证明 Consistency Models 在 one-step 和 few-step 生成中优于现有的扩散模型蒸馏方法。例如,在 one-step 生成方面,Consistency Models 在 CIFAR-10 上实现了新的 SOTA FID 3.55,在 ImageNet 64 x 64 上为 6.20。当作为独立生成模型进行训练时,Consistency Models 在 CIFAR-10、ImageNet 64 x 64 和 LSUN 256 x 256 等标准基准上的表现也优于 single-step、非对抗生成模型。
推荐:OpenAI 开源新模型代码,一步成图,1 秒 18 张。
论文 3:Generative Agents: Interactive Simulacra of Human Behavior
作者:Joon Sung Park 、 Joseph C. O’Brien 等
论文地址:https://arxiv.org/pdf/2304.03442v1.pdf
摘要:在最近爆火的一篇论文中,研究者们成功地构建了一个「虚拟小镇」,25 个 AI 智能体在小镇上生存,它们不仅能够从事复杂的行为(比如举办情人节派对),而且这些行为比人类角色的扮演更加真实。
25 个智能体居住在名为 Smallville 的小镇,每个智能体由一个简单的化身表示。所有的角色都可以:
与别人和环境交流;
记住并回忆它们所做的和观察到的事情;
反思这些观察结果;
制定每天的计划。
推荐:爆火论文打造《西部世界》雏形:25 个 AI 智能体,在虚拟小镇自由成长。
论文 4:INSTRUCTION TUNING WITH GPT-4
作者:Baolin Peng 、 Chunyuan Li 等
论文地址:https://arxiv.org/pdf/2304.03277.pdf
摘要:为了推进 LLMs 指令微调的 SOTA 水平,微软研究院在其论文《Instruction Tuning with GPT-4》中首次使用 GPT-4 作为教师模型进行 self-intruct 微调。
研究者一方面发布了 GPT-4 生成的数据,包括中英文的 52k 指令遵循数据集、GPT-4 生成的对三种指令微调模型的输出进行评级的反馈数据。
另一方面基于 GPT-4 生成的数据开发了指令微调的 LLaMA 模型和奖励模型。为了评估指令微调 LLMs 的质量,研究者使用三个指标对测试样本进行评估:对三个对齐标准的人工评估、基于 GPT-4 反馈的自动评估以及非自然指令的 ROUGE-L(自动文摘评测方法之一)。
实验结果验证了使用 GPT-4 生成的数据进行 LLMs 指令微调的有效性。GPT-4 生成的 52k 中英指令遵循数据在新任务上实现了较以往 SOTA 模型更好的零样本性能。目前,研究者已经公开了使用 GPT-4 生成的数据以及相关代码。
推荐:微软用 GPT-4 做大模型指令微调,新任务零样本性能再提升。
论文 5:SegGPT: Segmenting Everything In Context
作者:Xinlong Wang、Xiaosong Zhang 等
论文地址:https://arxiv.org/abs/2304.03284
摘要:智源研究院视觉团队最近推出通用分割模型 SegGPT(Segment Everything In Context)—— 利用视觉提示(prompt)完成任意分割任务的通用视觉模型。
该模型具有以下优势能力:
1. 通用能力:SegGPT 具有上下文推理能力,模型能够根据提供的分割示例(prompt),对预测进行自适应的调整,实现对 “everything” 的分割,包括实例、类别、零部件、轮廓、文本、人脸、医学图像、遥感图像等。
2. 灵活推理能力:支持任意数量的 prompt;支持针对特定场景的 tuned prompt;可以用不同颜色的 mask 表示不同目标,实现并行分割推理。
3. 自动视频分割和追踪能力:以第一帧图像和对应的物体掩码作为上下文示例,SegGPT 能够自动对后续视频帧进行分割,并且可以用掩码的颜色作为物体的 ID,实现自动追踪。
推荐:智源推出通用分割模型 SegGPT。
论文 6:4K-NeRF: High Fidelity Neural Radiance Fields at Ultra High Resolutions
作者:Zhongshu Wang、Lingzhi Li 等
论文地址:https://arxiv.org/abs/2212.04701
摘要:来自阿里巴巴的研究者专注于新的视图合成任务,提出了一个名为 4K-NeRF 的框架,其基于 NeRF 的体积渲染方法可以实现在 4K 超高分辨率下高保真视图合成。
4K-NeRF pipeline(如下图):使用基于 patch 的射线采样技术,联合训练 VC-Encoder(View-Consistent)(基于 DEVO)在一个较低分辨率的空间中编码三维几何信息,之后经过一个 VC-Decoder 实现针对高频细高质量的渲染与视图一致性的增强。
推荐:神还原物体复杂、高频细节,4K-NeRF 高保真视图合成来了。
论文 7:Efficiently Leveraging Multi-level User Intent for Session-based Recommendation via Atten-Mixer Network
作者:Peiyan Zhang、Jiayan Guo 等
论文地址:https://dl.acm.org/doi/abs/10.1145/3539597.3570445
摘要:近日,来自香港科技大学、北京大学、微软亚研等机构的研究者提出了一种高效利用多级用户意图的新模型 Atten-Mixer。研究论文获得 WSDM2023 最佳论文荣誉提名。
本文采用两个 SBR 相关的归纳偏置 (inductive biases): 即局部不变性 (local invariance) 和固有优先级 (inherent priority),来缩减搜索空间。
固有优先级指的是 session 中后几个 item 更能反映用户的当前兴趣;
局部不变性指的是 session 中后几个 item 的相对顺序并不影响用户的兴趣,因此在实践中可以通过不同数目的尾部 item 形成 group,通过这些 group 来构建相关的高层概念。
在这里尾部 item 对应固有优先级,group 对应局部不变性,而不同数目则代表本文考虑多层的高层概念。
推荐:港科大、北大等提出会话推荐新模型 Atten-Mixer。
ArXiv Weekly Radiostation
机器之心联合由楚航、罗若天、梅洪源发起的ArXiv Weekly Radiostation,在 7 Papers 的基础上,精选本周更多重要论文,包括NLP、CV、ML领域各10篇精选,并提供音频形式的论文摘要简介,详情如下:
本周 10 篇 NLP 精选论文是:
1. Language Models are Causal Knowledge Extractors for Zero-shot Video Question Answering. (from Shih-Fu Chang)
2. Boosted Prompt Ensembles for Large Language Models. (from Jimmy Ba)
3. Are Large Language Models Ready for Healthcare? A Comparative Study on Clinical Language Understanding. (from Linda Petzold)
4. LasUIE: Unifying Information Extraction with Latent Adaptive Structure-aware Generative Language Model. (from Tat-Seng Chua)
5. Towards Corpus-Scale Discovery of Selection Biases in News Coverage: Comparing What Sources Say About Entities as a Start. (from Dan Roth)
6. Similarity-Aware Multimodal Prompt Learning for Fake News Detection. (from Diana Maynard)
7. Multi-step Jailbreaking Privacy Attacks on ChatGPT. (from Wei Fan)
8. Evaluating the Logical Reasoning Ability of ChatGPT and GPT-4. (from Jian Liu)
9. WebBrain: Learning to Generate Factually Correct Articles for Queries by Grounding on Large Web Corpus. (from Ji-Rong Wen)
10. On the Evaluations of ChatGPT and Emotion-enhanced Prompting for Mental Health Analysis. (from Sophia Ananiadou)
本周 10 篇 CV 精选论文是:
1. Verbs in Action: Improving verb understanding in video-language models. (from Andrew Zisserman, Cordelia Schmid)
2. MC-ViViT: Multi-branch Classifier-ViViT to Detect Mild Cognitive Impairment in Older Adults using Facial Videos. (from Jian Sun)
3. Improving Image Recognition by Retrieving from Web-Scale Image-Text Data. (from Cordelia Schmid)
4. Exposing and Mitigating Spurious Correlations for Cross-Modal Retrieval. (from Cordelia Schmid)
5. MOST: Multiple Object localization with Self-supervised Transformers for object discovery. (from Rama Chellappa)
6. Boosting Convolutional Neural Networks with Middle Spectrum Grouped Convolution. (from Matti Pietikäinen, Li Liu)
7. Cross-View Hierarchy Network for Stereo Image Super-Resolution. (from Liang Chen)
8. $R^$Former: Unified $R$etrieval and $R$eranking Transformer for Place Recognition. (from Mubarak Shah)
9. Vita-CLIP: Video and text adaptive CLIP via Multimodal Prompting. (from Mubarak Shah)
10. Probabilistic Human Mesh Recovery in 3D Scenes from Egocentric Views. (from Yan Zhang)
本周 10 篇 ML 精选论文是:
1. Preemptively Pruning Clever-Hans Strategies in Deep Neural Networks. (from Klaus-Robert Müller)
2. CoSDA: Continual Source-Free Domain Adaptation. (from Shuicheng Yan)
3. Fairness through Aleatoric Uncertainty. (from Huan Liu)
4. A Unified Characterization of Private Learnability via Graph Theory. (from Noga Alon)
5. On Efficient Training of Large-Scale Deep Learning Models: A Literature Review. (from Dacheng Tao)
6. On Robustness in Multimodal Learning. (from Jonathon Shlens)
7. A Game-theoretic Framework for Federated Learning. (from Kai Chen)
8. Ensemble Modeling for Time Series Forecasting: an Adaptive Robust Optimization Approach. (from Dimitris Bertsimas)
9. Filling out the missing gaps: Time Series Imputation with Semi-Supervised Learning. (from Jaideep Srivastava)
10. Embarrassingly Simple MixUp for Time-series. (from Jaideep Srivastava)