亲爱的研究同学们,欢迎阅读今日的AI论文导读。今天我为你带来了新鲜出炉的本日AI学术论文导读,涵盖了GPT-4解释新颖文学隐喻的能力、DeepSpeed-Chat系统的强化学习与人类反馈训练、ELIXR视觉-语言适配器模型在医学影像多模态任务中的应用,以及Flows概念框架在建模复杂交互中的应用等多个领域。希望这些内容能够为你的研究提供启示和帮助。如果你觉得这些内容有价值,欢迎点赞、转发,让更多的研究人员了解AI日新月异的进展和变化。
1.【Large Language Model Displays Emergent Ability to Interpret Novel Literary Metaphors】
本研究评估了GPT-4在解释塞尔维亚诗歌中的新颖文学隐喻方面的自然语言处理能力。研究发现,即使没有先前接触过这些隐喻,GPT-4能够产生详细而深刻的解释。与大学生相比,人类评委认为GPT-4生成的隐喻解释更优秀。此外,GPT-4在解释反转隐喻时表现出对Grice合作原则的敏感性。这些结果表明,大型语言模型如GPT-4已经具备解释复杂新颖隐喻的能力。在零样本测试中,GPT-4的表现接近人类水平,远远超过了其他测试过的模型。然而,GPT-4的能力仅限于解释隐喻,而不能创造新的隐喻。此外,GPT-4的解释能力尚未得到文学评论家的认可,其生成的诗歌作品尚未经过严格评估。总之,本研究提供了关于GPT-4在解释塞尔维亚语中隐喻方面的实证研究,为评估和改进大型语言模型的能力提供了有价值的参考。
论文链接:http.//arxiv.org/pdf/2308.01497v1
2.【DeepSpeed-Chat. Easy, Fast and Affordable RLHF Training of ChatGPT-like Models at All Scales】
DeepSpeed-Chat是一个新颖的系统,旨在使强化学习与人类反馈(RLHF)训练对AI社区更加易于访问。DeepSpeed-Chat具有三个关键功能:易于使用的ChatGPT模型的训练和推理体验、DeepSpeed-RLHF管道以及用于训练和推理的强大DeepSpeed-RLHF系统。该系统提供了无与伦比的效率和可扩展性,能够以记录时间和成本的一小部分训练具有数千亿参数的模型。DeepSpeed-Chat的发布为更广泛地访问高级RLHF训练铺平了道路,即使对于资源有限的数据科学家,也能够促进AI领域的创新和进一步发展。
论文链接:http.//arxiv.org/pdf/2308.01320v1
3.【ELIXR. Towards a general purpose X-ray artificial intelligence system through alignment of large language models and radiology vision encoders】
本论文介绍了一种名为ELIXR的轻量级视觉-语言适配器模型,用于医学影像的多模态任务。ELIXR结合了大型语言模型和视觉编码器,在零样本分类、数据高效分类、语义搜索、视觉问答和报告质量保证等任务上取得了最先进的性能。与完全监督的对比学习方法SupCon相比,ELIXR的零样本分类性能相当,但使用的训练数据量少了两个数量级。ELIXR的数据高效分类性能优于SupCon,并且使用的训练数据量也少了两个数量级。在语义搜索任务中,ELIXR优于当前最先进的模型MedCLIP。此外,ELIXR在视觉问答和报告质量保证任务中也取得了较高的准确率。ELIXR的性能表明,结合大型语言模型和视觉编码器可以实现医学影像的多模态任务,并且能够解决以往的挑战。ELIXR的模块化架构具有易于适应其他任务的优势,可以根据需要更换不同的视觉编码器和基础语言模型。此外,ELIXR的训练过程在计算和数据效率方面表现出色,可以使用较少的训练数据训练高精度的模型。然而,ELIXR也存在一些局限性,比如对提示工程的依赖性、对大型语言模型的脆弱性以及缺乏可靠的基准数据集等。未来的工作可以探索ELIXR在不同的语言模型和医学专业模型上的性能,以及将这些方法扩展到其他医学影像模态和临床应用中。
论文链接:http.//arxiv.org/pdf/2308.01317v1
4.【Flows. Building Blocks of Reasoning and Collaborating AI】
本论文介绍了一种名为Flows的概念框架,用于建模复杂交互。该框架通过标准化的基于消息的接口进行通信,包括原子Flows和复合Flows两种类型,可以递归组合成任意嵌套的交互。研究人员还开发了aiFlows库,其中包含一系列Flows,可以轻松使用、扩展和组合成新的、更复杂的Flows。实验结果表明,Flows框架在竞技编程任务上展示了潜力,通过结构化推理和协作提高了解决率。此外,Flows框架和aiFlows库的开源为AI系统的开发和研究提供了新的可能性。然而,Flows框架对计算资源的需求较高,并且依赖于人类反馈和协作。为了推动该领域的发展,论文提出了一种新的竞争性编程比赛形式,即CC-Flows-competition,利用公开可用的Codeforces问题的全面数据集和开源基础设施进行推理和测试。该比赛将仅包括在GPT-4的知识截止日期之后发布的问题,并将策划一个最佳表现的Flows排行榜。
论文链接:http.//arxiv.org/pdf/2308.01285v1
5.【Fighting Fire with Fire. Can ChatGPT Detect AI-generated Text?】
本论文研究了ChatGPT作为检测AI生成文本的性能。尽管已经存在用于检测此类AI生成文本的方法,但本文调查了ChatGPT在此任务中的性能,受到使用ChatGPT作为数据标注器或注释器的研究的启发。我们评估了ChatGPT在区分人类编写和AI生成文本的任务中的零样本性能,并在公开可用的数据集上进行了实验。我们通过实证研究ChatGPT在检测AI生成文本或人类编写文本方面的对称效果。我们的研究结果揭示了如何通过专注于解决问题的特定方面并从该解决方案中推导出其他方面来利用ChatGPT和类似的大型语言模型在自动化检测流水线中的潜力。我们的发现为ChatGPT和类似的大型语言模型如何在自动化检测流水线中发挥作用提供了见解。未来的研究可以进一步探索ChatGPT和其他大型语言模型在此任务中的应用,包括基于少样本提示的方法和利用多个语言模型或基于特征的分类器的集成方法。
论文链接:http.//arxiv.org/pdf/2308.01284v1
6.【Exploring the psychology of GPT-4's Moral and Legal Reasoning】
本论文研究了GPT-4这一高度能力的大型语言模型,探讨了其背后的信念和认知过程,并与人类心理学的研究进行了比较。研究发现,GPT-4的回答可能受到其训练数据和模型架构的影响,存在一定的一致性差异。此外,GPT-4在道德和法律推理方面的表现也可能与人类存在差异。研究还发现,GPT-4在多声音群体模拟方面存在一定的局限性,意见的多样性和平等代表所有群体的能力不足。文章讨论了使用GPT-4替代人类参与者的道德和法律问题,并指出了其潜在风险和挑战。研究认为,尽管GPT-4可能改进了人类偏见问题,但仍需要进一步研究来提高其一致性和伦理影响。文章引用了多个相关研究和文献,包括关于大型语言模型的道德基础、模拟多个人类和复制研究的研究。研究结果对于AI学者和研究人员在使用和开发大型语言模型时具有重要的参考价值。
论文链接:http.//arxiv.org/pdf/2308.01264v1
7.【Calibration in Deep Learning. A Survey of the State-of-the-Art】
本文是一篇关于深度学习模型校准的学术调查。近期的研究表明,现代神经网络在校准方面表现不佳,产生不可靠的模型预测。然而,深度学习模型的校准和可靠性研究相对较少,尚未得到充分探索。本文回顾了最新的校准方法,并对其进行了分类和讨论。文章还讨论了大型模型的校准问题,并提出了一些未来的研究方向和挑战。文章的目的是提供一个综合的调查,帮助研究人员了解和改进分类器的校准性能。该调查引用了多个相关研究,包括使用贝叶斯分箱方法获得校准概率、使用监督学习预测好的概率、使用深度学习测量校准等。文章还提到了一些方法和技术,如标签平滑、dropout、mixup训练等,用于改进分类器的校准性能。此外,文章还讨论了一些具体的应用领域,如自然语言处理和计算机视觉。然而,文章的局限性可能是对某些具体方法和技术的评估不够全面,以及对一些应用领域的讨论不够深入。
论文链接:http.//arxiv.org/pdf/2308.01222v1
8.【Evaluate and Guard the Wisdom of Crowds. Zero Knowledge Proofs for Crowdsourcing Truth Inference】
本论文提出了一种基于众包的可验证计算方法,用于解决外包计算中的信任问题。该方法结合了零知识证明和真实推理算法,可以高效准确地解决各种复杂的外包任务。同时,该方法还提出了一种证明浮点数精确计算的新方法,与现有的论证系统兼容且效率高。通过实现和评估,该方法相比最近的工作,提高了2-4倍的效率,并具有广泛的适用性。该方法适用于数据标注、区块链预言机等多个应用场景。该方法可以保证聚合和推理过程的准确性和隐私性,同时保护敏感信息不被泄露。此外,该方法可以根据贡献度公平评估和奖励数据提供者,防止恶意聚合者的损失。该方法可以与现有的零知识证明系统无缝集成,具有可扩展性和灵活性。本论文突破了基于众包的可验证计算方法,解决了外包计算中的信任问题,并在实验中展示了该方法的高效性和准确性。然而,该方法需要使用特定的计算电路和零知识证明系统,可能需要一定的技术和计算资源。在处理大规模数据时可能会面临一定的计算和存储压力。此外,该方法的安全性和隐私保护性需要进一步研究和验证。
论文链接:http.//arxiv.org/pdf/2308.00985v1
9.【Controlling bad-actor-AI activity at scale across online battlefields】
本论文研究了如何在社交媒体上应对恶意行为者使用人工智能/GPT生成有害内容的威胁,并通过利用社交媒体多元宇宙的内在动态来解决这一问题。研究结合了对当前恶意行为者和主流社交媒体战场的详细描述以及对其行为的数学描述,展示了恶意行为者使用人工智能的活动在何时、何地以及以何种方式占主导地位。通过动态红后分析,预测到2024年初,恶意行为者使用人工智能的活动将每天升级,恰好在美国和其他全球选举之前。研究提供了一个政策矩阵,以量化遏制与清除等政策选项的结果和权衡。研究还提供了风险度量的明确插入式公式。、
研究发现,即使在最新的GPT工具(例如ChatGPT)出现之前,预测到到2026年,90%的在线内容将由人工智能生成。2024年将有60多个国家进行60多次选举,包括美国和印度,这使得恶意行为者滥用人工智能的风险更加紧迫。实际的暴力袭击越来越多地与有害的在线内容相关联。欧盟目前通过其“数字服务法”和“人工智能法”领导监管方面的努力。然而,识别高效的恶意行为者-人工智能政策需要对在线战场的详细了解,而不是基于假设。
研究还指出,在GPT之前,关于2020年美国选举的研究表明,即使没有GPT,人们对在线集体行为的复杂性了解甚少。在线行为不仅仅是人们的信息流,而更可能是由更复杂的集体互动产生的。然而,AI-社交媒体讨论中似乎缺少基于证据的研究,缺乏严格的数学分析,无法预测AI/GPT出现时可能发生的情况,以及可能发生的地点、时间和应对措施。本研究提出了对这些问题的答案。
全球数十亿的在线人口创造了一个动态网络,将内置的社交媒体社区相互连接起来。研究的方法是通过13个平台对这个动态网络进行映射,这些社区包含了大约10亿个个体,并提供了一个巨大、现成且快速移动的战场,使得人工智能可以蓬勃发展。研究发现,较小的平台在这个过程中起到了关键作用,因为它们数量众多,链接活动频繁,并不是“边缘”。由于GPT驱动的恶意行为者社区的多平台融合-分裂动力学,它们可以不断传播有害内容,并增加它们已经相当大的与主流社区的连接。研究还预测到,恶意行为者-人工智能活动将在2024年初几乎每天发生,这正好是美国和其他全球选举之前的时间。
研究使用严格的数学方法展示了如何通过利用恶意行为者-人工智能系统的社区集群动态来控制恶意行为者-人工智能活动,并预测其结果。研究结果显示,只要A比B强大,较保守的遏制政策就会成功。当A集群发现B集群时,A集群平均上更强大,因此可以平均上使其链接失效,即B集群分裂为不相连的B社区。完全清除恶意行为者-人工智能的更雄心勃勃的政策需要更强大的A集群完全清除B集群。研究还提供了关于遏制B集群的风险度量的插入式公式。
这些研究结果为加强恶意行为者-人工智能政策讨论提供了具体的、定量的、可测试的和可推广的起点。当然,研究的许多特征可以进行扩展和改进,以适应恶意行为者-人工智能能力的发展。
论文链接:http.//arxiv.org/pdf/2308.00879v1
10.【Beneficent Intelligence. A Capability Approach to Modeling Benefit, Assistance, and Associated Moral Failures through AI Systems】
本文提出了一个关于AI系统的道德问题的概念框架,旨在解决AI与个体之间的伦理关注。该框架以助力和道德错误为核心概念,助力指AI系统通过扩展或改善个体的真实自由或帮助其追求生活计划来提供帮助,道德错误包括不合理的家长作风、强迫、欺骗、剥削和统治。文章还讨论了助力和道德错误与正义和公平的关系。该框架可以用于评估AI系统在协助、有益或赋权方面的程度,解决AI系统中的安全、隐私、公平、透明度和问责性问题,以及考虑受AI系统影响的边缘化利益相关者的利益和福祉。未来的研究可以探索更广泛的群体和社区的助力问题,以及助力与正义和公平的概念之间的联系。本文的研究成果对于设计和开发以伦理为导向的AI系统,确保AI系统服务于人类而不是相反具有重要意义。
论文链接:http.//arxiv.org/pdf/2308.00868v1
感谢您的关注,AI论文导读将继续为您带来AI精选论文的导读。请大家积极参与互动,点赞、评论、转发,让更多研究员快速了解AI的前沿变化。明天的导读,我们不见不散!