简介: Claude3 是 Anthropic 发布的最新大型语言模型,在长文本生成和推理方面具有强大的能力,超越了 GPT-4。它采用了新的训练方法和架构,使得它能够生成更流畅、更有逻辑性的文本,并能够更好地理解和回答复杂的问题。
链接: Claude3 超强的长文本和推理能力,真正超越GPT4: https://www-cdn.anthropic.com/de8ba9b01c9ab7cbabf5c33b80b7bbc618857627/Model_Card_Claude_3.pdf
简介: sora 是 OpenAI 发布的最新模型,能够生成逼真的视频。它采用了时空注意力机制,使得它能够更好地理解视频中的时间和空间关系,并生成更加流畅、自然的视频。
链接: sora OPENAI最新模型,视频生成的GPT2时刻: https://arxiv.org/abs/2402.17177
简介: SIMA 是谷歌 DeepMind 发布的游戏模拟大模型。它能够在 3D 虚拟环境中执行各种指令,并学习如何在不同的环境中完成任务。
链接: SIMA:Scalable Instructable Multiworld Agent 谷歌的游戏模拟大模型: https://storage.googleapis.com/deepmind-media/DeepMind.com/Blog/sima-generalist-ai-agent-for-3d-virtual-environments/Scaling%20Instructable%20Agents%20Across%20Many%20Simulated%20Worlds.pdf
简介: Devin是由Cognition Labs推出的首个AI程序员,旨在通过先进的语言理解和编程技能自动化编程任务。它能够理解复杂的编程需求,生成高效的代码,并优化现有代码,标志着人工智能在软件开发领域的一个重要进步。
链接: 探索Devin - Cognition Labs引领的AI程序员新篇章 https://www.cognition-labs.com/introducing-devin
简介: DexCap 是斯坦福大学发布的低成本动作模仿机器人。它使用深度学习算法来学习和模仿人类的动作,并能够在各种环境中完成复杂的任务。
链接: DexCap 斯坦福大学的低成本动作模仿机器人: https://dex-cap.github.io/
简介: THERMOMETER 是麻省理工学院发布的大模型微调框架。它能够有效地微调大型语言模型,使其能够在特定任务上表现更好。
链接: THERMOMETER 麻省理工的大模型微调框架: https://arxiv.org/abs/2403.08819
FinAgent:金融交易的多模态基础代理
简介: FinAgent 是一个面向金融交易的多模态基础代理,具有工具增强、多样化和通用性特点。它通过市场情报模块处理数值、文本和视觉数据,以精确分析金融市场。FinAgent 独特的双层反思模块不仅能快速适应市场动态,还包含了一个多样化的记忆检索系统,增强了代理从历史数据学习和改善决策过程的能力。通过在6个金融数据集上的全面实验,FinAgent 在6个金融指标上显著超过9个最先进的基线,平均利润提高了超过36%。
链接: FinAgent 金融交易的多模态基础代理 https://arxiv.org/abs/2402.18485
学习生成可解释的股票预测:使用自反思大型语言模型
简介: 本文介绍了一个名为Summarize-Explain-Predict(SEP)的新框架,它利用自反思大型语言模型(LLMs)自主生成可解释的股票预测。该方法通过细腻调整LLMs,不需要专家标注的解释样本,就能在股票分类任务和组合构建中提高预测准确性和解释性。
链接: 学习生成可解释的股票预测:使用自反思大型语言模型 https://arxiv.org/abs/2402.18485
自然语言描述的算法执行:大型语言模型的探索
简介: 这项研究探讨了当前大型语言模型(LLMs)理解和执行自然语言描述算法的能力。通过构建一组来自著名教科书《算法导论》中的代表性算法测试集,评估了流行的LLMs,特别是GPT-4,在不涉及重计算的情况下执行程序的效果。研究发现LLMs能够有效执行自然语言描述的程序,对于评估LLMs的代码执行能力和鼓励进一步的研究与应用具有重要贡献。
链接: 自然语言描述的算法执行:大型语言模型的探索 https://arxiv.org/abs/2402.18485
Design2Code: 自动化前端工程的现状
简介: Design2Code 探索了利用生成式AI自动将视觉设计转换成代码的可能性,通过对484个真实世界的网页样本进行综合评估。研究开发了一套自动评估指标并结合人类评估,展示了多模态大型语言模型(特别是GPT-4V和Gemini Pro Vision)在此任务上的效果。研究表明,适当的微调可以显著提高生成的网页在视觉外观和内容上与原始参考网页的匹配度,GPT-4V在所有模型中表现最佳。
链接: Design2Code: 自动化前端工程的现状 https://arxiv.org/abs/2402.18485
多模态是GPT5的最终形态
多模态大型语言模型的(R)进化:一项综述
简介: 该文综述了多模态大型语言模型(MLLMs)的发展,探讨了它们如何融合视觉与文本模态,提供对话式界面和遵循指令的能力。文章回顾了近期基于视觉的MLLMs的架构选择、多模态对齐策略、和训练技巧,同时对这些模型在广泛任务上的应用进行了详尽分析。此外,还汇编并描述了训练数据集和评估基准,对现有模型在性能和计算需求方面进行了比较。
链接: 多模态大型语言模型的(R)进化:一项综述 https://arxiv.org/abs/2402.18485
简介: 该研究通过建立一套检索增强的语言模型系统,探索语言模型(LMs)在预测未来事件方面能否达到与竞争性人类预测者相当的水平。该系统自动搜索相关信息、生成预测,并聚合预测结果。通过在一个大型的、来自竞争预测平台的问题数据集上进行测试,研究发现该系统在一些设置中能够接近甚至超过人类预测群体的平均水平。这表明利用语言模型进行未来预测可能为规模化的精确预测提供支持,有助于指导机构决策制定。
链接: 人类级预测的逼近:语言模型的应用 https://arxiv.org/abs/2402.18485
Prompt新技巧
简介: 研究探索了对比提示(CP)如何显著提升大型语言模型(LLMs)进行复杂推理的能力。通过在回答之前简单添加“让我们给出一个正确答案和一个错误答案”的提示,展示了LLMs作为对比推理器的能力。实验表明,对两种大型语言模型进行零样本对比提示,在算术、常识和符号推理任务上的性能有所提高,例如,GPT-4在GSM8K和AQUA-RAT任务上的准确率分别从35.9%提高到88.8%和从41.3%提高到62.2%。
链接: 大型语言模型作为对比推理器 https://arxiv.org/abs/2402.18485