当前位置：首页|资讯

ComplexBench：LLM 多约束复杂指令遵循新基准

作者：ChatGLM发布时间：2024-07-15

[图片] 4 种约束类型、19 个约束维度、4 种约束组合方式。在现实的大语言模型应用场景中，几乎所有任务都会被定义为指令遵循的形式。近年来，随着大语言模型（LLM）能力的持续提升，人们逐渐不再满足于使用简单、直接的指令让模型完成机器翻译、文本分类等单一任务，而是通过对模型输出施加各种类型的约束，使其适配于更为复杂的现实任务，如角色扮演和 LLM-as-Agent。因此，如何准确评价大语言模型对于包含各种类型约束的复杂指令的遵循能力，已成为一个日益重要的问题。然而，当前的复杂指令遵循评测基准，如 C...【查看原文】

推荐体验

相关资讯

多模态LLM视觉推理能力堪忧，浙大领衔用GPT-4合成数据构建多模态基准

浙江大学等提出多模态视觉推理基准。

新智元 2024-08-08

当LLM遇到Database：阿里达摩院联合HKU推出Text-to-SQL新基准

在新基准BIRD上，ChatGPT仅能达到40.08%，相比人类92.96%还有很大差距。大模型（LLM）为通用人工智能（AGI）的发展提供了新的方向，其通过海量的公开数据，如互联网、书籍等语料进行大规模自监督训练，获得了强大的语言理解、语言生成、推理等能力。

ChatGPT 人工智能 AGI

机器之心Pro 2023-06-06

系统性基准测试LLM和持续监控AI性能

亲爱的朋友们， ~~~~~~~~ 据《自然新闻》报道，X平台上的一起事件引发了Elon Musk和成千上万X用户之间关于现代科学研究的争论。事情源于AI先驱Yann LeCun批评了Elon Musk在5月27日的推文：“如果你相信我们的使命是理解宇宙，请加入xAI，这需要最大限度地严格追求真理，而不考虑受欢迎程度或政治正确性。” 我不知道这种社交媒体上的冲突能否带来任何新的见解，然而它提醒我，在生成式AI的新世界中，重新思考如何追求真理是至关重要的。特别是，像ChatGPT这样的通用LLM并不是专门为医

马斯克生成式AI ChatGPT

AJ24机器对话 2024-06-07

OpenAI最新研究——利用指令层次结构应对LLM攻击

这篇研究还提出了一种自动数据生成方法，来演示这种层次指令的跟踪行为，从而教会LLM有选择地忽略权限较低的指令。根据下图的实验结果，依然将鲁棒性提高了34%，这说明LLM学会了指令层次的结构，对未曾见过的pro…

视角先锋队 2024-04-29

华为智慧助手小艺未来可理解复杂意图指令 | HDC 2023

钛媒体App8月4日消息，HDC2023大会上，华为对外表示智慧助手小艺将具备AI大模型能力。在AI大模型的赋能下，小艺在智慧交互、高效生产力提升和个性化服务三个方向持续增强，支持理解复杂意图指令等功能，实现从标准指令到自然对话的升级。

华为 AI大模型

钛媒体快报 2023-08-04

近期资讯

从时区数据库的角度理解时区和夏令时

本文将从时区数据库出发，探究时区和夏令时的原理，结合 Python 内建 datetime 模块的代码实例，尝试说清楚时区和夏令时到底是什么。

VeSync技术 2024-12-31

Xmind脑图实践

本篇文章将探讨在集成Xmind脑图功能时，使用kityminder遇到的一些问题和技巧，帮助你面临Xmind开发任务时，能够快速上手并避免潜在的坑

五四 2024-12-30

Vite 构建 Vue3 组件库之路: 手写签名组件

本文介绍了一个网页手写签名组件的实现，包括画布绘制、线条自定义、设备兼容、事件处理，使用 defineExpose 暴露重置、获取数据和确认签名等功能，可灵活定制布局。

慢知行 2024-12-29

一文搞懂Java中的泛型擦除

在 Java 开发的日常中，大家想必都用过泛型。像创建一个只能存放字符串的集合：List list = new ArrayList();，这里的泛型让代码看起来就很 “靠谱”

J2K 2024-12-31

Kubernetes: NetworkPolicy 的实践应用

一、Network Policy 是什么,在云原生领域有和作用 Network Policy 是 Kubernetes 官方提出来的一种网络策略的规范，用户通过编写符合对应规范的规则来控制 k8s 集

萌萌酱 2024-12-31

揭秘职场薪资秘密：用Python全面解读BOSS直聘招聘数据

揭秘职场薪资秘密：用Python全面解读BOSS直聘招聘数据前言随着求职市场的数字化转型和数据分析的广泛应用，从招聘网站获取数据并进行分析已经成为个人职业发展和企业招聘的重要工具。在本系列博客中

Java移动技术栈 2024-12-31

我的2024年度总结：领证、买房、裁员、面试找工作、未来...

大家好啊，我是summo，2024也接近尾声了，是时候需要总结和反思一下了。今年发生了太多的事情，而且每一件都是人生大事，比如领证、买房、裁员、面试找工作等等，有些事情思考了很久才做如领证、买房，有

summo 2024-12-31

【JVM系列】垃圾收集器介绍

如果说收集算法是内存回收的方法论，那么垃圾收集器就是内存回收的具体实现。不同的虚拟机所提供的垃圾收集器可能会有很大差异，以 HotSpot 虚拟机为例，所包含的垃圾收集器可以用如下图来概括。

志哥聊技术 2024-12-31

理解Jetpack--Hilt

上篇文章我们讲解了Dagger2这把“匕首”，下面我们继续了解如何给“匕首”装上“刀柄”。如果还没有看过上篇对Dagger2的分析，建议先看对Dagger2的分析，再来看这篇效果更佳。揭开Dagger

时亚东 2024-12-29

2024「年终总结」——欠薪、结婚、仲裁...

前言一转眼日子已经来到 24 年 12 月份。 2024 年也到达了尾声，想的抽空写一篇年终总结吧，但是写好了标题后，迟迟没有行动。直到今天是 27号的晚上，想的怎么也得在1号之前写完发布吧，让时

尖椒土豆sss 2024-12-31

推荐体验

AIGC重要产品

AI对话：类ChatGPT产品体验

好用的AI绘画工具

火热的AIGC产品

AIGC近期要闻

大公司发布的大模型产品都有哪些？

政府对AIGC的扶持政策

AIGC对就业的影响：我们会失业吗？

AIGC产业影响

AIGC对内容创作的影响

AIGC对绘画设计领域的影响

AIGC对各行各业的影响

意见反馈

Copyright © 2025 aigcdaily.cn 北京智识时代科技有限公司版权所有京ICP备2023006237号-1