我们能隐约感知出一个心得:目前ai大模型的数学指标,可鞥是大模型的性能最接近的可信指标,而不是所谓的各类排名,刷分刷出来的各类哈哈一笑的榜单,要知道,lmsys的榜单其实是人刷出来的。。。anyway 你不能信任它。唯一可信的几乎只有逻辑和数学指标。 对人类语言的执行精度,模糊识别等。 目前最新的swe bench里,有公司号称做到了30%,而之前的几个报道里最好成绩是不到20%,这里先不管swe bench lite啥的。 代码辅助的测试工具,几乎等于数学的可用性情况,包含算法等。因为我们发现,现在流行...【查看原文】
CCTV兵器科技频道 2024-11-20
腾讯科技 2024-11-20
武器科技 2024-11-19