近些天大语言模型炸裂的消息不少,昨天就直接写了三篇专栏,今天不想写复杂的了,就杂谈。
1.国内大模型评估偏心?
来源于今日动态:
最近一个国内模型大测评的事件引起了很多争议,在榜单中,百度文心一言倒数第一,被ChatGLM-6B吊打(我个人用ChatGLM-6B做过不少实验了,甚至数据出现中英文掺杂都是常有的事情)看测评方法的话,其实是做选择题。之前我也讲过,现在很多评估的数据之所以好看,是因为都是以选择题的形式让模型回答,甚至直接根据选项计算输出概率的,这些“技巧”甚至都不写在论文里。不过做选择题实际上是BERT的遗留问题,因为选择题适合考察BERT-like模型的理解能力等。其实根源在于目前仍然没有一套好的方法来评估不同的大模型的综合性能,每个模型因为数据集、架构、RLHF的标注等多种因素的差别,有各自擅长的领域,甚至输出风格、UI设计等都会导致不同的人对不同的模型性能有自己的判断标准,例如我就认为星火比文心厉害一些
2.大模型卷输入窗口?
被称为ChatGPT最强竞品的Claude迎来了全新的升级,输入窗口扩大到100K,比GPT-4的32K要大
输入窗口大的好处是一次可以输入更多的东西了,但这并不好做。
之前符尧大佬在万字拆解中认为GPT-3.5有很大可能是重新训练了一些模型,甚至可能有比GPT-3的1750亿更大的模型,一个理由是GPT-3.5的一些模型输入更长。而不修改模型架构而增大输入窗口数在当时看起来似乎也并不现实。
然后最近一篇论文就出来搞事情了:
没错,直接在不改变模型架构的基础上卷到了1M的输入窗口,据说现在还有卷到2M甚至更高的。这种方法的思路也很简单:
就是把整个文本分成很多小段,然后前面加个记忆模块用以对前面的输入做“总结”。
但这种方法对性能影响比较大,Claude等模型扩大了输入窗口是这种方式吗?还是其他方式?目前还不清楚(在我们不清楚的时候别人已经在卷了)