简单总结下我自己看大语言模型(LLM)论文常见(我已经看腻了)的话术和LLM论文自身的写作模板。
1.自动评估难、人工评估贵,所以我们用LLM评估LLM/自动标注难,人工标注贵,所以我们用LLM标注数据
2.我们的模型性能达到GPT-3.5的水平,但是还不及GPT-4/我们的模型在部分指标下甚至能和GPT-4一样甚至更好
(啊,没错,其实很多模型真的就是奔着在某一方面刚好比GPT-4差一点去的,因为如果真的在这方面超过,往往意味着泛化性能会差到不能看)
3.经过我们的评估,GPT-4表现最好,GPT-3.5次之...(基本所有评估都是这个结果,GPT-4还是强的啊)
4.框架:我们需要提升LLM在某个领域上的表现,所以我们用LLM(早期是GPT-3.5,现在基本都是GPT-4了)处理数据,然后微调
5.对于CoT/ICL/few-shot来说,示例的正确与否并不是影响性能的最主要因素,关键在于示例的结构以方便LLM识别任务
6.SFT阶段重要的数据复杂度、质量与多样性,而不是数据数量
7.GPT-4虽然表现良好,但是距离人类水平依然有些差距
8.框架:虽然LLM很多,但还有领域没有探索,所以我们做了benchmark
9.LLM的偏见、幻觉等问题留作未来研究
10.参数量达到XX才有XX现象(涌现)
之后可能会在评论区进行补充(每一篇专栏最多修改3次)