前言前两天看到这张图,又刚好拿到了文心一言的4.0内测号,就想着把新版国内御三家横向对比测评一下。前一段时间也一直在研究复杂提示词(结构化提示词)向国内大模型迁移适配的问题,索性一起做了。第一部分:测评机制一、测评目标测评三家国产大模型,以同组提示词下ChatGPT 4.0生成的内容做对标参照智谱清言文心一言 4.0Kimi Chat二、能力考量复杂提示词理解和执行(结构化提示词)推理能力(CoT表现)文本生成能力(写作要求执行)提示词设计能力(让模型设计提示词)长文本归纳总结能力(论文阅读)三、测评轮次...【查看原文】