近日,真格基金管理合伙人戴雨森接受《硅谷 101》采访时表示,根据真格基金做的一套针对大模型的测试,在三月份的时候,GPT 3.5 的分数是 60 多分,而 GPT 4 则是大概 70 分,国产的文心一言大概是 20 分左右的水平。前两天的测试结果显示,GPT 4 已经可以打 80 多分了,商汤的模型已经到了 50 分的水平。这说明国产大模型得分一开始和 GPT 差距很大,但现在的差距的确在不断缩小。但这里面同时也会有一个问题,就是说模型的提分会不会有个平台期,可能你从 20 追到 50 是容易的,但 50 到 80 可能就很难了。