刚刚简单看了一下原文,原文主要内容还是给出了一类用于代码生成的diffusion model并进行了评测分析,ChatGPT只是作为对比评测的baseline之一引入,对于表格中ChatGPT的20B参数量这个数据怎么得来的似乎没有任何解释或者引用,感觉就是作为一个很显然的已知量给出。
虽然说微软和OpenAI有着千丝万缕联系,微软的研究人员能拿到ChatGPT的详细技术细节也不意外,但终归不是OpenAI的官方开发人员出来澄清,严格来说仅凭这篇文章我们也不能断定ChatGPT就是20B级别模型,可以继续等一波后续OpenAI开发者大会给出更多官方爆料。
不过如果消息属实,其实也并不感到意外,早在今年2月就有外网消息透露ChatGPT是20B级别模型
ChatGPT is not just smaller (20 billion vs. 175 billion parameters) and therefore faster than GPT-3, but it is also more accurate than GPT-3 when solving conversational tasks a perfect business case for a lower cost/better quality AI product.
Is Bigger Better? Why The ChatGPT Vs. GPT-3 Vs. GPT-4 'Battle' Is Just A Family Chat
知乎也有大佬从技术和API价格角度推测了其参数量级大约10B级别
ChatGPT 和 Whisper API 已开放接口,单价骤减 90% ,有哪些值得关注的信息?
对于这个消息,最值得警惕的应该是国内厂商,据我所知目前国内各家公司争先恐后开发的千亿结巴大模型中基本都在使用ChatGPT清洗和标准数据,虽然学术界和业界之前不是没有使用小模型辅助训练大模型的案例,但是大多数都是使用个别领域的专业模型训练通用模型。用一个小参数的通用模型来训练更大规模的通用模型,从直观上来说总觉得不是很make sense
对个人和许多小开发团队来说,可能这也是一件好事,说明模型也不一定是越大越好,知识蒸馏和RLHF等算法、技术依然起到了很大作用,可以让我们在这些方面努力从而在算力不是很充足的情况下依然能做出有价值的成果。