浅谈一下大模型与小模型,也是师兄昨晚在群里发表了一些看法,于是我也来写一点。个人看法。
直接上结论:大模型要发展,小模型也要发展
(1)首先我们要承认大模型确实在很多地方表现出了强悍的能力。并且,我们还可以通过提示工程或加配件等方式进一步提升性能,甚至已经有办法往里塞多模态了。
ChatGPT显示出来的另一个很惊艳的优势是它可以记住上下文并根据反馈来修改答案。关于自然语言理解、世界知识等能力也不多说了,能够一下子超越大部分的模型。
并且,事实是大模型已经在很多场合进行应用了,ChatGPT本身也是非常成功的开放域对话机器人,而且真的很好玩。
(2)但是并不是说大模型就没有自己的问题。我们知道ChatGPT是decoder-only的架构,并且很多时候是不听话的,你想让它单纯回答个“是”和“否”,很多时候它还是会给你返回一大段话。因为prompt不是设定,只是使得答案尽量符合我们预期的东西罢了。
且不提幻觉、数学能力差劲等被吐槽很多的问题了。
(3)一个事实是,大模型并不总是能战胜小模型,特别是在某一方面微调过的模型。这都是有论文探究过的(其实不用探究我就猜得到)。
我之前经常做一些比喻,例如ChatGPT的惊艳是因为它做到了用橡皮泥做雕刻或搬起一座山做雕刻,也就是能做一些“精细”活。然而这些活本来就是一些小模型擅长的,虽说大模型可以根据反馈调整自己的输出,但总归是要时间的。
(4)大模型很可能清洗一遍业界。未来的发展有可能是大模型对行业进行一波清洗,很多问题都可以换用ChatGPT这样的大模型来解决。大模型也可以有很多,例如视觉大模型、交通大模型,他们以不同模态或行业细分,完成不同的工作。
(5)但大模型无法完全取代现有模型。就像一个矿泉水瓶,只填充石头是填不满的,你还可以填沙子,填完沙子还可以再填水。总会有某个领域、某个应用是不适合大模型的,小模型的研究依然不会停止。
(6)就拿ChatGPT很擅长的自然语言理解来说吧。我们惊艳与ChatGPT强大的语言理解能力,但很多小模型是可以做的更好的,这部分的研究当然要进行下去。但相对来说重要性就会降低。师兄的举例是现在研究一些小模型就像前几年研究SVM一样,是可以研究的,但不是重点。
(7)最后,大模型本身也会发展。由于硬件条件的限制,大模型已经接近了规模的极限,怎么突破这个限制变得更强也是要讨论的问题,包括怎么结合大模型和小模型也是未来的研究点。当然大模型也不是唯一出路,万一过不久就真的不火了呢?都是有可能的,所以直接全部砍掉小模型当然不是理智的选择。
花师小哲-中二 2023-02-13
花师小哲-中二 2023-03-10
花师小哲-中二 2023-05-06