12月28日,2023人工智能大模型基准测试科创发展大会暨中西部数字经济大会(下称“大会”)将在成都市正式举办。
“大模型·大未来”。一方面,大会邀请权威机构及高校专家组建了“大模型基准评测专家委员会”,将对国内大模型开展评测工作,深入了解当前国内大模型的能力水平以及大模型企业发展情况。另一方面,头部企业、专家学者、国内权威标准制定机构等将在大会齐聚一堂,共同探讨行业发展趋势,搭建产业上下游沟通平台,推动大模型技术的进步。
近日,香港中文大学(深圳)数据科学学院助理教授、深圳市大数据研究院研究科学家王本友接受了红星资本局的专访,他表示,国内AI大模型的蓬勃发展是时代背景下的大势所趋,这将为各行各业带来新的机遇并注入新的活力,但同时我们也必须认识到其中可能存在的问题和风险。
王本友认为,一个普适性强、认可度高的标准,除了需要满足基本的技术评测外,更应该符合用户的实际需求和体验,要相信用户用脚投票的“金标准”。
以下是对话实录:
做大模型要做一些不一样的探索
失败的尝试不要紧,重要的是创新
红星资本局:我们以前会觉得AI大模型遥不可及,为什么好像突然间全国就“百模大战”了?这个爆发的突破口是什么?
王本友:我觉得这个突破口有两点非常重要。第一点,开源社区提供了很多底座模型,而底座模型需要非常多的卡,这是一般公司难以负担的。但有一些公司可以,比如美国的meta公司(原Facebook),它希望像安卓或是iOS一样,成为国内开源社区的龙头,来获得相关收益,所以它就会一直持续地发布底座模型,让大家在此基础上搭建生态。但现在的底座模型离我们解决实际问题还是有一定差距,因为这其中涉及到一个技术,叫指令微调(instruction tuning),而这项工作以前需要人工标的,难度很大。训练效果也不好。
所以就出现了第二个契机,也就是ChatGPT的API的问世,它可以快速地生成非常多的指令,让我们收集指令微调的数据更加方便。那么综合两个因素下,大量的大模型得以发布,形成了大家说的“百模大战”。
红星资本局:针对“百模大战”这个情况,今年乌镇互联网大会上,百度董事长李彦宏也提到,不建议大家重复造轮子、从头开发大模型。对于他的观点,你怎么看?
王本友:如果这个模型是我们真的需要的,那当然要去训练。但如果这个东西跟已有的模型并没有什么实质差异,只是把人家的数据拿来重新跑一遍,然后声称是一个新模型,这个是没有意义的,还不如大大方方地把别人的开源模型拿来做增量,更环保。
也就是说,我们做大模型应该要做一些实质的、不一样的探索,比如新的架构、新的技术特色探究、新的想法和结论,失败的尝试不要紧,重要的是创新。
现在有的企业会觉得,我有钱、有好几万张卡,就可以把别人的东西重复一遍然后归为己有。这种行为是在浪费人类的资源,没有给世界带来任何价值,应该被谴责。他们以为这些资源属于自己,不是的,它只是暂时保存在他那而已。
红星资本局:我们了解到你也有团队正在研究大模型,能简单介绍下你的主要项目吗?主要应用于哪些方面?有何特别之处?
王本友:我们现在主要的大模型项目是凤凰大模型和华佗GPT。从发布顺序来看,先是凤凰,后华佗,但实际上华佗的内部立项时间是要早于凤凰大模型的,研究时间也更久。
凤凰大模型出来的时候,国内的模型还不足10个。它和其他模型相比,特别之处就在于,这是当时第一个支持多语言的大模型。很多大模型包括ChatGLM、文心一言等在内,都是中英双语,但我们可以支持十几种语言。
不过随后我们就看到了国内大模型的蓬勃发展,同时我们也希望我们的产品可以解决一些实际的问题,于是就将后续更多的精力放在了华佗大模型上。
当然华佗大模型也走过一些“弯路”,最开始我们考虑面向市场做医疗健康咨询,但其实这个想法是欠考虑的,因为当用户直接使用大模型求助医疗问题时,很多时候他是无法鉴别输出结果好坏的,还会存在其他的伦理道德风险。所以我们及时调整了方向,先在医生端使用,去研究怎么辅助医生提高工作效率,提高就诊环节中预问诊、分诊、开处方等各方面的效率,另一方面,医生的专业能力也可以对大模型的反馈结果予以纠正。
今年,第二代华佗GPT成功通过了2023年十月份的国家执业药师考试和其他几乎所有的医疗资格考试,并取得了优异成绩。在中文医疗场景上,华佗GPT比国际知名的GPT-4表现更好,而且我们是用真人医生做评估的,都获得了专业的好的反馈。
目前,华佗GPT已经接入深圳市龙港区人民医院的互联网医院,未来我们希望把应用能推广开,接上实体机器,方便更多的医疗使用场景。
现在做大模型的语言主要是中英文
小众语言的大模型需求应该得到聆听
红星资本局:根据朴素的理解,大语言模型的立足根本还是语言。此前也有声音认为,现实语言资料的数量多寡直接影响了AI模型的学习效果。比如,ChatGPT和国内AI大模型及应用相比,一个天然的优势是英文资料比中文资料海量得多。你怎样看这个问题?我们应如何应对?
王本友:当然会有一些影响,但我感觉影响没有大家想象得那么大。
从更高层级来讲,我觉得可以通过英文训练来提高AI的知识储备能力,然后再通过训练中文交流的能力,让知识在中文环境中也迁移出来。比如LLaMa大模型对中文一窍不通,但如果你用英文问它“什么是《本草纲目》”,它其实是可以回答的,它是了解这个知识的。也就是说,我们可以用大数量级的语言来提升模型质量,然后转为用户需要的语言。
当然这个过程里,一定会有一些区别。一方面是翻译本身就会损失掉一些原文的细节;另一方面是在不同的文化背景下,同一个问题或者一些存在争议的问题,可能会得出不同的答案,而这个现象的本质其实是现实世界中文化话语权的争夺。所以我觉得还是要鼓励大家去发表不同的言论和观点,让中文的资料更加充分,这对我们训练本土大模型是大有好处的。
红星资本局:基于上个问题,也有人认为,受投喂语言资料和生成效果的影响,将来可能会造成一些小众语言在数字上、AI上的消失,进而损害世界文化多样性。你怎样看这个问题?是否存在这样的风险?
王本友:这种风险实在太大了。大家可以看到,现在全世界做大模型的语言主要是中英文,很多小众语言的国家和地区是没有自己大模型的。
我们团队和KAUST合作开发沙特的阿拉伯语ChatGPT(AceGPT),发布时是当时最好的阿拉伯语大模型。当时就有很多做小语种的人来跟我们交流,可以看出,他们也需要在AI上的话语权,这种诉求是应该被聆听和重视的。
但坦白讲,我个人认为从时代的潮流来看,我们只能尽可能地、尽力地保护小众语言和文化遗产。但从更长的时间线上看,受全球化和AI引入的影响,它们的前景是不容乐观的,这个趋势是不以人的意志为转移的。
大模型评测标准应包含三个方面
要对齐用户实际需求和体验
红星资本局:针对现在国内的“百模大战”,业内很多人都认为应当推出一个评测标准,你认为大模型评测标准有存在的必要性吗?什么样的评测标准才是适用性强、认可度高的?
王本友:肯定是需要一个标准的,但如何制定标准也是一件棘手和复杂的事情。我觉得这个标准应该包含这么几个方面吧。
首先是要衡量大模型自我进步的速度,这是一个动态的标准。在这个标准下模型的结果是否能节节攀升,比如有接近ChatGPT,超过ChatGPT等等,而当我们把ChatGPT作为标准时,会发现ChatGPT这个标准本身也在实时进步和更新。
第二,这个标准要对齐到用户的实际需求和体验,不应该是一个浮在纸面的,仅仅是跑一跑数据这么简单。如果企业花很多时间和资源将大模型打造成符合某个标准下的好的大模型,却发现根本不是用户需要的,那这些努力其实是南辕北辙。甚至我们可以引入付费结果的标准,如果用户觉得ChatGPT好用,他就会每月花20美元购买。这是真正的用脚投票,是市场的选择,是真正的金标准,而我们应该相信金标准。
第三,或许我们可以借鉴人类考试的方式去评测大模型。比如我们的第二代华佗GPT大模型就通过了国家执业药师考试,其实这个考试里有些题目和答案真的很难获取,不是什么简单的搜索引擎就可以完成的,是需要模型“自我学习”得出结论的。那假如说我们让大模型参加每年的高考,它都能考700分,是不是也可以作为一种证明呢?
红星新闻记者 谢雨桐
编辑 余冬梅