ChatGPT 等聊天模型已显示出令人印象深刻的功能,并已在众多领域被迅速采用。然而,这些模型只能通过受限的 API 访问,这为该领域的进一步研究和进步设下了重重障碍。此外,由于缺乏多轮对话的高质量聊天语料,更是加剧了这个问题,进而限制了改进和评估这些模型的可能性。
不久之前,Meta「开源」了一个新的大模型系列 ——LLaMA(Large Language Model Meta AI),参数量从 70 亿到 650 亿不等。130 亿参数的 LLaMA 模型「在大多数基准上」可以胜过参数量达 1750 亿的 GPT-3。然而从 ChatGPT 和 GPT-4 的发展中我们可以看到,高质量的标注数据仍然至关重要,OpenAI 对数据和标注工作下了很大力气。
对于学界来说,很难在短期做同样的事。我们不禁会问有没有更好的方法呢?此前,机器之心报道的一篇文章中,来自加州大学圣迭戈分校、中山大学和微软亚研的研究者提出了「
白泽
」。具体来说,他们提出了一个自动收集 ChatGPT 对话的流水线,通过从特定数据集中采样「种子」的方式,让 ChatGPT 自我对话,批量生成高质量多轮对话数据集。其中如果使用领域特定数据集,比如医学问答数据集,就可以生成高质量垂直领域语料。
白泽目前包括四种英语模型:白泽 -7B、13B 和 30B(通用对话模型),以及一个垂直领域的白泽 - 医疗模型,供研究 / 非商业用途使用,并计划在未来发布中文的白泽模型。白泽的数据处理、训练模型、Demo 等全部代码已经开源。
为了更好的帮助大家了解这项研究,机器之心最新一期线上分享(即本周二晚上 8-9 点)邀请到了论文一作许灿文,为大家解读他们近期的工作 「白泽」。
分享主题:Baize 白泽 ——ChatGPT 时代的开源解法
嘉宾简介:许灿文,加州大学圣迭戈分校博士候选人,曾于 Hugging Face 任研究员,并在 Google Research、微软研究院等实习。屡次担任 ACL、EMNLP、NAACL、NeurIPS、ICML、ICLR、WWW 等顶会审稿人。
分享摘要:本次主要分享开源聊天模型 Baize 白泽提出的「自聊天」数据收集管线以及训练细节,详细分析与其他开源聊天模型的异同。此外,作者还将分享通过训练 Baize 模型,获得的对于聊天模型的新理解、新发现,对于如何防止模型被滥用、如何减少有害输出方面的心得和思考。