编译丨诺亚
大语言模型(LLM)作为年度热词,已经充分向我们证明了其影响力。如今,一场无声却极具开创性的变革正在兴起。小语言模型(SLM)的兴起正逐步挑战着大预言模型的主导地位。相较大模型,小模型对于训练数据、内存、算力的要求较少,但高质量的“小数据”同样能够让小模型表现出良好的语言理解和推理性能。
当前,很多公司都在关注小模型,因为它们在可访问性、计算效率和适应性方面的特性,使它们非常适合部署在边缘设备和云环境中,进而开创一个人机交互的新时代。在今年Ignite大会上,微软CEO萨蒂亚·纳德拉在会上宣布将自研小模型 Phi-2 完全开源,并表示:“微软热爱SLM”。这也为此后其他小模型的推出开了个好头。回顾2023年,我们来看看今年出现了哪些值得关注的小模型。
今年7月发布的Meta AI第二代开源大型语言模型Llama 2拥有令人印象深刻的340亿个参数,较小的70亿参数模型是专门为研究目的而制作的。与它的前身相比,它显著地增强了模型的性能、效率和可访问性。
通过演示文本生成、翻译和代码生成的改进,Llama 2迎合了广泛的NLP任务。该模型的多语言功能和针对特定任务(如Code Llama)的微调版本的可用性,将其应用范围从机器翻译扩展到聊天机器人和内容创建。
当前的许多开源模型都是建立在Llama系列模型之上的。
在Ignite 2023大会上,微软宣布了其在小型语言模型方面的最新进展,推出了Phi-2和Orca。Phi-2是Phi小型语言模型(SLM)系列的最新迭代,拥有令人印象深刻的130亿个参数容量,并为提高效率和可扩展性而量身定制。Phi-2是为边缘设备和云定制的,在文本生成、语言翻译和信息性问答方面表现出色。
Orca模型则是一个只有13亿参数但具有大模型推理能力的小模型。Orca在ChatGPT 生成的五百万数据集上初步训练,然后再在 GPT-4 生成的一百万数据集上进一步训练,它主要学习GPT-4对结果逐步解释的能力和循序渐进的思考过程以及对其他复杂指令的响应能力,并由ChatGPT当助教协助指导。
Phi-2和Orca是微软致力于推进小型语言模型的一个缩影,有望在自然和可访问的计算领域带来一场革命。
这是由Stability AI 公司推出的一个70亿参数的语言模型,利用来自Meta AI的Llama模型基础,并在Orca风格的数据集上进行微调,在各种NLP任务中表现出强大的性能,包括文本生成、翻译、问答和代码完成。
Stable Beluga 7B能够理解并响应多种语言,增强了其全球影响力和适用性。该模型的未来承诺进一步增强性能,增加采用和集成,开发专用版本,并继续为开源社区做出贡献。
X Gen是一个由Salesforce AI首创的70亿参数的小模型,主要专注于对话和各种任务,如文本生成、翻译和代码完成。凭借70亿参数的紧凑尺寸,X Gen提供了计算效率,促进了更广泛的部署。
拥有多语言功能和Salesforce AI的持续开发努力,X Gen成为一个有价值的工具,应用范围从创意写作、内容创作到软件开发和语言学习。
阿里巴巴今年发布的Qwen系列,作为一个强大的语言模型家族脱颖而出。该系列具有参数大小和功能不同的各种模型,可用于文本生成、翻译、问答、视觉和语言任务以及音频处理等各种应用。
这些模型的关键特性包括高性能、多语言支持和开源可用性,使研究人员和开发人员可以访问它们。阿里巴巴的Qwen系列包括Qwen-1.8 b, Qwen- 7b, Qwen- 14b和Qwen- 72b。
Alpaca 7B是 LLaMA-7B 的微调版本,以其卓越的紧凑性和成本效益而闻名,建造成本不到600美元。尽管Alpaca 7B的体积很小,但它表现出了相当不错的性能,在某些任务中可以与更大的模型相媲美。
这种可负担性和效率使Alpaca 7B成为各种应用程序的可访问选项,展示了在预算友好的框架内对自然语言处理产生影响的发展潜力。
这是创业公司Mosaic ML推出的70亿参数小型语言模型,位于代码生成和创造性文本格式的交叉点,为程序员和艺术家提供专业功能。MPT旨在提高生产力,擅长生成精确的代码片段,自动化任务,并通过各种创造性的文本格式激发艺术表达。
它的潜在应用跨越了软件开发、创意写作、内容创建、教育和可访问性工具,展示了MPT在技术和创意领域的适应性和承诺。
由阿联酋技术创新研究所(TII)制作的Falcon 7B是Falcon系列自回归语言模型的杰出补充,因其出色的性能而著称。为了提高聊天和问答等简单任务的效率,这个70亿参数的模型进行了优化,以处理大量文本数据语料库,包括大约1万亿token。自发布以来,Falcon模型已经在Hugging Face排行榜上停留了很长一段时间。
Zephyr由Hugging Face设计,是一个70亿参数的小型语言模型。实际上是在公共数据集上训练的 Mistral-7B 的微调版本,但也通过知识蒸馏技术进行了优化。
专注于对话交互被证明是聊天机器人、虚拟助手和各种交互式应用程序的理想选择。其紧凑的尺寸确保了计算效率,使其可部署在不同的平台上。Zephyr在多样化数据集上的训练使其能够理解和响应多种语言,从而扩大了其全球适用性。
参考链接:https://analyticsindiamag.com/9-best-small-language-models-released-in-2023/