爆火的大语言模型训练成本
大语言模型是指能够处理大量自然语言文本数据的深度学习模型。它们通常由数十亿或数万亿个参数组成,并且能够预测或生成自然语言文本。这些模型通常基于递归神经网络(RNNs)或变压器(Transformer)架构,这些架构可以学习在大规模语料库中出现的语言模式和规律。
在最近的几年中,大语言模型已成为自然语言处理领域的一个热点研究方向。其中最著名的是OpenAI的GPT模型系列,包括GPT、GPT-2和GPT-3等。这些模型可以进行许多任务,例如文本生成、文本分类、问答、机器翻译和对话生成等。
由于其庞大的规模和需要大量的计算资源进行训练,大语言模型通常需要使用分布式计算平台,如GPU、TPU和多个计算机集群来进行训练。
ChatGPT的爆火也让人们对训练模型的成本赶到好奇,训练一个很会说人话的ChatGPT大概需要花费多少资源呢?
训练ChatGPT所需的资源取决于许多因素,包括模型的大小、数据集的大小和质量、训练算法和计算资源的可用性等。使用最新的深度学习硬件(如GPU、TPU等),训练GPT-3所需的时间和成本非常高。例如,OpenAI在2019年使用了超过285,000个CPU核心和10,000多个GPU芯片,花费了数百万美元来训练GPT-2模型。而目前最大的GPT-3模型则需要更多的计算资源。
值得注意的是,训练GPT模型的算力是巨大的,而且需要大量的数据来进行训练。这也是为什么训练这些模型只能由少数大型技术公司和研究机构完成的原因之一。
为了降低训练成本,许多尝试正在进行。
微软发布了一个可以在模型训练中加入完整RLHF流程的系统开源框架——DeepSpeed Chat。只要花1620美元,就可以通过混合引擎DeepSpeed-HE,在2.1天内训练一个OPT-66B模型。
Web LLM——降低大成本的创新途径:能在浏览器中运行的 vicuna-7b 大语言模型
Web LLM 是一个将大型语言模型和基于 LLM 的聊天机器人引入 Web 浏览器的项目,希望通过 Chrome 测试版中刚刚发布的全新 WebGPU API,在浏览器内运行 vicuna-7b-delta-v0 模型。该项目最大的亮点是,一切都在浏览器内运行,无需服务器支持,并使用 WebGPU 加速。
Web GPU API是由Khronos Group领导的WebGPU工作组开发的,该组织也是Vulkan、OpenGL和OpenCL等图形和计算API的制定者。Web GPU API的设计目标是提供与现代GPU架构的紧密集成,从而提高Web应用程序的性能,并且与现有Web技术,如WebGL和WebVR等技术兼容。
Web GPU API提供了许多与现代GPU架构相匹配的新功能和编程模型,例如流水线和并行计算,这可以让Web应用程序更高效地利用GPU的计算能力,从而实现更好的图形效果和更佳的性能。
通过测试可以看出,Web LLM 的处理速度非常快,每秒大概能够处理 15 个 token。并且能够基本做到和ChatGPT相似的功能。
而为什么要将大语言模型应用于Web上?主要还是由于其所具有的数据泄露的风险性,将大语言模型放置于浏览器沙盒中,可以规避一定程度上的风险。
操作系统层面的沙盒的含义就是操作系统对进程的可访问的内存地址所做的限制,限制进程可访问的内存在其被分配的内存地址区间内,而不允许操作其他的内存地址,从而提供安全层面的防护。到浏览器层面,本质原理没多大变化,实践层面可能会根据浏览器环境有所变化,比如限制脚本操作本页面之外的其他页面的DOM,限制访问非同源文档,限制向非同源服务器发送ajax等等,目的依然是安全。
在Web上运行LLM向我们展示了一种可能性:终于能够在浏览器内运行一套功能强大的大语言模型了,这降低了人工智能模型训练的成本的同时又保证了模型训练的安全性。
更多精彩内容请关注“飞算科技”微信公众号。
宇婷DayDayUp 2023-12-28