21世纪经济报道 记者郑雪 北京报道
开源还是闭源,对于人工智能企业而言,是个问题。谷歌、Open AI打得火热之际,Meta则凭借高调开源Llama 2,重回人工智能大模型的前列。
可以看到的是,一段时间以来,国外人工智能的开源动作频频。谷歌旗下的DeepMind在官网发布了Open X-Embodiment 数据集和 RT-X 模型;微软则与开源模型库公司Hugging Face达成深度技术合作,扩大了ONNX Runtime的支持范围。国内来看,监管表态和相关政策文件鼓励支持人工智能开源;实践中,以高校和科研机构为代表的人工智能模型开源步伐较快。
大模型竞赛中,开源、闭源之战才刚开始。
谷歌、微软发力开源
人工智能竞争在全球激烈竞争,开源成为一股不可忽视的潜在力量。
如何理解开源?具体来看,开源多以开放源代码为主,多适用于软件。以开源的方式,通过集体协作和共同智慧以推动创新。针对开源的商业使用、知识产权、分发等问题,多通过开源协议进行约束。
值得一提的是,人们在AI领域的开源和闭源选择上存在着分歧。对于人工智能来说,什么是开源(Open Source)仍然模糊,模型权重、收集数据的方式、训练软件、推理代码等,同时对于庞大而精细的人工智能而言,一般人知之甚少,如何开源、哪些内容可以开源、开源到何种程度等问题等仍有待实践回应。
人工智能发展实践中,不少企业纷纷试水开源。前有Meta高调发布开源大模型LLaMA的商用版本,通过“放手一搏”重回人工智能前列位置;后有谷歌、微软等纷纷开源应对。
近日,谷歌旗下的DeepMind在官网发布了Open X-Embodiment 数据集和 RT-X 模型。据介绍,通用机器人模型RT-X由控制模型RT-1-X和视觉语言动作模型RT-2-X组成。RT-X在特定任务(搬运东西、开窗等)的工作效率是同类型机器人的3倍,同时可执行原始数据集中不存在的额外技能。
其中,构建多样化机器人演示的数据集是训练通才模型的关键步骤,Open X-Embodiment 数据集也随之开放。据介绍,这是迄今为止最大的开源真实机器人数据集,通过汇集 60 个现有机器人数据集构建而成。它包含超过 100 万条真实的机器人轨迹,涵盖 22 个机器人实施例,展示了 527 项技能(160266 项任务),从单机器人手臂到双手动机器人和四足机器人。
对于微软而言,开源动作则选择与Hugging Face携手。Hugging Face是一家开源模型库公司,凭借 Transformers 模型库和活跃的人工智能社区得到关注,被认为是开源替代ChatGPT中最具实力的一员。有媒体报道称,8月末Hugging Face上的预训练模型数量已增长到了超过30万个。
微软已与Hugging Face达成深度技术合作,扩大了ONNX Runtime的支持范围,支持90多种架构的大模型,包括Llama、(类ChatGPT大语言模型)、Stable-Diffusion(扩散模型)、BERT、T5、RoBERTa等,当下最流行的11种大模型。
何以开源让科技企业和相关从业人员着迷?通过开放、透明、共享以及创新等,带来未来生态构建的想象。正如Meta在其官网文章中表示,“我们相信,开源的方法是当今人工智能模型发展的正确途径,尤其是在技术进步日新月异的生成式领域。”
国内开源迈向何处?
开源还是闭源,无关乎好坏。最典型的代表当属移动互联网时代诞生的苹果系统和安卓系统,前者闭源,其给予用户非同寻常的体验和感受,收获大批用户;后者则依靠开源拿下手机市场的半壁江山。
中国人工智能大模型的开源发展如何?根据《中国人工智能大模型地图研究报告》(以下简称《报告》)显示,开源开放是人工智能研发协作的重要模式,也是中国人工智能发展重要理念。中国大模型研发团队积极推进大模型开源发展,目前已经有超过半数大模型实现开源。北京、广东、上海三地开源数量和开源影响力均居国内前三。
目前来看,国内商业力量在人工智能模型的开源建设上表现略为平淡。其中不仅有商业因素方面的考量,人工智能大模型的开发是典型的“大力出奇迹”的代表,对于公司资金等综合实力要求较高,在人工智能商业化前景仍在探索时期的企业而言,是否开源仍值得考量。同时,开源人工智能如何确保安全、如何厘清相关责任义务仍有待学界和业界探索。
正如《报告》显示,目前大模型开源更多是高校和机构在推动,如清华大学的ChatGLM-6B、复旦大学的MOSS已形成较高的模型开源影响力。
不可否认的是,仍有相关商业力量助力开源。如《报告》指出百度的文心系列大模型已形成较高的模型开源影响力。又如开源动态人工智能的开源社区建设方面, 2022年云栖大会杭州上,阿里达摩院联手中国计算机学会(CCF)开源发展委员会共同推出魔搭社区 ModelScope,累计开源包括阿里通义大模型系列、澜舟科技的孟子模型、智谱AI的中英双语千亿大模型等15款支持中文的开源大模型。
相关政策文件和监管表态也在不同程度上表态要鼓励开源。
2017年,《新一代人工智能发展规划》印发,提到开源开放的基本原则。其中表示要倡导开源共享理念,促进产学研用各创新主体共创共享。
今年5月的2023中关村论坛上,科技部副部长吴朝晖在致辞中倡议坚持开源协作,加强大模型技术持续创新,协同解决透明性、稳定性等共性问题,进一步推动算力资源和数字资源开放共享,加快形成大模型的产业生态。
今年7月,在2023世界人工智能大会科学前沿全体会议上,科技部战略规划司司长梁颖达表示,提出构建开源开放的创新生态,鼓励人工智能技术开源发展,建立高水平的开源开放生态体系,共创人工智能前沿成果。
更多内容请下载21财经APP