说ChatGPT是AI的iPhone时刻有些言过其实,AGI的路上少不了Hugging Face。
文|Ben
编辑|王与桐
来源|数字时氪(ID:digital36kr)
封面来源|IC photo
(ChinaIT.com讯)几天前,Hugging Face在GitHub上的Stars超过了100,000。
而且,Hugging Face应该是GitHub上最快达成这一里程碑的开源项目。
毋庸置疑地是,Hugging Face 绝对是这个时代最耀眼的AI公司之一。
过去一年,Hugging Face的搜索指数甚至远超AIGC领域的明星公司Stability AI。
在此之前,Hugging Face历史上的高光时刻大抵集中在一年前的2022年年中。
简单来说,Hugging Face是一家开源模型库公司。
2022年3月14日,推特账号@BigScienceLLM开始每日更新一个名为BLOOM大模型的训练进度。当然,这个时候公众对大模型的认知几乎还不存在。
BLOOM项目由Hugging Face主导,共有来自全球60多个国家、200多个各类机构,总共超过1000名研究人员和工程师参与其中,其中有大量来自微软、Meta、谷歌及其他科技巨头的员工以个人名义参与。
5月10日,Hugging Face宣布C轮1亿美元融资,由Lux Capital领投,红杉资本、Coatue、Betaworks、NBA球星Kevin Durant等跟投,其估值增长到了20亿美元。
5月16日,Hugging Face首次登上了福布斯北美人工智能50强榜单。
7月2号,参数总量达1760亿的BLOOM大模型经过为期117天的训练宣告完成,其参数总量恰好比OpenAI已经发布了近三年的GPT-3多10亿。
当时间来到2022年8月,在美国科罗拉多州博览会所举办的艺术比赛中,一幅名为《太空歌剧院》的AI生成画作,力压参赛的所有其他人类艺术家,获得大赛金奖。
于是在此后,Midjourney、Stability AI、OpenAI 等新一代人工智能公司轮番登场,成为AI大舞台上聚光灯的焦点。
过去一年来,Hugging Face没有再获得新的融资,其估值距离超级独角兽相去甚远。
今年,Hugging Face也发布了对标ChatGPT的开源对话工具HuggingChat,但淹没在铺天盖地的同类应用中,泯然众人。
在Hugging Face身上完全看不到大部分明星创业公司所经历的跌宕起伏,仿佛一切都是水到渠成。
随着业界对于大模型的关注热点由夸夸其谈,进入需要弄清来龙去脉的深水区,Hugging Face存在的价值又开始受到业内密切关注。
Hugging Face保持着一贯以来的低调,毕竟他们没有大肆扩张的压力,也不需要通过不断画饼来吸引资本的关注。
这和公众认知中,大模型赛道必然需要无限烧钱以投入海量AI算力的观点相悖,在公开报道中,2021年9月 Hugging Face 完成4000万美元的B轮融资时,其银行账户上仍然有90%上一轮融到的钱还没有花。
事实上很难挖掘到Hugging Face有什么闪光的特质,在近期科技播主Harry Stebbings的访谈节目中,Hugging Face联合创始人兼CEO Clément Delangue谦逊地表示:如果没有开源、如果谷歌没有分享那篇划时代的《Attention is all you need》论文、没有分享他们的BERT论文、没有分享他们的扩散模型论文,我们可能还需要再等30、40甚至50年才能达到今天的水平。
前传-Transformer:人工智能的范式转移
在2017年之前,看到Transformer这个词,大部分人想到的应该是变形金刚(Transformers)、汽车人、孩之宝。
2017年6月,在谷歌团队发表的论文《Attention Is All You Need》中,Transformer第一次出现在人工智能论文中,如果单纯从字面意思来理解的话,Transformer可以被称为一种基于注意力的编码器/解码器模型。
时至今日,各种GPT、各种BERT、各种羊驼( LLaMA)占据着人工智能、大模型、AIGC秀场的C位,我们终于再也不会混淆Transformer和Transformers。
2018年,刚刚诞生一年的Transfomer让 NLP 发生了关键的范式转移,从过去仅初始化模型的第一层,到通过分层表示对整个模型进行预训练,Transfomer为人工智能达到今天的高度开辟了一种全新的工作方式,使信息可以从预先训练的语言模型转移到下游任务和应用。
机会总是留给有准备的人,在人工智能领域更是如此。
成立于2016年的聊天机器人公司Hugging Face,在这一年悄悄地转身开始尝试做些不一样的事情,从此,Hugging Face不再是出现在对话框或塑料袋上的emo,而渐渐成为大模型领域的一种信仰。
2018年10月,Hugging Face首席科学家Thomas Wolf花了几天时间在GitHub上创建了一个名为pytorch-pretrained-BERT的项目,项目的热度超出了所有人的预期。
Hugging face并没有对Transformer模型本身进行改进,而是将其与一系列衍生模型封装成了一个全新的“开源产品”,也就是Transformers,面向研究人员和开发者,让大家能方便的用上Transformer模型
通过开源模型库,Hugging Face可以为人工智能算法架构和模型库的不断迭代提供更多可能性。事实也在不断证明,在多个前沿领域,初创公司更适合以全新的方式为开发者社区赋能,并且,开源创造的价值极具发散性,比传统上开发私有化工具的效率提升显著,价值更是超出多个数量级。
机会确实来得很突然,仅仅几天时间Hugging Face已经做好准备开创一条全新的路径,这也让其避免了成为众多Siri仿制品中的一员。
去年以来,多数人倾向于将Hugging Face的成功归结于偶然性。
但是,如果一系列的偶然性事件接连发生,那一定是有着某种必然的联系。
Hugging Face的创始人Clément Delangue在2021年的一次访谈中清晰地表达了这次转变的底层逻辑:我们现在无须为竞争分心,而是转向为开源领域和科研领域同时赋能。
其实在今天,Hugging Face还并不能算是一家多么伟大的公司,起码基于大众视角和商业化判断将会得出这样的结论。
但是Hugging Face在机器学习领域的重要性已经不需要质疑。
截至 2023 年 6 月1日,Hugging Face 共享了 215,693 个训练模型,38,085 个数据集,涵盖 NLP、语音、生物学、时间序列、计算机视觉、强化学习等几乎所有领域,搭建了全球范围最完整的 AI 开发者生态。
特别是在当前,AI2.0靠大模型成功出圈的重要时间节点,Hugging Face绝对有它难以逾越的不可替代性。
本文试图用类似蒙太奇的方式,从一些碎片化的角度来探讨,即使把“天时、地利、人和”全部凑齐,也很难再造一个Hugging Face。
AI伦理:什么是负责任的人工智能许可
2023年5月30日,非营利组织“人工智能安全中心”(Center for AI Safety)在官网发布一封联名公开信,称AI是堪比“疫情和核战争”的技术,未来或对人类构成生存威胁。
公开信只有一句话,总共22个单词:减轻AI(给人类)带来的灭绝风险应成为全球性的优先事项,与大流行病及核战争等其他影响社会的大规模风险处于同等级别。
这次,OpenAI创始人Sam Altman、DeepMind CEO Demis Hassabis和Anthropic CEO Dario Amode等AI明星公司的代表悉数签了字,总共有超过350位AI领域的知名人士签署了联名信。
名单中也有不少中国学者,包括中国工程院院士张亚勤,中科院自动化所人工智能伦理与治理研究中心主任曾毅,清华大学副教授詹仙园等人。
科技大佬们对AI的担忧不是空穴来风、也不是哗众取宠,而是真的会关系到未来每一个人生活的方方面面。
两个月之前,马斯克、苹果联创Steve Wozniak、Stability AI创始人Emad Mostaque等大佬们也曾共同发表公开信,呼吁在6个月内暂停训练比GPT-4更强大的人工智能系统。
CNN架构时代的深度学习三巨头之一Yann LeCun曾经表示:在我们做出人类级别的AI之前,需要先做出猫猫/狗狗级别的AI。而现在我们甚至连这都做不到。我们缺失了十分重要的东西。要知道,连一只宠物猫都比任何大型语言模型有更多的常识,以及对世界的理解。
人工智能的伦理问题尽管由来已久,但是在AI2.0被看作第四次产业革命核心的背景下,为社会治理和道德规范带来了完全无法预知的挑战。
大模型直指AGI(通用人工智能),当AI拥有了泛化的能力,也就意味着它手握一把双刃剑,因此让全世界开始警惕其可能带来的巨大社会风险。
AI伦理绝不是玄学,越来越多的用户信任Hugging Face,将模型放在Hugging Face开源也绝不是偶然,在伦理层面高度认同的共同体。
天时、地利固然都重要,但人和(姑且把人和理解为AI伦理)才是AI通向更高层次关键。
对于Hugging Face而言,注重AI伦理已经融入其基因。
其训练大模型BLOOM的BigScience 项目从一开始就将伦理纳入考量,并严格制定了专属的伦理指导原则。因为大模型使用来自互联网的数据集进行训练,而这些数据集既包含了大量个人信息,又经常展现出危险的偏见。
Hugging Face 的人工智能伦理学家Giada Pistilli起草了BLOOM的伦理准则,作为模型开发训练的基本原则。准则强调了诸如从不同的背景和地点招募志愿者、确保普通人能够轻松地重现该项目的研究结果、还有公开公布其研究结果等细节。
同时,Hugging Face还公布了“负责任的人工智能许可”这一全新概念,作为使用BLOOM的服务条款协议,该许可的目的是防止执法或卫生保健等高风险部门使用其技术伤害、欺骗、剥削或冒充公众。
将时间轴前移,2021年,谷歌AI伦理团队所发生的巨大变动或许可以被认为是影响未来AI格局的一条分水岭。
2021年8月,谷歌伦理AI(Ethical AI)人工智能伦理研究小组前负责人Margaret Mitchell加入了Hugging Face,帮助其开发确保其算法公平的工具。
此前,Margaret Mitchell经过四年的努力组织和招募员工,从无到有建立了谷歌 AI 伦理团队,并为谷歌AI在全球范围树立了良好的道德形象。
Margaret Mitchell花费数年时间树立的“不作恶”(Don't be evil)形象,也一直是 Google AI伦理准则的重要组成部分,在Margaret Mitchell之后的一段时间,这个口号对于谷歌 AI 更具讽刺意味。
Margaret Mitchell在加入Hugging Face之后,依然将“不作恶”的 AI伦理准则一直贯彻到底。
对于在Hugging Face的感受,Margaret Mitchell说:“这里已经有很多基本的道德价值观。很明显,我不必强行插手或改进伦理流程。”
事实上,在涉及与人工智能伦理相关的一系列问题上,Hugging Face始终保持着严谨的态度,作为一个开源模型库,希望与开发者和用户达成在 AI伦理方面的共识。
从Hugging Face持续更新的 AI 伦理简报中,能够清晰地看到Hugging Face开发 AI 伦理相关工具和保障措施的脉络,并以此确保开源科学能够赋予个人权力,不断将潜在危害最小化。
无论未来AI能否改变世界、或将以什么形式、什么程度改变世界,大模型已经是无法逆转的现实。它可以是将第四次工业革命推向高潮的生产力工具,也不排除会成为阻碍人类继续进步的绊脚石。
如果没有基于专业知识构建的AI伦理道德约束,很有可能无法避免将来会出现巨大的反噬。人类必须未雨绸缪,提前做好最周密的布局以抵御这场飓风。
过去几年间,全球范围内已经发布了100多项人工智能伦理治理相关文件,各国政府、国际组织、学术界和产业界四方力量高度关注人工智能伦理治理问题。
近年来,我国接连发布了《新一代人工智能治理原则》《新一代人工智能伦理规范》等政策文件,其中明确提出八项原则,强调将伦理道德融入人工智能全生命周期。
但是,对于大模型和人工智能的规范不能只停留在政策层面,由于大模型特别擅长模仿真实的人类语言,所以也更容易被用来欺骗人类。
从人类用人工智能欺骗人类,到人工智能主动欺骗人类或许仅隔着一层纸。
人类必须找到完美的技术手段来驾驭它。
非商业:不高估短线、不低估长线
从长线来看,Hugging Face在人工智能领域的地位很可能像瑞士一样稳固。
中立的瑞士靠坚固的保险柜在大国之间游刃有余。
而Hugging Face则是依靠开放,彻底地开源,甚至找不到任何与Hugging Face对标的竞争对手。
未来,在替股东们赚够钱之后,OpenAI也有机会成为公益性机构。
但现在,全球独角兽中可能只有Hugging Face脱离了“低级趣味”。
Hugging Face不但免费,还能帮用户省钱。
Hugging Face解决了很多人工智能公司的核心痛点,就是降低了搭建比算法团队还要庞大的工程团队难度,换句话说就是承担了大部分脏活和累活,所以受到了大部分算法专家的欢迎。
Hugging Face在改变世界,在改变世界的过程中并不一定会实现传统意义上的商业价值。
所以,Hugging Face很可能不适用于过往的投资逻辑。
再考虑到科技领域大概率会发生类似云原生的“AI原生”时代,所以在未来,来自工业时代、互联网时代、移动互联网时代的很多商业逻辑都可能将面临挑战。
对此,红杉的合伙人 Pat Grady 也曾表示:Hugging Face优先考虑的是应用,而不是变现,我认为这是正确的做法。他们看到了 Transformer 模型在 NLP 之外的应用方式,看到了成为 GitHub 的机会,这不仅是面向 NLP,而且会延伸到机器学习的每个领域。
AI的商业化进程并不简单,上一波以CV、CNN为代表的AI1.0就没有找到更好的突破口,至今还在自动驾驶的泥沼中苦苦挣扎。尽管逻辑合情合理、尽管从一开始就能让市场看到具体的未来,但时间轴却不在任何人的掌控中。
大模型很可能会遇到同样难以真正商业化落地的问题。
5月4日,微软官方宣布Bing聊天机器人全面开放给所有用户,用户不再需要加入候补名单,只需要登录微软账户,然后打开Bing或Edge浏览器,就可以直接体验New Bing。
在外界看来,微软将ChatGPT的能力集成到Bing中,让GPT-4带给用户更强大的生成式搜索体验,无疑是打向搜索巨头谷歌的一记重拳,也必将颠覆过去20年其一家独大的市场局面。
但由目前全球搜索市场份额的变化来看,却出乎了所有人的意料。根据数据服务商StatCounter新近提供的数据显示,微软Bing的台式电脑桌面搜索市场份额为7.1%,甚至低于去年10月OpenAI尚未发布ChatGPT时Bing 9.9%的历史高点。
相比之下,谷歌搜索在桌面市场的份额达到了86.7%,较去年10月提升了近3个百分点。如果再把样本范围扩大到包含各种移动设备后,数据对微软更加不利,Bing的整体市场份额仅为2.8%,而谷歌的市占率依然达92.6%,还是占据着搜索市场绝对的优势地位。
尽管被寄予厚望,但判断人工智能的iPhone时刻是否已经来临大抵还为时尚早。
起码在短期内大模型很可能是被高估了。
大模型很可能真的要先成为下一代计算平台的OS(操作系统),才能引发切实的量变。
或许因为ChatGPT的多轮对话逻辑并不适合替代搜索,而且用大模型来重写所有软件的逻辑也并不可靠。
过去二十多年已经形成的肌肉记忆明显对人工智能的现有能力并不友好。
况且考虑到基于大模型的应用尚且居高不下的算力成本最终还将转嫁给终端用户,其商业前景就更加存疑。
在这样的背景下,Hugging Face“现金为王”的非商业化策略更显得难能可贵。
在Clément Delangue看来, Hugging Face的商业模式比绝大部分人工智能公司简单得多,他介绍:Hugging Face首先是一个平台,因此积累了比较大的用户量,和大部分开源服务商类似,采用了免费模式的模式以期快速增长,不管是个人开发者还是公司都可以免费使用平台的大部分服务,截至2022年已经有超过15,000家公司用户。
其中有20%,也就是差不多3,000家公司在使用Hugging Face的付费服务,其中包括了像英特尔、高通、辉瑞、Meta、Bloomberg、Grammerly等不同领域的知名公司,Hugging Face为这些付费用户提供了各种高级功能。
在C轮1亿美元融资之后,Hugging Face才少量开放了一些岗位,团队从之前一年的30人扩大到130人,从公司人数来看,确实比Midjourney要多不少,但还是远远低于其他独角兽公司。
Hugging Face的招聘方式也和其他公司方式不太一样,甚至不去设置特定的岗位名称和岗位职责,在其看来一个开源平台更需要和公司文化相符合,能够扩大公司价值的人。
Clément Delangue也曾公开表示:Hugging Face 的目标是通过工具和开发者社区,让更多的人使用自然语言处理工具,达成他们的创新目标,让自然语言处理技术更容易使用和访问。
他还补充说:没有任何一家公司,包括科技巨头,能够独自“解决 AI 问题”,而我们实现这一目标的唯一途径,是通过以社区为中心的方式,分享知识和资源。
正如Clément Delangue所说,如果谷歌没有分享《Attention is all you need》,可能还需要再等50年人工智能才能达到今天的水平。Hugging Face让全球最懂NLP、最懂ML的人能够无障碍的一起工作,这在纯商业化的公司架构下是永远无法达到的。
即使目前大模型处在被高估的状态,但AI一定代表着未来。
根据 Straits Research 测算,2021 年全球 NLP 市场规模为 135 亿美元,预计到 2030 年扩大至 910 亿美元,CAGR 为 27%。与此同时,ML 市场预计在 2030 年达到 2,099 亿美元。
据彭博行业研究报告显示:到2032年,生成式AI市场的营业收入将是2022年收入的32.5倍,ChatGPT将带来生成式AI十年繁荣,2032年市场规模1.3万亿美元。亚马逊、谷歌母公司Alphabet、英伟达和微软都可能是AI繁荣年代的大赢家。
只是对于Hugging Face而言,无法从市场占比简单判断其规模上限,但是没有Hugging Face,所有与NLP、ML相关的研发可能都会延期。
朋友圈:中国是否需要、能否出现Hugging Face
在一些关于Hugging Face券商研报性质的分析中,总会为其生硬的匹配一些莫名其妙的竞争对手。
其中通常会包括OpenAI、DataRobot、甚至北美的几大云厂商。
搬出这些公司或许可以抬高Hugging Face的身价,但事实上,Hugging Face不但没有明确的对标存在,也没有真正意义上的竞争对手。
放眼与AI有关的圈子,目光所及似乎都是Hugging Face的朋友圈。
而且有趣的是,不但投资Hugging Face的机构阵容豪华,包括了:Lux Capital、红杉资本、Addition、Coatue、Betaworks、A.capital、SV angel。
其背后的个人投资者,几乎全是北美科技公司的大佬:有OpenAI 联合创始人兼CTO Greg Brockman、Salesforce首席科学家Richard Socher、MongoDB CEO Dev Ittycheria、Dataiku CEO Florian Douetteau、Datadog CEO Olivier Pomel、Kong CEO Augusto Marietti。
当然,还有连投多轮的NBA球星Kevin Durant,据说Clément Delangue作为一个不看美国篮球的法国人,在和Kevin Durant见面时,完全不知道他在球场的光环。
在机器学习(ML)这么一个日新月异的细分赛道上,作为一家初创公司,要去和那些行业巨头、以及科学界、开源界的行业大佬们竞争不但非常难,而且压力可能来自方方面面。
科技巨头或者几大名校在北美就有上百个人工智能研究中心,虽然不同的个实验室可能或有不同的侧重点,但每一家都在不断新陈代谢。
创业公司盲目竞争或许可以在一段时间、一定范围内超越对手,但人工智能的迭代速度太快了,任何单点的突破都可能快速被赶超。
Clément Delangue说:所以,我们现在不再试图竞争,转而选择为开源界和科学界赋能。通过开源模型,可以为架构和数据库的改进提供灵感。Elastic和MongoDB就是很好的例子,它们的事迹表明,初创公司可以通过某种方式为社区赋能,此种方法产生的价值比通过搭建一个专有工具产生的价值高出上千倍。
当然也不排除OpenAI这类大力出奇迹的特例,但是训练和运行ChatGPT所需要的钞能力实在让其他公司望尘莫及。
即使有微软这样赞助百亿美元级别的金主全力支持,OpenAI还是在不断补血。4月29日据北美某科技媒体披露,大语言模型ChatGPT开发商OpenAI近日又获得新一笔总额超过3亿美元的融资,公司估值已超270亿美元。
而Hugging Face则不太担心成本等方面的压力,今年初,亚马逊云科技宣布与Hugging Face进一步合作。
亚马逊云科技首席执行官Adam Selipsky表示:生成式AI潜力巨大,但成本和专业性让大部分公司望而却步。Hugging Face和亚马逊云科技的合作旨在帮助用户以最高的性能和最低的成本创建自己的生成式AI应用。
当然,在如此前沿的赛道,用钱能解决的当然都不是大问题,于是在知乎,不出所料地一定会有这样一个老生常谈的争论主题,也是有关Hugging Face在知乎热度最高的话题“为什么中国没有Hugging Face”。
并且,还会带入一个固定考量:目前来看,这种单靠开源模型库的公司如何商业化,护城河在哪里?
这样泛化的灵魂问题其实很难回答,于是,评论风头开始转向,比如:
在AI2.0时代,不再是什么技术都可以Copy2China,通过简单调整,就可以凭借巨大的人口红利,实现建立在二次“创新”基础上的双赢。
开源已经成为一道分水岭,如果养成了拿来就用的习惯、而不想贡献,当然也就掌握不了核心竞争力。
同样,在开源世界不能押注于确定性,如果依靠过往刻板的成见,可能永远也无法理解Hugging Face。
Clément Delangue认为:初创公司可以通过某种方式为开放的社区赋能,此种方法产生的价值,比通过搭建一个专有工具,产生的价值高出上千倍。
这也对应着人工智能时代的商业逻辑,当大模型的复杂程度越来越高,管理和部署模型的成本也越来越不可控。Hugging Face 的开源模型库不但可以帮为开发者和公司缩短研发周期,还可以为其优化高达千万美元的计算资源。
Clément Delangue说:公司不需要从创造的价值中获取 100% 的红利,只需将其中 1% 的价值变现,但即便只是 1%,也足够让你成为一家高市值的公司。
& so on:绿色清洁的AI将是长期话题
这半年来,科技领域的公众人物们都在不停展望着五年、十年之后大模型带来摧枯拉朽的变革。
但其实初代iPhone发布后的几年内,智能终端上最醒目的应用无非是愤怒的小鸟、捕鱼达人、水果忍者等等这些。
与其鼓吹所谓iPhone时刻之于大模型,不如更多对比关注iPhone出现之前多点触控、二维码之类的变迁,可能更容易发现机会。
在Clément Delangue看来,机器学习正在取代软件成为构建技术的新方式,过去,采用传统软件架构和编程方法可能需要编写上百万行代码,但机器学习完全不需要这样做,而且效果更好、速度更快。
大模型、人工智能必将是一场持久战,相比于口水仗、预言和批评,业界应该更多关注些实际问题,否则这场消耗战耗费的算力资源恐怕至少堪比挖矿。
BLOOM的训练过程在法国超算Jean Zay上完成,全程使用了384块80GB内存版本的A100 GPU。
在BLOOM训练时Hugging Face发表了一篇题为《估算 1760 亿参数语言模型 BLOOM 的碳足迹》(Estimating the Carbon Footprint of BLOOM, a 176B Parameter Language Model)的论文,并且对外公布了一种全新的方法,来精确计算训练模型所产生的碳排放量,该方法可以覆盖模型的整个生命周期,而不仅仅是训练期间。
训练大模型无疑会消耗大量能源,比如据公开报道,训练一个BERT模型大约会产生1,438磅二氧化碳,相当于从纽约到旧金山之间的一次往返航班所产生的碳排放量。
BLOOM的训练吞吐量约为150 TFLOP,使用的超算由低碳的核能提供动力,所产生的热量被循环利用给学校供暖。
正如在AI伦理方面的严谨,Hugging Face在ESG方面所承担的责任更让人相信这是一家靠谱的人工智能公司。
对于未来,Clément Delangue也不甚明了,他说:我们意识到计算资源越多,并不一定足以解决问题,导致回报开始下降。如果投资者跟进,并不意味着他们都会成功,但这是一种有趣的风险,我非常期待看到这些公司将来能创造出什么。
来源:36氪