近日,由美国人工智能实验室OpenAI发布的一款人工智能技术驱动的自然语言生成式聊天机器人——ChatGPT迅速火遍全球,紧随其后,国内外多家知名科技公司也相继宣布推出自己的相关应用,争先恐后入场。一时间对于人工智能的兴奋、希望、担忧等情绪也伴随而生,亦有甚者发出了为什么ChatGPT没有诞生在中国的疑问。
而在热闹的背后,我们更应该关注什么?
中国科学院院士褚君浩、中国工程院院士蒋昌俊等专家在近日举行的科创中国数字经济技术创新峰会上,均发表演讲认为以智能化为特征的第四次工业革命已经发生,而ChatGPT就是这一次工业革命的一个标志性成果。我国人工智能产业链结构偏重于应用端,在产业基础和感知能力方面受限较多,这一短板亟待补长。
“ChatGPT热闹的背后,我们更应该关注对各类大模型的投入。”中国智能体图谱第一人、北京大数据协会理事、北京融信数联科技有限公司(以下简称“融信数联”)副总裁张广志博士表示,ChatGPT是基于GPT-3.5架构的大模型所产生惊艳效果的典型代表,可以说是全球科技创新进入空前密集活跃时期的划时代产物。ChatGPT与之前常见的语言模型相比较,通俗说来就是导弹与弓箭的区别。当前,国际主流研究机构已经全面拥抱大模型,我们一定要引起最高程度的重视。
构建大模型需多方“喂养”
张广志表示,ChatGPT之所以能在全球迅速掀起浪潮,就在于“Chat”作为“大模型”的分支之一,与工业、政务等其他垂直细分领域的“大模型”相比,给公众带来了更加强烈的参与感和效果冲击,代表着一种以人工智能为基础的知识生产新模式正在加速形成。
ChatGPT和之前的聊天机器人或者智能客服不同之处,ChatGPT在于数据集十分广泛,并且满足垂直领域切分,比如绘制表格,同时还有大量的人工标注和训练,以及巨额的硬件设备投入。“这是非常烧钱的。”张广志说。
何为大模型?举例来说,控制一个灯的亮或不亮只需要一个人按一个开关就可以,这即是一个简单的小模型。但如果想要实现一个灯可根据时间、人的状态等,调整到最宜人的亮度则完全不同,这需要包括色温、色差、亮度等多个维度同时配合使用。而这可能需要用到成百上千的“开关”,才能实现最佳的“亮灯”效果。因为涉及的数据量十分庞大,是难以用人力去完成的。这即为“大模型”,这里的“开关”只能通过计算机来计算大量的数据去实现。
而所谓的数据集,也就是以大数据为代表的各种资源对其的“喂养”和训练。比如,ChatGPT中文的很多训练语料很可能就来自于知乎等各类平台。所谓人工标注,简单的理解,就是由人工去对数据内容进行整理、分类等。例如,人告诉机器这是一个杯子,它就会将其识别为一个杯子。正是因为投入巨量的资源,越来越多类似的标注、训练和反复纠错,人工智能才会更加智能。“从某种层面来说,ChatGPT的用户也是在帮它进行人工标注,这将使其更聪明。”张广志说。
据国盛证券发布的《ChatGPT需要多少算力》报告估算,GPT-3训练一次的成本约为140万美元。而对于一些更大的LLM(大型语言模型),训练成本则介于200万美元至1200万美元高价之间。以ChatGPT在1月的独立访客平均数1300万计算,其对应芯片需求为3万多片英伟达A100GPU,初始投入成本约为8亿美元,每日仅电费就在5万美元左右。
“以ChatGPT为代表的人工智能,在很多专业领域做的工作比人要强的多,因为人会因为各种各样的原因而出错,机器则不会。但它会犯一些2岁小孩子都不会犯的错误。”张广志说。很多人担心人工智能最终是否会如好莱坞大片中的剧情一样取代人类,这其实完全不用担心。因为人是自然界的高级智能代表,而这正是人工智能所不具备的。
“科学界一直以来都在计算π的值,但至今尚未算尽,这说明自然界并不是被某种力量安排或控制的,而是由随机性产生的。但计算机系统却是人为创造出来的,是伪随机的,这是由其电子性能所决定的。就如同计算机生成不了一个随机数。现代计算机按照人的要求所生成的随机数,实际上是根据当下的时间值所得出的,也就是说它是以时间为基础、因时间而改变的。这是可以被计算和复原出来的。而人一秒钟内则可能产生很多个想法,完全是随机。人会冲动,而计算机不会,它的一切都是有根据和理性思考的。”张广志说。
“ChatGPT热闹的背后,我们更应该关注对各类大模型的投入。”张广志说,“伴随云计算、物联网、大数据、5G等数字新基建的大量投入,以及对大模型的不断训练,包括ChatGPT等在内的一系列人工智能技术和应用,将实现更大更强的发展。”
人工智能崛起
伴随ChatGPT的横空出世,一时间以谷歌、百度、京东等科技巨头纷纷也推出了自己的相关应用,为此,有人质疑是在跟风而上。“事实上,国内很多科技公司已经有了大量的相关技术和应用储备,只是大家将人工智能应用到的技术服务领域和对大模型地训练方式不同而已。但大模型的理论核心是一样的。”张广志说。
以融信数联为代表推出的智能体图谱,正是基于大模型开发的、服务于B和G端的技术流派,目前已在多类应用场景得到充分验证和良好应用。
“智能体图谱就是将大量的数据有机的组成一个有机体,让数据像生命一样不断的学习。使 数据不仅可以真实反映人们的生产生活,还可以为政府、企业等提供建议,乃至决策和执行。”张广志说。对智能体图谱而言,其数据来源主要是数字化的自然人、数字化的法人机构、数字化的智能设备三大类。所谓数字化的人,即自然人通过一系列的行为所产生的数字画像;数字化的法人,即政府机构、企业单位等法人单位;而数字化的智能设备则包括工业机器人、摄像头等在内的一切物联网设备。
融信数联为北京市海淀区水务局相关大数据平台所做的技术支撑,正是依托于智能体图谱实现。“水务工作包括取水、供水、用水、排水以及防汛等工作,重要且复杂。通过多年来的信息化基础建设,水务局在这些环节中安置了大量的传感器、摄像头等感知设备。例如流速传感器、水质传感器、液位传感器等。这些传感器所收集的真实数据将自动上传至云计算大脑,由此可实时通过数据反映出水务现状。智能体图谱技术不仅可以通过数据反映现状,更可以通过这些数据不断的学习和思考,发出预警并按照预案进行决策,乃至自动执行命令。”张广志说。
例如,通过智能体图谱思考,某地因近期降雨量增大,产生洪涝或泥石流等地质灾害的概率上升。智能体图谱将精准判定当地是否会产生人员聚集,或根据上下班期间的人流大数据分析得出哪些人将会路过此地,一旦数据到达一个预警程度,就会触发相关预案,锁定当地常住人群或路径此地的人群,通过发送短信等方式做出提示和预警,减少人流前往并降低损失。
“一旦触发预警,根据此前设定的相关预案,智能体图谱将定向报送信息到给排水单位、市政、街道、应急管理等相关部门,相关部门则会立刻行动起来。”张广志说。伴随物联网等智能设备基础建设的越发高效和密集投入,智能体图谱也已经实现代替人去决策和执行某些命令。张广志强调说:“越是相对封闭的场景越容易实现,例如港口、物流配送等。这样就可以节省人力、物力,相关部门也可以将更多的资源投入到薄弱环节。”