作为科幻迷,这个开年十分精彩。
一边,是科幻作品的再兴起,电视剧《三体》和电影《流浪地球2》都展露出崭新的改编实力;另一方面则是现实的进步,《流浪地球2》的Moss后遗症还没痊愈,盯着摄像头总忍不住想展开幻想。而据说能够跟人类自主对话的聊天机器人ChatGPT就真的突然横空出世。
就像马超举着手指去验证图丫丫具有自主意识一样地带着隐秘的兴奋,网友们轮番上阵跟ChatGPT对话。有人用ChatGPT写论文,有人用ChatGPT写剧本,有人用ChatGPT写创意方案,所有人类能干的,与文字有关的工作,都有人忍不住想让ChatGPT尝试一遍。
显然,人类在期待人工智能取代陈旧工作的一天,但同时,我们也不断因是否会被取代这一命题而焦虑着。
GPT的全称是Generative Pre-training Transformer(预训练生产模拟),是由OpenAI开发的一种语言模型。而ChatGPT简单来说,就是通过学习和理解人类的语言,实现与人类对话操作的语言模型。
建立在3000亿单词的语料上作为知识库,加上1750亿参数的大型数据体量上,ChatGPT的特殊点在于,与以往的机器相比,ChatGPT能做到连续对话,进行带有真实感的互动。
对于人机对话,我们早已不陌生,ChatGPT的前辈实际上是Siri、小爱同学、微软小冰等,但正是由于上下文通常的连贯性,ChatGPT让网友看到了人工智能的“自主性”。在此基础上,由于能记住前文的内容,你还能通过不断地对话对ChatGPT进行“调教”。
网友看热闹,而对于科技巨头来说,新的风口,意味着新的机会,稍晚半步就会落入被动的局面。
近日,微软宣布和 OpenAI 公司合作推出内置 ChatGPT 的必应搜索、 Edge 浏览器、Office 套件及 Azure;谷歌将发布 ChatGPT 竞争对手 Bard; 百度宣布将在3月份推出类似 ChatGPT 的对话式 AI 工具“文心一言” ;2月15日,爱奇艺和百度宣布达成合作,爱奇艺将全面接入百度“文心一言”,英文名为 ERNIE Bot;与此同时,美团创始人王慧文组局入场,宣布要打造中国的OpenAI。
很快,ChatGPT成功成为热门大话题。历时两个月,ChatGPT用户量已经超过1亿,成为迄今为止用户最快破亿的应用。积累1亿用户,ChatGPT 只用了两个月,Tiktok用了九个月,而 Instagram 则用了两年多。
而它的能力,也随着用户量的增加,在各行各业都得到了验证。
最先使用的是学生。
根据在线课程提供商Study.com针对1000名大学生的调查显示,使用ChatGPT完成作业的学生占比高达89%。另外,除了学习能力,ChatGPT在考试上也展现出了令人惊讶的水平。根据INSIDER 12月的报告显示,ChatGPT在没有任何培训或强化的情况下,进行美国医疗执照考试,所取得的三项考试成绩都达到或接近通过门槛,类似的还有沃顿商学院MBA考试和4门法学院课程等。
接着,以创意为生的广告、影视行业甚至程序员都坐不住了,人们开始尝试让ChatGPT写策划、写剧本、甚至写代码。虽说不具备自主撰写长文稿的能力,借着热度,ChatGPT回答了关于各行各业的问题,为各种各样的故事写上结尾,最终变成了各种各样的稿件和创意策划案。
但随着更多维更深度的用户测试与样本积累,更多人发现,虽然看上去自主,ChatGPT、依然停留在不具备自主思考能力的AI版本,或许想要成为图丫丫,还需要走更远的路。
如《降临》作者特德·姜所言, ChatGPT的本质,是一张互联网上所有文本的模糊图像 。ChatGPT仍然停留在通过海量的标签文本的堆砌,对文本进行打样处理、排列的人工智能模式,看多了ChatGPT给出的回答之后,才会发现这些答案虽然看似逻辑严密,但给出的信息量并不多。
比如回答问题时常常像一个“端水大师”,说一些不痛不痒、正确的废话,逻辑清楚但缺乏观点;而且,即使面对最简单的数学问题也有可能回答错误。
从技术上看,ChatGPT仅仅是依靠从训练数据中学到的模式和关系,生成风格、内容与训练数据中文本相似的新文本。虽然ChatGPT也能将以前从未见过的单词、短语和句子的进行组合,但这些内容都是基于人预先设定好的程序、算法的结果,ChatGPT并未突破人类辅助工具的范畴。
在与网友的“聊天”中ChatGPT也承认,“我对生成的文本没有切身经历、想法或创意控制”、“我生成的文本旨在用作工具或资源,而不是原创作品”。
针对这一点,学术界首先划清了界限——《科学》(Science)明确禁止将ChatGPT列为论文作者,且不允许在论文中使用ChatGPT所生成的文本。《自然》(Nature)的态度略微缓和,允许在论文中使用ChatGPT等大型语言模型工具生成的文本,但不能将其列为论文作者。
除了正确性,实际上在走红之前,对于ChatGPT的准确性就有人提出了质疑。
12月5日,面向程序员的问答网站Stack Overflow暂时关闭了平台用户分享ChatGPT建议的功能,称程序员利用该系统上传的数千条答案经常是错误的。
由于ChatGPT不显示其信息来源,人们对于ChatGPT生成的答案也无从查证。但现实是,ChatGPT给出的答案有可能是完全错误的。这点在体验ChatGPT的过程中时有发生,由于中文语料库的不完整或陈旧等原因,ChatGPT在进行中文对话,或回答近期中文世界发生的事时,都有可能会出现显著的错误。
但这并不是ChatGPT特有的缺陷,实际上,人工智能技术都有类似的空白地带。
去年爆火的AI绘画技术,虽然在绘画、构图上不够准确,但也展示出了令外行惊叹的“创作能力”。但随着技术进一步发展,画手们发现了问题—— 人工智能的采样存在抄袭的嫌疑 :不显示画手的来源直接进行取样,不经过画师允许直接采集数据,最终成品往往能看出某些画手原创作品的影子。
想象一下,若诸多工种完全启用(目前版本)ChatGPT的后果之一则是,专业领域的剽窃、抄袭横行,创作失序。互联网演化成一个谣言满天飞,信息臃肿、真相和事实更难寻的线上迷雾空间。
目前看来,人工智能仍然只能作为辅助工具供人们使用,由于技术仍处于尚未成熟的阶段,各种争议都尚未完全露出水面,取代人类工作岗位可以说是天方夜谭。
相反,想要孕育这一大型工具,能带来许多的岗位。
在ChatGPT大量语料库的背后,也有着看不到的血汗工厂。据美国《时代周刊》报道显示,为了训练ChatGPT,OpenAI雇佣了时薪不到2美元的外包肯尼亚劳工进行数据标注工作。
工作流程包括数据标注、打标签、分类、调整和处理等,这也是所有AI模型构建前,进行数据准备和预处理工作中不可或缺的一环。对于ChatGPT这样的 语言模型,如果没有人工标注来筛除一些不恰当的内容,ChatGPT可能会出现信息错误。
现在依旧是人工智能十分依赖人类的时代。
但也许,虽然AI没有自我意识,但AI类似于新的“宗教”,它的发展轨迹如同拥有了自我意识,不断“吃下”数据和资本,蓄积能量,步步进化更新。
由此,有人选择躬身入局建造AI改进AI,有人使用AI以获得对他人的竞争优势,还有人正试图寻找AI无法入侵的新的数字空间。
未来世界的变化,且看。
本文来自微信公众号 “娱乐产业”(ID:yulechanye),作者:kokomi,36氪经授权发布。