科技技术在改变人与工具的交互方式。PC时代的Apple Lisa电脑,是首次采用图形用户界面和鼠标的个人电脑;到智能手机时代,iPhone定义了触控交互。下一步,ChatGPT类的多模态大模型又将影响未来AI的发展方向和人类的工作方式。
未来科技产业注定是变革和颠覆的一年,新时代属于造梦者、勇闯者,甚至是孤独者。在外界看来,新的科技也许在不久的将来会打破现有的商业格局。大浪淘沙,敢为者先。
新浪潮下,另镜推出「Tech潮向」专题系列报道,洞察当下前沿科技新变革和发展趋势,报道前沿科技企业新战略、新思维,提供更多具有前瞻思考的价值信息。此篇为该系列报道第五篇,聚焦新一轮新科技ChatGPT开启。
4月11日上午,在2023年阿里云峰会上,阿里董事会主席兼CEO、阿里云智能集团CEO张勇正式宣布,阿里所有产品未来将接入“通义千问”大模型,进行全面升级。
在他看来,智能化时代,大家都站在同一条起跑线上。面向AI大模型时代,所有的应用、软件以及服务都值得“重做一遍”。
阿里发布的通义千问是达摩院自主研发的超大规模语言模型,可以回答问题、创作文字,以及表达观点、撰写代码。
在登陆“通义千问”后,其主页页面主要突出了四个功能:职场助理、撰写短文、写封邮件和电影脚本。另镜拿到“通义千问”首批邀测资格,并进行测试。
从OpenAI发布GPT-4,到百度发布文心一言、微软将GPT-4接入自己全套办公软件Microsoft 365 Copilot、谷歌开放 Bard,再到最近一周阿里、华为、商汤纷纷发布AI大模型、更新最新进展,互联网大厂都在“争分夺秒”进军未来。
在前一日,搜狗创始人王小川宣布成立人工智能公司百川智能,旨在打造中国版的OpenAI,研发并提供通用AI服务、基础大模型及上层应用。
作为在ChatGPT背后提供最底层GPU支持的硬件销售公司,英伟达今年股价随着AI行情一路水涨船高,开年至今,股价已大涨超90%。
英伟达CEO黄仁勋在今年3月的GTC开发者大会上发表了主题演讲,“我们正处于AI的iPhone时刻,”黄仁勋兴奋地表示,“初创公司正在竞相打造颠覆性产品和商业模式,科技巨头也在寻求突破。”
面向AI大模型时代,各行各业将迎来颠覆性的改变。在ChatGPT引领的AI赛道上,科技公司将面对的是全方位竞争:从技术研究、底层算力、AI算法、数据处理训练,最终推进至大模型迭代的速度与质量。
4月11日,2023阿里云峰会现场,阿里详细展现了通义千问大语言模型(LLM),该模型支持多轮交互及复杂指令理解、多模态融合、外部增强 API 等功能;同时,阿里云推出企业专属大模型产品,国内云大厂大模型之战正式打响。
从2019年开始,阿里就在尝试训练各式大模型,StructBERT、M6,再到PLUG、Composer等等。去年9月2日,达摩院副院长周靖人就在“2022世界人工智能大会”上发布阿里巴巴最新“通义”大模型,并宣布相关核心模型向全球开发者开源开放。
近期发布的通义千问是基于“通义”这一系列,展现其“千问”的对话形态。
阿里董事会主席兼首席执行官、阿里云智能集团CEO张勇表示,目前阿里云已形成了全栈的技术服务,搭建了模型即服务(MaaS)、平台即服务(PaaS)、基础设施即服务(IaaS)三层架构。
同时他透露,阿里内部已明确提出,未来天猫、淘宝、盒马、飞猪等阿里所有产品都要接入阿里大模型进行全面升级。
据张勇介绍,阿里云的模型即服务包括API服务、基础大模型/通义大模型、企业专属大模型、魔搭社区,平台即服务包括模型开发、模型推理与部署、模型训练、大数据平台等;基础设施即服务包括灵骏智能计算集群、弹性计算ECS集群等。通过这三层架构,能够让阿里云全身心拥抱智能化时代。
张勇强调,不论是现在数智化时代还是未来的智能化时代,阿里云追求的基本目标和价值,总结概括就是两句话:让算力更普惠、让AI更普及。
在算力普惠方面,阿里云已经覆盖1000万开发者,且跟十年前比,目前的单位算力成本降了80%、存储成本降了90%。
在AI普及方面,阿里云致力于做基础大模型,核心是支撑各行业开发者,让属于各行业、各企业的模型能够做得更好、门槛更低,这不仅包括阿里的通义千问,还包括阿里和其他企业及高校合作的大模型。
4月10日,商汤科技发布自研大模型体系“日日新SenseNova”,以及自研的中文语言大模型应用平台“商量”(SenseChat),参数量达千亿。日日新大模型并未对外开放测试,主要对to B端的政企客户开放。
在商汤技术交流日活动上,商汤科技董事长兼首席执行官徐立介绍,“商汤日日新大模型”包括自然语言生成、文生图、感知模型标注、以及模型研发功能,并在现场展示了语言大模型应用平台“商量”的多轮对话和超长文本的理解能力,以及在编程、健康咨询等领域应用。
商汤科技联合创始人、首席科学家王晓刚表示,目前已经有一些合作伙伴和客户开始内测其产品。
未来,商汤版的GPT主要面向企业端(B2B)业务。“日日新SenseNova”为政企客户提供多种API接口和服务,包括图片生成,自然语言生成,视觉感知通用任务与标注服务。客户可根据实际应用需求,调用“日日新SenseNova”大模型的各项AI技术能力,低门槛、低成本、高效率地实现各类AI应用。
例如在智能驾驶领域,基于视觉大模型,商汤实现了可识别3000类物体的BEV环视通用感知算法的实车量产,也构建了感知决策一体化的自动驾驶多模态模型,带来更强的环境、行为、动机解码能力。
商汤还展示了“日日新SenseNova”的各种AI文生图创作、2D/3D数字人生成、大场景/小物体生成等一系列生成式AI模型及应用:
——“秒画SenseMirage”文生图创作平台,展现了光影真实、细节丰富、风格多变的强大的文生图能力,可支持6K高清图的生成;客户还可根据自身需求训练生成模型。
——“如影SenseAvatar”AI数字人视频生成平台,仅需一段5分钟的真人视频素材,就可以生成出来声音及动作自然、口型准确、多语种精通的数字人分身。
——“琼宇SenseSpace”和“格物SenseThings”3D内容生成平台,可以高效低成本生成大规模三维场景和精细化的物件,为元宇宙、虚实融合应用打开新的想象空间。
随着ChatGPT的广泛应用,围绕人工智能语言模型的技术迭代一直在持续发展。
近期,来自加州大学圣迭戈分校、中山大学和微软亚研的研究者提出了“白泽(Baize)模型”,让ChatGPT通过自我对话生成多轮对话的“数据集”,最终用于训练模型;
Meta发布史上首个图像分割基础模型SAM,能从照片和视频中实现“一键抠图”,即能够根据文本指令即分离出想要的图像内容;
谷歌计划计划在搜索引擎中添加对话式人工智能功能,以应对来自ChatGPT等聊天机器人的竞争以及更广泛的商业压力;
AI绘画神器MidJourney推出图生文功能,可以让用户上传任意图片,MidJourney通过分析图片内容生成4条适合的Prompt,用户可根据这些Promp生成更多图片;
谷歌助手团队和哥伦比亚大学教授合作推出PRESTO 多语言大数据集,该数据集涉及6种语言,涵盖了用户与虚拟助理的日常对话中的各种真实痛点,可以有效解决一些虚拟助理对话的难题。
在AI技术如火如荼的发展时,ChatGPT却因隐私保护问题遭遇抵制。
今年3月29日,埃隆·马斯克(Elon Musk)等千名业界和学界人士联署公开信,呼吁所有AI实验室立即暂停训练比GPT-4更强大的AI系统,暂停至少6个月,以便制定和实施安全协议。
美国参议院Lindsey Graham接受媒体采访时表示,ChatGPT被滥用的可能性很高,需要指导和监督。就在3月31日,意大利个人数据保护局宣布禁止使用聊天机器人ChatGPT,并开始立案调查,德国、加拿大相关机构也纷纷表示对于数据隐私的担忧。
据媒体最新报道,拜登政府已开始研究是否需要对ChatGPT等人工智能工具进行审查。
面对外界对于AI数据安全的质疑,4月12日,OpenAI、微软、谷歌、苹果、英伟达、Stability AI、Hugging Face、Anthropic等公司的高管与政策代表将出席该会议,讨论如何负责任地开发AI、分享最好的实践案例,并商讨相关的公共政策框架和标准。
在OpenAI、微软、谷歌开启AI军备赛后,百度、阿里、华为、商汤大模型已显露雏形,更多参与者还在路上。
4月17日,昆仑万维将发布“天工”大模型,并启动邀请测试。
搜狗创始人、前CEO王小川也在4月10日宣布,与COO茹立云联合成立公司“百川智能”,开启AI大模型领域创业。
根据公开信,百川智能早前已获得5000万美元启动资金,初步搭建起包括搜狗、百度等技术骨干在内的团队。王小川表示,面向机构的融资会在近期启动,该公司将会在年底发布面向ToB(企业端)领域的大模型产品。
“追上ChatGPT水平,我觉得今年内可能就能够实现,但对于GPT-4或者GPT-5,我认为可能需要3年左右的时间,应该不会低于两年。”王小川表示。
虽然承受着监管压力与舆论质疑,但人工智能已经成为当今社会的一个重要趋势,并已经开始广泛应用于各个行业,这已是可预见的未来。
本文来自微信公众号“另镜”(ID:DMS-012),作者:刘雨婷 谢涵,编辑:陈彦旭,36氪经授权发布。