所谓AI大模型,通常指的是在人工智能领域中,具有大量参数的深度学习模型,这些模型能够捕捉和学习数据中的复杂模式和关系,从而在各种任务上表现出色。去年,大模型行业经历了如雨后春笋般的“百模大战”,今年,业内认为迎来了大模型应用元年。各类AI大模型应用“上天入地,从宏观到微观”,开始深度服务我们的生产和生活。
全球首颗AI大模型卫星
让卫星更聪明
在今年的9月底,我国商业航天团队发射了全球第一颗AI大模型卫星。那什么是AI大模型卫星?它和普通的卫星有什么不同?经过一个多月的在轨测试,大模型卫星运行怎么样?它能做些什么呢?
地球500公里外卫星上运行AI大模型
这个画面是远在500多公里外,卫星上运行AI大模型的场景。研发团队介绍,本次的发射任务主要是对AI大模型卫星进行在轨运行试验,测试不同温度工况,以及完成和卫星之间的各类推理问答,目前各项任务执行均获得成功,这也标志着一个智能卫星的时代正在开启。
国星宇航首席执行官王磊:其实这个过程当中就已经产生了我们技术人员与卫星之间的一个技术性互动。因为遥感数据的星上的数据是一个体量很大,而且是非规则化的这种数据,现在大模型可以更好地对于一个区域,从目标识别、特征提取,甚至到行为预测,这就是得益于大模型的注入。比如道路的疏解,矿产资源的发现,还有包括城市的规划,很多的场景都在这种新的场景之下会得到极大的效率提升。
AI大模型卫星天上自主作决策
有了大模型技术,卫星无需将数据传回地面,就可以作出相关的任务决策,大大提升了卫星的工作效率。同时,加入了AI大模型技术的卫星,就仿佛开启了自动驾驶模式的汽车,可以在天上进行自我姿态的调整和任务指令的自行执行。
为了将AI算力和系统从地面搬运到天上,团队要解决一系列技术难题。
国星宇航首席执行官王磊介绍,挑战还是比较大的。地面的话从能源建筑体量,包括温度湿度,很多的控制条件相对于太空框架是更加宽松一点。这里还包括重量等很多的因素,我采取什么样的板卡芯片,然后这种接口如何对接和协议的适配,这种会产生一系列的技术问题。
启动“星算计划”将算力系统搬到天上
将算力系统搬到天上后,团队还有更大的目标。他们已启动“星算计划”,将于2030年前建成由2800颗算力卫星组网、全球覆盖的“移动”算力网,助力人类更好地利用太空资源。
国星宇航首席执行官王磊:我觉得可能展望是随着AI技术的发展和大模型技术的迭代,对于商业航天会有很大的改观,甚至从整个工程设计理念都会带动、会产生很多设计方思路上的改变,这一点对这个行业会产生很大的促进和推动作用。
AI大模型“造字”
效率提升10倍以上
在我们身边,大模型应用在一些细分领域,正在颠覆传统行业。比如利用大模型还可以创造不同的字体,可以让效率提升10倍以上,成本也大大降低。一起去看看“AI设计师”是怎样发挥创造潜力造字的。
这些风格各异、细节满满、数量庞大的字体库,几乎全部都是由AI设计完成的。这个不到十个人的“97后”创业团队,仅用了18个月的时间,就已经完成了300多套字体的设计,字数加起来已经超过500万字,将一套字体的设计效率较传统人工设计提升了10倍以上,成本也降低了80%。AI是如何学会造字的呢?团队工程师为我们介绍了整个学习过程。
图形起源算法工程师许璀杰:左边这个是参考字,然后这个AI生成出来的字已经很像了,如果我们把这两个字重叠在一起,能够看到有一些出入,黑色部分是重叠的,而蓝色和黄色部分分别是这个参考字。我们会将之间的差值作为AI学习的目标,让AI尽量地去减少它们之间的出入。然后AI通过不断的学习,可以看到它的出入是在逐渐减小的。
据图形起源算法工程师介绍,现在AI大概能够把正确率做到97%,AI这部分大概是两天完成,如果没有AI生成,生产周期可能一套字需要6到12个月。
AI大模型“造字”正改变字体设计行业
这个创业团队用AI改变的,正是字体设计行业。我们在印刷品、包装、网站上经常能看到各种各样的“字体”,这些字体是由字体设计师制作的。在一个字体文件中,每个字都是一张矢量图,因此要制作一套字体,需要把对应语言中的每个字都手工绘制出来,比如汉字字体的设计师,可能需要绘制多达3万个字,还需进行反复的细节调整,来确保每个字的正确性、美观性和一致性,可想而知工作量极其庞大,这也直接导致了应用端,大家需要花费昂贵的版权费来承担字体的设计成本。而这个创业团队就敏锐捕捉到了传统行业的特点,并用人工智能大模型技术来提质增效。
AI大模型可开发多语言符号字库
团队通过不断摸索试错,用技术解决真需求,不断迭代技术能力,在算法、算力方面进行优化,让大模型造字变得越来越可用。他们的字体生成能力还可以开发日、韩、拉丁字母等众多语言和符号的字库,他们还在研究将传统书法家的毛笔字进行矢量化学习,设计成书法家字库,从而发扬传统的汉字文化。
记者探访迭代中的“AI打工人”
AI大模型的超强学习能力,让我们看到了它在各行各业的应用潜力。和任何一种技术的发展一样,人工智能也需要不断的学习和迭代,才能变得可用、好用。
用文字转化成记者的语音生成的视频,在几分钟内,一个以记者声音和形象进行播报的视频就生成了。
电商直播数字人大模型声音文字秒级生成
在工作室里,记者只需要对着镜头录制一段几分钟的画面,随后上传到系统,再在系统里任意编辑自己想要表达的文字内容,就可以在一两分钟内,生成一段播报的内容。技术人员告诉记者,目前AI大模型技术还很难实时做到表情的模拟,但是在声音和文字内容的快速生成上,已经做到了秒级。通过这种快速生成的能力,团队推出了国内首个电商直播数字人大模型,并已经投放进了市场。
当记者在直播间随机问数字主播,我想吃一个辣的,很快就得到了主播的回复。声音细节、节奏,还有回复内容,能够做到精准且快速,还充满个性化,数字人利用大模型直播有了落地的可能。
零一万物首席执行官李开复介绍,大模型的计算是要花很多的GPU芯片和算力,也是有很高的成本的。在过去有些美国的大厂做一次训练,可能就要花1亿甚至10亿美元,我们的速度可以比openAI的模型要快30~40倍。而且它的成本是美国公司的1/30,所以它是可以点燃应用的。
集成式开发模式模型训练推理“多快好省”
大模型动辄上亿的训练成本和推理成本,令很多开发者和大模型初创企业望而却步。为了让模型落地,真正好用,开发者们关注的并不能仅仅是生成的质量,还要在成本和好用性上去下功夫。在训练模型过程中,一个集成式的开发模式发挥了作用,让模型训练和推理都做到“多快好省”。
“智能体”将如何改变我们的生活
随着AI大模型技术的不断落地,为我们身边的各类硬件设备走向“智能”,提供了技术支持。“智能体”就随之成了一个新的高频词。什么叫做智能体,这种新技术又将会怎样改变我们的生活呢?
智能体,简单来说,就是将人工智能大模型与各种智能硬件相结合,打造出的智能系统。和传统硬件相比,它们能够根据预设好的规则和目标,独立自主地执行任务、理解并响应人类的需求。比如在手机上,我们已经可以用一句话,让手机自主完成点外卖、全程无需人来插手。
智能体产品工程师江洪泽:通过大模型的理解能力,我们可以将用户的意图,拆解成很多个步骤,然后按照一定的方式编排,一个任务、一个任务地去帮助用户自动完成,达成手机上的“自动驾驶”的这种体验。
多层分级打造“智能”新标准
随着智能在终端设备中的爆发,智能体的智能化标准也成了行业发展必不可少的关键。
近期,中国信息通信研究院牵头发布了全球首份《终端智能化分级研究报告》,参考汽车自动驾驶的分级标准,这份报告将终端智能化水平由低到高分为L1—L5五个等级,等级越高,意味着终端在任务完成中的自主参与程度越高。帮助消费者理解他们的设备能做什么,也为产业发展提供了一份清晰的技术路线图。
中国信通院泰尔终端实验室副主任果敢:我们在分级这个方面主要从4个维度四大因素去考虑。首先对用户的意图理解的程度。另外从对用户信息、用户使用习惯的学习记忆的能力去考虑。后面两个就是从提供服务和规划任务的能力的程度,还有任务的执行完成情况这4个维度,去设计了1~5级的这种整个的分级的类别。
智能终端距完全自动化智能化仍有距离
据介绍,根据分级标准,目前智能终端发展阶段普遍在L2—L3级别之间,即能感知用户简单的意图,并提供个性化服务,但距离完全的自动化和智能化,仍然有着不短的距离。
清华大学人工智能研究院常务副院长孙茂松:大模型它非常的厉害,但是它不是万能的,有它的局限性。总的来说,它在语言、文字、语音、图像、视频这方面的理解和生成能力,应该说超过了可能85%的人类。15%的问题可能就要和应用场景去结合,通过应用和应用场景结合去想办法弥补这15%的问题。