生成式人工智能集中亮相2023世界人工智能大会：用大模型创作的音乐好听吗？用大模型训练的机器人有什么本领？

作者：央广网发布时间：2023-07-07

央广网北京7月7日消息（记者吕红桥）据中央广播电视总台经济之声《天下财经》报道，2023世界人工智能大会7月6日在上海开幕，在展览展示板块，今年最火的生成式人工智能技术集体亮相。用大模型创作的音乐好听吗？用大模型训练的机器人有什么本领？大模型生成的天气预报准不准？

作曲是一项具有高度创造性的工作，在本届世界人工智能大会上，生成式人工智能向观众和听众展示了在这方面的“才能”。腾讯公司展出了自研的XMusic通用作曲框架，只要给它输入一个指令，哪怕是一张图片、一小段哼唱，它就能自动生成一首曲子。大模型作曲的速度快不快，生成的曲子好不好听，技术人员现场给记者演示了一遍。

技术人员介绍：“我们可以通过图片、文字、视频和哼唱输入进行创作。以图片为例，我现在添加一张刚刚在会场中拍的图片。我选择它，然后确定之后开始作曲。经过可能短暂几秒钟的等待之后，一首完整的音乐作品就生成了。这首音乐作品我们可以来听一下它具体的效果。”

这首曲子好不好听，是否契合图片的意境，恐怕见仁见智。但总的来说，大模型做出来的曲子没有明显的违和感。现场有人惊叹，XMusic已经具备商用级音乐的生成能力，而且最关键的是它的速度还非常快，远超人类，也不会抄袭，不会重复。那么它究竟是怎么做到的？

技术人员说：“输入的这张图片，我们会对它做内容分析，来分析它是什么样的情绪，适合什么样的曲风、什么样的场景，以及在音乐空间里面匹配它合适的韵律节奏以及音符。所有这些音乐空间的要素确认完成之后，我们会把这些要素当做作曲的控制条件，来引导作曲模型完成最终的音乐作品。”

大模型还用在了机器人上。本届大会，达闼机器人公司带来了一支机器人队伍，在展台上跳起了“千手观音”舞蹈，引发了围观。机器人的姿态或许不如真人优美，但任何一个动作都能按照标准精确完成。原因是这些机器人有了大模型，可以快速学习和分解人类舞蹈动作，并生成相应的机器动作。

达闼机器人公司创始人兼CEO黄晓庆介绍：“我们的机器人跳舞，实际上不是我们编程的，是通过示范学习的。我们请一位会跳千手观音的舞蹈者跳舞，然后把她的视频输入到人工智能里面进行分析，然后把分析结果导入云端大脑。云端大脑就为它做出舞蹈的骨骼关节控制程序，自动输给机器人。舞蹈大师说，这太不可思议了！我教人跳这个舞要两个星期。”

黄晓庆说，机器人大模型的终极目标是每个人都可以训练自己的机器人，实现机器人干活，人类当老板，人工智能做外挂。“用户可以根据自己的需求来训练他希望看到的智能机器人，把他的技能和他所获得的技能一起教给他的机器人，然后让这些机器人代替他出去工作。他可以很容易复制这样的机器人，机器人的数量越多，他所获得的报酬就越多。他自己只需要管理，做机器人的包工头，做机器人的老板就行了。”

在本届展会上，华为带来的大模型最多。在华为云盘古大模型下面，有气象大模型、矿山大模型、药物分子大模型等。展会期间，华为还将发布多个大模型。这些实际都是在通用大模型的基础上，叠加行业数据打造的小模型。

技术人员说，它们虽然规模小，但用处却很大。“今年6月份中央气象台公布的台风‘玛娃’的路径预测里，就有用到。我们的盘古大模型提前5天预测到台风的转向，比如说对于灾害防护，对于海上航行这些都有用。并且传统的气象预报需要很大的算力，而气象大模型是已经训练好的，所以再预测的时候它耗费的算力就很小，效率就能提升很多。”