横向与纵向，AIGC的发展潜力在哪里？

作者：DeepTech深科技发布时间：2023-05-18

5 月 12 日，2023《麻省理工科技评论》中国“十大突破性技术”主题峰会在杭州余杭举行。峰会不仅将对 2023 年的《麻省理工科技评论》“十大突破性技术”进行深度解读，同时也回顾、梳理了过去二十多年来“十大突破性技术”背后的科技、经济、社会乃至人文的发展脉络。在技术变革风起云涌的当下，峰会还将今年的“十大突破性技术”与当前科技热点进行结合，探讨了 AIGC、芯片、新能源和生命科学等技术领域的前沿变革与展望。

在“打开 AIGC 的‘黑匣子’”板块，峰会邀请了之江实验室智能计算平台研究中心高级工程专家潘鹏凯担任主持人，圆桌嘉宾包括了 HiDream.ai 创始人兼首席执行官，加拿大工程院外籍院士梅涛、IDEA 研究院讲席科学家张家兴、微软亚洲研究院首席研究员段楠，四人作为业内专家以圆桌讨论的形式深入剖析 AIGC 背后原理与隐患，分享 AIGC 最新趋势和发展方向，并探讨它将如何颠覆传统行业。

图：圆桌讨论：打开 AIGC 的“黑匣子”

作为此次圆桌讨论的开场，潘鹏凯表示，如今 AIGC 已经成为最热门的技术话题，同时这个行业的发展速度超过了外界的预期，在惊艳全球的同时也引起了很多人的焦虑。

关于 AIGC 的现状与发展，如今的大语言模型在自然语言的理解和生成方面取得了非常显著的进展。但同时也还存在一些显著的问题，比如大家在使用过程中依然能看到其生成的内容并不保证完全正确，以及在为人类完成更复杂的任务时，大语言模型也会暴露出较为明显的能力边界。以通用人工智能的标准来衡量的话，目前进步的空间还很大。

图：之江实验室智能计算平台研究中心高级工程专家潘鹏凯

对于 AIGC 引发的担忧，段楠在圆桌讨论中表现出乐观的态度，他认为尤其从 ChatGPT 开始，很多人已经真切地在工作或者生活中体会到了人工智能模型的赋能效果，在工作、生活、以及娱乐等方面，ChatGPT 等 AIGC 产品极大地提升了人们的效率，也让人们在工作时可以更注重生产力和创造力。段楠认为现在人工智能的发展还是处在非常可控的阶段，对于人类社会的影响是利远远大于弊的。

张家兴表示，AIGC 的诞生可以说是机器学习发展到巅峰的一个产物，借助非常海量的数据、非常强大的算力（这是目前很多公司都无法负担得起的强大算力），让我们终于可以看到 ChatGPT 这样的产品的诞生。

如果要进行一个对比，机器学习最大的优势就是模型能学习的数据量远大于人学习的数据量，但机器学习和人类相比，最大的劣势是没有进化的部分，人类的智能不只是出生之后学习得来，一个人在出生时就已经具备了一定的学习基础，这部分先天的能力就是进化的产物。考虑到几十亿年进化过程，实际上人类拥有的智能如果都换算成数据和算力，现在机器学习仍然比不上人类。所以，随着机器学习继续发展，最终到底是见过足够多数据的机器学习方式更有优势，还是人类的学习方式更好，这都是没有答案的问题，当然，两种智能学习方式的互补是更值得期待的。

图：IDEA 研究院讲席科学家张家兴

在拿 ChatGPT 与人类做对比时，梅涛表示，如果仅从参加各种考试的表现来看，ChatGPT 已经达到了人类大学生水平，但在更多推理、意识的层面，就算是 ChatGPT 这一业界顶尖的产品也还处在很早期的阶段。为了规避 AIGC 未来发展可能带来的风险，梅涛认为，业界应该要让 AI 学习更好、更优质的数据，同时在应用时也应该考虑加上一些合规的手段，来控制模型或者算法能够始终走在正确的路径上。

对于 AIGC 的未来展望，AI 的横向、纵向发展问题也是业界讨论的焦点，在 AI 发展迅速已经被大家认可的情况下，这两种潜在的发展路径也被逐渐展开讨论。沿着纵向发展意味着，AI 技术、AGI 真正能创造一些人类没有创造出来的成就；而横向发展，意味着 AI 会在各个细分领域逐渐延伸，达到人类最聪明的科学家在各个领域设下的认知边界。

梅涛表示，AIGC 领域的模型还有很多的突破空间，比如在文本创作、语言创作方面，目前 GPT 已经到了相当高的水平，但是能力还没有到达边界。但是在多模态领域，目前的模型还处于 GPT1.0 或者 2.0 的阶段，所以梅涛认为 AIGC 依然有很多成长的空间。

图：HiDream.ai 创始人兼首席执行官，加拿大工程院外籍院士梅涛

在这个话题上，张家兴认为 AIGC 在横向和纵向两个方面都会有进一步的发展。横向，就是基于当下大模型的技术推动各种产业、各个领域、垂直方向上的落地。但在这件事上，由于每个行业、领域乃至公司，都拥有自己的技术、产品、用户和数据，通用大模型需要更多细分领域的数据才能在细分场景里形成闭环，但这个闭环还远未成形。

纵向上，今天 ChatGPT-4 已经做得相当优秀，不过我们看到它能实现的功能还只是冰山一角，以通用人工智能的标准，GPT 没有实现的功能还远远多于已经实现的功能。当下的 GPT 具备的能力都是算法工程师通过机器学习的算法让它具备的，但要在和人交互的过程中继续学习，逐渐具备中学生、大学生的水平，显然这个模型目前是不具备的这个能力的。张家兴表示，我们在提到通用人工智能时，其中有一个重要的标准就是学习能力，目前的通用人工智能是完全没有学习能力的，因此这是我们接下来要去攻克的一点。

图：微软亚洲研究院首席研究员段楠

段楠在谈到这一问题时也表示，横向纵向都有广阔的发展机会。首先，大模型在纵向上仍有很大的成长空间，目前的大模型的能力更多留在文本、代码和图像方面，未来还可以覆盖更多数据类型，比如声音、视频甚至是触觉、嗅觉等，因此现有的模型还可以按照不同模态的数据继续发展。此外，段楠表示 AI 的系统不一定仅限于某个单一的模型，而可能是一个模型网络，通过链接其他的模型和功能，在组合中创造出更加丰富的任务能力。

延续着 AI 往横向或纵向发展的问题，潘鹏凯继续对话段楠：AI 何时能够创造人类从未看到过的范式或数学公式？段楠表示，以数学为例，目前的大模型在创造力方面还没有达到人类顶级数学家的高度，不过模型已经在大量的样本里学习，目前业界的努力方向是发挥大模型抽取样本背后的规则的能力，这更多是一个归纳而不是创造的过程。段楠认为 AI for science 未来会有更多创新的突破。

紧接着是一个针对性的问题抛给了张家兴：为什么 Facebook 一直在开源，而谷歌反而要闭源？张家兴表示，此次大模型迅速发展完全得益于整个开源的社区，但到了今天，包括谷歌在内的一些大公司认识到，开源开放有助于团队和个人的成长和突破，但对公司本身收益并不大，所以未必是一件好事。在谷歌带头之下，张家兴认为未来大的科技公司一定会减少开源开放，但我们还是要坚持贡献更多的开源通用人工智能大模型，希望能够帮助所有人拥有自己的专业大模型，让模型优化和场景数据形成闭环，这是 AGI 时代商业成功的关键。

AIGC 概念的大火也让这个赛道挤满了各路大科技公司和想要抓住技术机遇的初创公司。要在激烈的竞争中找到自己的定位、脱颖而出，梅涛表示，这轮 AIGC 热潮里的创业门槛其实非常高，首先是人才的门槛很高，顶级技术人才是支撑大模型的基础；其次是算力，尤其是高精度算力的门槛也很高；最后，训练模型还需要用到高质量的数据，这也是开发大模型的数据门槛。在这样的背景下，梅涛认为，创业团队有高密度的科技人才是成功的基础，而在赛道选择上，创业团队要聚焦自己的优势赛道，此外，“跑得快”对创业团队来说也至关重要，要发挥作为创业公司的优势，聚焦做好小领域，才能在与具备资源优势的大公司面前有立足之地。

在讨论的最后，四位论坛嘉宾分别对明年以及十年以后的 AIGC 的发展给出了各自的展望和预期。

段楠表示，展望 AI 未来一年的发展，首先基础模型还会继续发展，同时在多模态方面能够覆盖更多感官；另外，模型的推理能力会得到进一步提升，且当它们找到自己的“手和脚”、学会制造和使用工具，将能够完成更多我们以前不敢想象的创新任务；此外，在模型的可解释性方面，业界会推动模型往更可控、更可靠的方向发展。

张家兴则表示，未来一两年将是语言大模型继续成长的阶段，在技术上一定程度上替代深度学习技术；而更长期来看，大模型在纵向上可能会继续深入，并与物理世界产生直接交互，甚至进行一些主动的思考。此外，一些 AI 智能体可能会出现，与人类共享这个社会，形成人+机器的新智能文明。

梅涛则预期，十年后的场景十分令人期待，首先大模型将具备多模态的能力；大模型、AIGC 将对社会上几乎所有行业进行重构，生产力提高十倍以上；在这样的背景下，有很多人类岗位会被替代，当然也会诞生很多新岗位，但总的来说人类的生活将变得更加美好。

潘鹏凯在总结时表示，“十年以后人类要么永生了，要么被灭亡了”以这个非常极端的预测作为论坛的结尾，也希望我们终究走向永生。