猜想、证明与人工智能--北太天元是连接数学与应用的桥梁_哔哩哔哩_bilibili
更适合基础数学的AI推动数学发展的论文, 我感觉还挺好的,我用人工智能辅助翻译着看的,把翻译部分的内容放在这儿, 也许可以节省点能源(以免文心一言重复翻译)
标题:通过人工智能引导人类直觉推动数学发展
作者:Alex Davies 等人
期刊:自然(Nature),2021年,第600卷
数学的实践涉及发现模式,并利用这些模式来阐述和证明猜想,从而得出定理。自20世纪60年代以来,数学家们一直使用计算机来辅助发现模式和提出猜想,其中最著名的例子是BSD猜想(Birch和Swinnerton-Dyer猜想),这是一个千禧年大奖难题。在本文中,我们提供了在机器学习的帮助下发现纯数学中新基本结论的例子,展示了一种机器学习可帮助数学家发现新猜想和新定理的方法。我们提出了一个使用机器学习来发现数学对象之间潜在模式(pattern)和关系的过程,通过归因技术来理解这些模式,并使用这些观察来引导直觉和提出猜想。我们概述了这一机器学习指导框架,并展示了它在纯数学不同领域当前研究问题中的成功应用,在每个案例中,都展示了该框架如何在重要的开放问题上做出有意义的数学贡献:扭结理论中代数和几何结构之间的新联系,以及对称群的组合不变性猜想所预测的候选算法。我们的工作可作为数学和人工智能(AI)领域之间合作的范例,通过利用数学家和机器学习各自的优势,有望取得惊人的成果。
数学进步的核心驱动力之一是发现模式并提出有用的猜想:即那些疑似为真但在所有情况下都尚未得到证实的陈述。数学家们一直使用数据来辅助这一过程——从高斯等人早期手算得出的素数表(它导致了素数定理的诞生, 素数定理刻画了自然数中素数的渐近分布,简单来说, 随着自然数变大, 其中的素数越来越稀疏, 并且密度以对数衰减),到现代计算机生成的数据(例如BSD猜想的情况)。计算机的引入使得数学家能够更深入地理解以往难以触及的问题,但尽管计算技术在数学过程的其他部分中始终发挥着有用的作用,人工智能(AI)系统尚未确立稳固地位。先前用于生成猜想的系统要么通过不易推广到其他数学领域的方法贡献了真正有用的研究猜想,要么展示了新颖且通用的寻找猜想方法,但这些方法尚未产生数学上有价值的结果。
特别是机器学习领域的人工智能,提供了一系列可以有效检测数据中模式的技术,并已在科学学科中日益展现出其效用。在数学领域,已经证明人工智能可以通过寻找现有猜想的反例、加速计算、生成符号解以及检测数学对象中结构的存在,成为一种有价值的工具。在这项工作中,我们证明了人工智能还可以用于辅助发现数学研究最前沿的定理和猜想。这扩展了使用监督学习来发现模式的工作,重点是使数学家能够理解所学到的函数并得出有用的数学见解。我们提出了一个框架,用机器学习中的强大模式识别和解释方法来增强标准数学家的工具包,并通过展示它如何帮助我们取得两个基本的新发现(一个在拓扑学中,另一个在表示论中)来证明其价值和通用性。我们的贡献展示了如何将成熟的机器学习方法论进行改编并整合到现有的数学工作流程中,以实现新颖的结果。
数学家的直觉在数学发现中起着极其重要的作用——“只有严谨的形式和良好的直觉相结合,才能解决复杂的数学问题”。图1所示的以下框架描述了一种通用方法,数学家可以通过这种方法使用机器学习的工具来指导他们对复杂数学对象的直觉,验证他们关于关系存在的假设,并帮助他们理解这些关系。我们认为,这是一种自然而富有成效的方式,可以将统计学和机器学习中的这些众所周知的技术作为数学家工作的一部分来使用。
,使得 ,并分析该函数,来帮助数学家直观地理解两个与z相关的数学对象X(z)和Y(z)之间的关系,从而让数学家能够理解这种关系的性质。以一个说明性的例子:设z为凸多面体, 表示z的顶点数、边数、体积和表面积,而Y(z) ∈ ℤ表示z的面数。欧拉公式(顶点数+面数-边数=2)指出,在这种情况下,X(z)和Y(z)之间存在一个确切的关系:X(z) · (-1, 1, 0, 0) + 2 = Y(z)。在这个简单的例子中,除了许多其他方法外,还可以通过传统的数据驱动猜想生成方法来重新发现这种关系。然而,对于更高维空间中的X(z)和Y(z),或者更复杂类型的X(z)和Y(z)(如图),以及更复杂、非线性的情况,这种方法要么不太有用,要么完全不可行。
这个框架以两种方式帮助引导数学家的直觉:通过使用监督机器学习来验证数学对象中假设存在的结构/模式;以及通过使用归因技术来帮助理解这些模式。
在监督学习阶段,数学家提出一个假设,即X(z)和Y(z)之间存在关系。通过生成X(z)和Y(z)对的数据集,我们可以使用监督学习来训练一个函数,该函数仅使用X(z)作为输入来预测Y(z)。在这个回归过程中,机器学习的主要贡献是给定足够数量的数据时可以学习的广泛可能的非线性函数集。如果函数的准确性高于偶然预期,则表明可能存在这种关系值得探索。如果是这样,归因技术可以帮助数学家充分理解所学函数,从而猜想一个候选的f'。归因技术可以用来理解哪些方面对于Y(z)的预测是相关的。例如,许多归因技术旨在量化函数对X(z)的哪个分量敏感。我们在工作中使用的归因技术——梯度显著性——是通过计算函数输出相对于输入的导数来实现这一点的。这允许数学家识别并优先考虑最可能与关系相关的问题方面。这个迭代过程可能需要重复几次,才能确定一个可行的猜想。在这个过程中,数学家可以指导猜想的选择,使其不仅符合数据,而且看起来有趣、似乎真实,并且理想情况下能够提示证明策略。
从概念上讲,这个框架提供了一个“直觉测试平台”——快速验证关于两个数量之间关系的直觉是否值得追求,如果值得,则提供关于它们可能如何相关的指导。我们已经使用上述框架帮助数学家在两个案例中获得了有影响力的数学结果——发现和证明了结理论中代数和几何不变量之间的第一个关系,以及猜想对称群组合不变性猜想的解决方案,这是表示论中一个众所周知的猜想。在每个领域,我们都展示了该框架如何成功地帮助数学家取得成果。在这些案例中,必要的模型可以在配备单个图形处理单元的计算机上在几个小时内完成训练。
拓扑学:发现了扭结理论中代数和几何结构之间的新联系。通过机器学习模型,发现了几何不变量与扭结特征数(signature)之间的关系,并提出了一个新的量“自然斜率”(natural slope)来描述这种关系。
表示论:针对对称群的Kazhdan-Lusztig多项式,提出了组合不变性猜想的解决方案。通过机器学习模型预测未标记的Bruhat区间对应的KL多项式,并通过归因技术发现了关键的子图结构,进而提出了一个新的计算KL多项式的公式。
低维拓扑是数学中一个活跃且具有影响力的领域。其中,结(即三维空间中的简单闭合曲线)是研究的关键对象之一。该领域的主要目标是对结进行分类、理解其性质,并建立与其他领域的联系。实现这些目标的主要方式之一是通过不变量,这些不变量是代数、几何或数值量,对于任意两个等价的结都是相同的。这些不变量可以通过多种不同的方式推导出来,但我们主要关注两个主要类别:双曲不变量和代数不变量。这两种类型的不变量源自截然不同的数学学科,因此建立它们之间的联系具有重要意义。图2展示了小结的一些不变量示例。一个引人注目的猜想联系是体积猜想,它提出结的双曲体积(一种几何不变量)应编码在其着色Jones多项式(一种代数不变量)的渐近行为中。
表示论是线性对称性的理论。所有表示的构建块都是不可约表示,而理解这些不可约表示是表示论最重要的目标之一。不可约表示推广了傅里叶分析的基本频率。在几个重要的例子中,不可约表示的结构由Kazhdan-Lusztig(KL)多项式控制,这些多项式与组合学、代数几何和奇点理论有着深刻的联系。KL多项式是附加在对称群(或更一般地,Coxeter群)中元素对上的多项式。组合不变性猜想是一个关于KL多项式的引人入胜的未解决猜想,已经存在了40年,但仅取得了部分进展。它指出,对称群SN中两个元素的KL多项式可以从它们的无标签Bruhat区间(一个有向图)计算得出。理解这些对象之间关系的一个障碍是,非平凡KL多项式(即不等于1的多项式)的Bruhat区间是非常大的图,很难对其形成直观理解。图4展示了一些小的Bruhat区间及其KL多项式的例子。
我们将这个猜想作为我们的初始假设,并发现监督学习模型能够从Bruhat区间以相当高的准确率预测KL多项式。通过实验探索我们将Bruhat区间输入到网络中的方式,很明显一些特定的图和特征选择特别有助于进行准确预测。特别是,我们发现受先前工作启发的一个子图可能足以计算KL多项式,并且这得到了一个更为准确的估计函数的支持。
通过计算归因技术确定的最相关显著子图,并分析这些图中的边分布与原始图中的边分布,我们发现了进一步的结构证据。在图5a中,我们根据它们所代表的反射聚合了显著子图中边的相对频率。它表明,极端反射(对于SN,形式为(0, i)或(i, N-1)的反射)在显著子图中出现的频率高于预期,而简单反射(形式为(i, i+1)的反射)则出现得较少,这在图5b中对模型进行多次重新训练后得到了确认。这是值得注意的,因为网络没有给出边的标签,并且无法从无标签的Bruhat区间中恢复这些标签。从KL多项式的定义来看,简单反射和非简单反射之间的区别对于计算它是直观的;然而,最初并不明显为什么极端反射会在显著子图中过度表示。考虑这个观察结果后,我们发现区间自然可以分解为两部分:由一组极端边诱导的超立方体和与SN-1中的区间同构的图。
a,预测q4时,与数据集中区间的平均值相比,显著子图中存在的反射百分比增加的示例热图。b,对于模型10次重新训练得到的显著子图中每种类型的观察边与从数据集中抽取的相同大小的10个自助样本的比较。误差条表示95%置信区间,所示显著性水平是使用双侧两样本t检验确定的。p < 0.05;***p < 0.0001。c,对于区间021435-240513∈S6,通过假设、监督学习和归因的迭代过程发现的有趣子结构的图示。受先前工作启发的子图用红色突出显示,超立方体用绿色表示,与SN-1中的区间同构的分解组件用蓝色表示。
全尺寸图像
图5c中所示的两个结构的重要性导致了一个证明,即KL多项式可以直接通过超立方体和SN-1组件通过一个优美的公式计算得出,该公式总结在补充信息中。对数学结果的进一步详细处理见参考文献32。
定理:每个Bruhat区间都沿着其极端反射承认一个规范的超立方体分解,从中可以直接计算KL多项式。
值得注意的是,进一步的测试表明,所有超立方体分解都能正确确定KL多项式。这已经在对称群S7之前的所有约3×106个区间上进行了计算验证,以及在从对称群S8和S9中抽取的超过1.3×105个非同构区间上进行了验证。
猜想:无标签Bruhat区间的KL多项式可以使用前面的公式与任何超立方体分解进行计算。
如果这个猜想被证明为真,那么它将解决对称群的组合不变性猜想。这是一个有前景的方向,因为不仅这个猜想在相当大的例子上得到了实证验证,而且它还具有一个特别优美的形式,这为攻克这个猜想提供了潜在的途径。这个例子展示了如何从训练过的模型中获得关于大型数学对象行为的非平凡见解,从而发现新的结构。
归因技术(Attribution techniques)
在机器学习和数据科学中,归因技术是用来理解模型决策背后的原因或特征重要性的一种工具。当模型(如神经网络)做出预测时,归因技术可以帮助我们理解哪些输入特征对模型的预测结果贡献最大。这对于提高模型的透明度和可解释性至关重要。
在这个文章中, 归因技术用于分析神经网络如何根据输入特征(在这个例子中是几何不变量)来预测代数不变量(如结的签名)。通过计算梯度等敏感度指标,归因技术能够识别出哪些几何不变量对预测签名最为重要。
最相关显著子图(Salient subgraphs)
在图论和机器学习中,“显著子图”(Salient subgraphs)通常指的是在网络图中与特定任务或查询最相关且信息量最大的子结构。这些子图通过某种度量(如特征重要性、边权重等)从原始图中提取出来,通常比原始图更小但包含更多关于任务的有用信息。
“最相关显著子图”是通过归因技术确定的那些对模型预测最为关键的图结构。这些子图通过分析输入图(在这个例子中是未标记的Bruhat区间图)中哪些节点和边对预测Kazhdan–Lusztig多项式系数最为重要来识别。通过分析这些显著子图的边分布与原始图的比较,可以进一步理解模型是如何从图中提取信息的。
在这项工作中,我们展示了一个框架,使数学家能够使用机器学习,从而在两个不同学科领域获得数学洞察力:首次连接了结的代数和几何结构,以及提出解决表示论中一个长期悬而未决的猜想。我们没有使用机器学习来直接生成猜想,而是专注于帮助引导专家数学家的敏锐直觉,从而产生既有趣又深刻的结果。显然,直觉在许多人类追求中的精英表现中发挥着重要作用。例如,对于顶尖的围棋选手来说,直觉至关重要,而AlphaGo的成功部分归功于其使用机器学习来学习人类凭直觉进行的比赛元素的能力。同样,对于顶尖数学家来说,直觉也被视为至关重要——拉马努金被誉为“直觉王子”,并且他的直觉激发了著名数学家们对这一领域地位的反思。由于数学是一项与围棋截然不同的、更具合作性的工作,因此人工智能在协助直觉方面的作用更加自然。在这里,我们展示了在这个方面确实存在有助于数学家的广阔空间。
我们的案例研究表明,一个经过深入研究且具有数学趣味性的领域中的基础性联系可能会被忽视,以及该框架如何使数学家能够更好地理解他们原本无法在其中观察到模式的过大对象的行为。这个框架的应用范围存在局限性——它需要能够生成对象表示的大型数据集,并且需要在可计算的示例中检测到模式。此外,在某些领域中,这种范式下可能难以学习感兴趣的函数。然而,我们相信有许多领域可以从我们的方法中受益。更广泛地说,我们希望这个框架是一个有效的机制,能够将机器学习引入数学家的工作中,并鼓励这两个领域之间的进一步合作。