机器学习与物理科学（一）（Machine learning and the physical sciences）

Machine learning and the physical sciences摘要Ⅰ.引言（INTRODUCTION）A. 机器学习相关概念（ Concepts in machine learning）1.监督学习和神经网络（ Supervised learning and neural networks）2.无监督学习和生成建模（Unsupervised learning and gene

Wendy_WHY_123

4194人浏览 · 2020-03-11 20:52:18

Wendy_WHY_123 · 2020-03-11 20:52:18 发布

Machine learning and the physical sciences

作者：Giuseppe Carleo ，Ignacio Cirac ，Kyle Cranmer ，Laurent Daudet ，Maria Schuld ，Naftali Tishby ，Leslie Vogt-Maranto ，Lenka Zdeborová
翻译：Wendy

摘要

机器学习包含用于大量数据处理任务的广泛算法和建模工具，这些已进入近年来最科学的学科。我们以选择性的方式回顾了有关机器学习与物理科学之间的交叉领域的最新研究。这包括以物理见解为动力的机器学习（ML）的概念性发展，机器学习技术在物理学中多个领域的应用以及这两个领域之间的交叉应用。在给出了机器学习方法和原理的基本概念之后，我们描述了如何 使用统计物理学来理解机器学习中的方法的示例。然后，我们将描述 ML方法在粒子物理学和宇宙学，量子多体物理学，量子计算以及化学和材料物理学中的应用。我们还将重点介绍旨在 加速ML的新型计算体系结构的研究和开发。在每个部分中，我们都描述了最近的成功以及特定领域的方法和挑战。

Ⅰ.引言（INTRODUCTION）

在过去的十年中，基于机器学习（ML）的技术有了惊人的发展，影响了工业中的许多领域，包括自动驾驶，医疗保健，金融，智能制造，能源等。就像在1980年代和1990年代的计算机一样，ML在很大程度上被视为我们这个时代的主要突破性技术之一。机器学习的总目标是识别数据中的模式，这些模式为处理未见问题提供了依据。例如，在高度复杂的系统（例如自动驾驶汽车）中，必须将来自传感器的大量数据转换为如何通过“学习”识别“危险”模式的计算机来控制汽车的决策。

ML在最近的成功首先是在通过 对某些现有技术的显着改进（例如在图像识别领域）方面。这些进步在很大程度上构成了机器学习方法可能对专业化任务产生影响的第一个证明。最近，特别是通过深度学习技术，成功地研发了传统上无法使用自动化软件的应用程序。例如，在游戏中对强化学习技术的证明，对整个领域正在向通用人工智能的预期迈进了一步的感觉产生了深远的影响。

与ML技术在工业应用中的兴起同时，科学家对ML在基础研究中的潜力也越来越感兴趣，物理学也不例外。在某种程度上，这并不奇怪，因为机器学习和物理学都共享它们的一些方法和目标。这两门学科都关注收集和分析数据以设计模型的过程，这些模型可以预测复杂系统的行为。但是，这些领域在实现其基本目标的方式上明显不同。一方面，物理学家希望了解自然的机制，并以使用自己的知识，智慧和直觉为模型提供信息感到自豪。另一方面，机器学习通常相反：模型不可知，机器通过从数据中提取来提供“智能”。尽管通常强大，但众所周知，生成的模型与数据模式本身一样，对我们的理解是不透明的。因此，物理学中的机器学习工具受到了一些人的热烈欢迎，而另一些人则对此表示怀疑。难以否认的是，它们在某些情况下会产生令人惊讶的良好结果。

在这篇综述中，我们试图提供一个关于ML与物理学的不同交集的连贯选择的说明。具体来说，我们研究了ML近期在众多领域中的广泛应用（从统计和量子物理学到高能和宇宙学），并讨论了在不同情况下“智能”数据挖掘技术的潜在应用和挑战。我们从 第Ⅱ部分的统计物理学领域 开始本次回顾，在该节中，与机器学习的交互已有很长的历史，它利用物理学中的方法来更好地理解机器学习中的问题。然后，我们将方向转向使用机器学习进行物理学的另一个方向。第Ⅲ节介绍了 高能物理和宇宙学领域 的进展，第Ⅳ节回顾了 机器学习思想如何帮助理解多体量子系统的奥秘，第Ⅴ节简述了在 量子计算中机器学习的前景，在第Ⅵ节中，我们重点介绍由于 ML应用而在计算化学和材料设计方面 取得的一些令人惊奇的进步。在第Ⅶ节中，我们讨论了一些 仪器仪表方面 的进展，这些进展可能会导致适用于执行机器学习任务的硬件。第Ⅷ节给出了一些相关的展望。

A. 机器学习相关概念（ Concepts in machine learning）

出于综述的目的，我们将简要解释机器学习中使用的一些基本术语和概念。为了进一步阅读，我们提供了一些参考文献，其中一些资源特别针对物理读者。对于该领域的发展历史回顾，我们推荐参考文献（LeCun等人，2015； Schmidhuber，2014）。Ref是物理学家最近对机器学习的出色介绍（Mehtaet 等人，2018），其中包括具有实践示范的示例。弗洛里安·马夸特（Florian Marquardt）的课程“物理学家的机器学习” 是一个非常有用的在线资源（https://machine-learning-for-physicists.org/）。机器学习研究人员撰写的有用教科书如克里斯托弗·毕晓普（Christopher Bishop）的标准教科书（Bishop，2006），以及（Goodfellow等人，2016），该书侧重于深度学习的理论和基础，并涵盖了当今研究的许多方面。各种在线教程和讲座对于获得基本概述和开始该主题很有用。要了解1980年代至1990年代在神经网络统计物理学方面取得的理论进展，我们推荐一本比较易读的书《统计力学》（Engel和Van den Broeck，2001年）。要了解统计物理中重复试验方法的详细信息及其在计算机科学，信息论和机器学习中的应用，我们将推荐《 Nishimori》（Nishimori，2001年）一书。对于最新的统计物理学方法论，梅扎德和蒙塔纳里的教科书是一个很好的参考书（梅扎德和蒙塔纳里，2009年）。

为了对机器学习能够解决的问题类型有一个基本的了解，定义三个大类的学习问题很有用：监督学习，无监督学习和强化学习。这也将使我们能够陈述基本术语，构建基本设备以解释一些机器学习的基本工具。

1.监督学习和神经网络（ Supervised learning and neural networks）

在监督学习中，我们得到了一组n个数据样本，让我们表示一个这样的样本在这里插入图片描述其中 µ = 1,…,n。为了具体起见，每个Xµ可能是动物的黑白照片，而像素数是p。对于每个样本Xµ，我们进一步得到标记yµ∈R^d，最常见的是d = 1。标签可以编码例如照片上的动物种类。监督学习的目的是找到一个函数f，以便在没有标签的情况下呈现新样本Xnew时，函数f（Xnew）的输出很好地逼近标签。数据集{Xµ,yµ}µ=1,…,n被称为训练集。为了测试结果函数f，通常将可用数据样本分为用于学习该函数的 训练集 和用于评估性能的 测试集。现在让我们描述最常用的找合适函数f的训练过程。最常见的是，该函数用一组参数表示，称为权重w∈Rk，得到fw。然后对一个样本µ构造一个所谓的损失函数 L[fw(Xµ),yµ]，让损失函数取最小值，就得到预测标签与实际标签越相近。然后将训练集上的损失平均值称为经验值在这里插入图片描述
在训练过程中，调整权重w以便最大程度地减少经验风险。训练误差衡量了这种最小化的效果。最重要的错误概念是泛化错误，与在训练集中未发现的数据样本Xnew的预测标签ynew的性能有关。在应用程序中，通常的做法是通过随机选择一部分可用数据来构建测试集，然后使用剩余部分作为训练集来进行训练。我们注意到，在文献的一部分中，泛化误差是测试集的性能与训练集的性能之间的差异。

最常用的使权重上的经验风险函数最小化的算法是基于权重w的梯度下降。这意味着权重在经验风险梯度的方向上进行迭代调整
在这里插入图片描述
执行该速率的参数γ称为学习速率。梯度下降的一个非常常用且成功的变体是随机梯度下降（ stochastic gradient descent，SGD），其中，全部经验风险函数R都被少量样本的贡献所代替。样本的这个子集称为 微型批次（mini-batch ） ，可以小到单个样本。用物理学的术语来说，SGD算法经常与有限温度下的 Langevin动力学 进行比较。零温度下的Langevin动力学是梯度下降的。正温度会引入热噪声，在某种程度上类似于SGD产生的热噪声，但与其他噪声不同。在实践中使用了SGD算法的许多变体。权重的初始化在实践中可能会改变性能，学习速率的选择和各种所谓的正则化项也可能会改变，例如权重衰减会对权重趋于收敛到较大的绝对值的权重进行惩罚。选择好的算法很重要，有很多启发式经验法则，当然希望有更多关于该问题的理论见解。

监督学习任务的一个典型示例是分类，即当标签yµ取离散集合中的值，然后所谓的准确性被测量为所学习函数对数据点进行正确分类的概率。另一个示例是回归，其目标是学习实值函数，并且通常根据真实标签与其获悉的估计值之间的均方误差来衡量准确性。其他示例是 序列到序列学习，其中输入和标签都是维数大于一的向量。

有许多监督学习的方法，每种方法都有许多变体。最基本的监督学习方法之一是广泛使用的 线性回归，其中函数fw（X）的参数形式为fw（Xµ）= Xµw，其中w∈Rp。当数据集取自高维空间中并且样本数量不比维度大很多时，必不可少使用线性回归的 正则化 形式（称为岭回归或Tikhonov正则化）。岭回归（ridge regression ）在形式上等同于假设权重w具有高斯先验。参数化fw（Xµ）= g（Xµw）的线性回归的一般形式也经常使用，其中g是某些输出通道函数，其性质在第II.D.1节中描述。另一种流行的正则化方法是基于在分类任务中分离示例，以使它们之间的类别被尽可能宽的明显间隙分开。这个想法支持所谓的 支持向量机 方法的定义。岭回归的一种相当强大的非参数概括是内核岭回归。核岭回归与高斯过程回归密切相关。支持向量机方法通常与内核方法结合使用，因此在许多应用程序中仍然是最先进的方法，尤其是在可用样本数量不是很大的情况下。

另一种经典的监督学习方法是基于所谓的 决策树。决策树用于从对数据样本的观察（在分支中表示）到关于项目目标值（在叶子中表示）的结论。决策树在物理科学中最著名的应用是在 粒子加速器的数据分析 中，如第 III.B.节所述。

过去十年机器学习革命背后的监督学习方法是 多层前馈神经网络（FFNN），有时也称为多层感知器。对于本次综述而言，这也是一种非常相关的方法，在此我们将对其进行简要介绍。在L层全连接的神经网络中，函数fw（Xµ）的参数设置如下
在这里插入图片描述
是所谓的激活函数，它们分别对向量起作用。我们注意到激活函数中的输入是前一层的输出的十个稍微更通用的变换，它们仅对矩阵乘法进行矩阵运算，例如偏差。层数L称为网络的深度。深度大于某个小整数的神经网络称为深度神经网络。随后，基于深度神经网络的机器学习称为深度学习。

神经网络理论告诉我们，没有隐藏层（L = 1，对应于广义线性回归），可以用这种方式近似的函数集非常有限（Minsky和Papert，1969）。另一方面，已经有一个隐藏层L = 2，它足够宽，即r1足够大，并且在函数g（1）是非线性的情况下，原则上可以很好地近似一类非常普通的函数（ Cybenko，1989年）。但是，这些理论并未告诉我们怎样更有效地学习W（1），…，W（L）的最佳参数集（激活函数，层的宽度和深度）。从过去十年的经验成功中我们知道，使用梯度下降或SGD算法的深层神经网络可以处理许多令人感兴趣的任务。在深度神经网络中，使用链规则来计算权重的导数，从而导致著名的 反向传播算法，该算法可以有效地调度计算所有梯度所需的运算（Goodfellow等，2016）。

（深度）前馈神经网络的一个非常重要且功能强大的变体是所谓的 卷积神经网络（Goodfellowet等人，2016），其中，通过应用于输入空间的一小部分的过滤器，可以将每个隐藏单元的输入信息获取。然后将过滤器移至与不同隐藏单元相对应的不同位置。卷积神经网络实现转换的不变性，尤其适合图像分析。与完全连接的神经网络相比，卷积神经网络的每一层参数数量要少得多，这在实践中有利于学习算法。卷积神经网络的类型和方差很多，其中我们将提到 残差神经网络（ResNets） 使用快捷方式跳过某些层。前馈神经网络相近的是所谓的 递归神经网络（RNN） ，其中单元的输出在下一个时间步中在输入端进行反馈。因此，在RNN中，结果是由一组权重给出的，但也由状态的整个时间序列给出的。由于其固有的动力学性质，RNN特别适合于学习时间数据集，例如语音，语言和时间序列。同样，RNN上有很多类型和变体，但是在过去十年中引起人们最大兴奋的是可以说的 长短期记忆（LSTM）网络（Hochreiter和Schmidhuber，1997）。LSTM及其深层变体是语音处理，音乐创作和自然语言处理等任务中的最新技术。

2.无监督学习和生成建模（Unsupervised learning and generative modelling）

无监督学习是一类学习问题，其中获得的数据与有监督学习一样，但是没有标签可用。此处学习的目标是恢复数据集中的一些基础（可能是非平凡的）结构。无监督学习的一个典型示例是 数据聚类，其中将数据点按组分配，这样每个组都具有一些共同的属性。在无监督学习中，人们通常会 寻找一种概率分布，该概率分布会生成与观察到的数据样本在统计上相似的样本，这通常被称为生成建模。在某些情况下，此概率分布以显式形式编写，并显式或隐式参数化。生成模型内部包含潜在变量作为随机性的来源。当潜在变量的数量远小于数据的维数时，我们称之为 维数缩减。进行无监督学习的一种方法是搜索潜在变量的值，以使观察到的数据的可能性最大化。

在一系列应用中，与所观察到的数据相关的可能性未知，或者计算起来本身很难。在这种情况下，下面讨论的某些生成模型会采用替代的无可能性路径。在第III.D节中，我们还将讨论所谓的ABC方法，它是一种无可能性的推断，并且在物理学中出现的许多情况下被证明非常有用。

无监督学习的基本方法包括 主成分分析（PCA）及其变体。我们将在第II.C.1节中介绍使用物理学获得的有关这些方法的一些理论见解。物理上非常吸引人的无监督学习方法是所谓的 玻尔兹曼机（BM） 。BM基本上是反伊辛模型，其中数据样本被视为来自成对相互作用的伊辛模型的Boltzmann分布的样本。目的是了解相互作用和磁场的值，以便观察到的数据的可能性（以玻耳兹曼度量的概率）很大。受限的Boltzmann机器（RBM） 是BM的一种特殊情况，其中两种变量-可见的单位（可看到输入数据）和隐藏的单位通过有效耦合相互作用。在这种情况下，仅在可见和隐藏单元之间进行交互，并再次进行调整，以使观察到的数据的可能性较大。考虑到对物理模型的吸引人的解释，BM和RBM的应用在几个物理领域中得到了广泛的应用，例如在IV.A节中。

自动编码器 是执行非监督学习但能够 使用监督学习开发 的所有方法和算法的一个非常巧妙的想法。自动编码器是一种前馈神经网络，其输入数据既在输入上，又在输出上。在某些中间层与数据维数相比具有非常小的宽度的意义上，其目的是在通常遇到瓶颈的同时重现数据。当时的想法是，自动编码器旨在找到一种简洁的数据表示形式，该数据仍保持每个样本的显着特征。 变分自动编码器（VAE） （Kingma and Welling，2013; Rezende等人，2014）结合变分推理和自动编码器为数据提供了一个深层的生成模型，可以以无监督的方式对其进行训练。

值得一提的另一种无监督学习方法是 对抗性生成网络（GAN） （Goodfellow 等人，2014）。GAN在过去的几年中引起了广泛的关注，并且构成了另一种富有成效的方式，可以利用在有监督学习的过程中取得的进展来进行无监督学习。GAN通常使用两个前馈神经网络，一个称为生成器，另一个称为鉴别器。生成器网络用于从随机输入生成输出，并经过设计，以使输出看起来像观察到的样本。鉴别器网络用于区分真实数据样本和生成器网络生成的样本。鉴别器的目标是在此分类任务中实现尽可能最高的准确性，而调整生成网络以使鉴别器的准确性尽可能最小。GAN当前是用于 图像处理 中许多应用程序的最先进系统。

建模分布的其他有趣方法包括对流量和自回归模型进行归一化，其优势在于具有可控制的可能性，因此可以通过最大的可能性进行训练（Larochelle和Murray，2011; Papamakarios等，2017; Uria等，2016）。

在应用程序中重要的监督学习和非监督学习之间的混合包括半监督学习（其中只有一些标签可用）或主动学习（其中可以以一定成本为一组选定的数据点获取标签）。

3.强化学习（ Reinforcement learning）

强化学习（Sutton and Barto，2018）是机器学习的一个领域，其中（人工）代理人在环境中采取行动以达到最大回报的目的。该动作以某种方式改变环境状态，并且代理通常观察到一些有关环境状态和相应奖励的信息。根据这些观察，代理决定下一个动作，从而优化选择哪个动作的策略，以最大程度地提高回报。这种学习方式设计用于以下情况：了解环境属性的唯一方法是与环境进行交互。强化学习中的一个关键概念是，在迄今发现的良好策略的利用与探索之间寻求最佳的策略。我们还应该注意，强化学习与控制理论的领域密切相关，特别是 最优控制理论。

在许多作品中应用的强化学习的主要类型之一是所谓的 Q学习。Q学习基于值矩阵Q，该值矩阵在环境处于给定状态时分配给定动作的质量。然后迭代地精炼该值函数Q。在Q学习的最新高级应用中，状态和动作的集合是如此之大，以至于甚至无法存储整个矩阵Q。在那些情况下，使用深度前馈神经网络以简洁的方式表示功能。这引起了深入的Q学习。

强化学习成功的最著名的最近例子是计算机程序 AlphaGo和AlphaGo Zero，这在历史上第一次在传统的棋盘游戏中达到了超人的表现。强化学习的另一个众所周知的用途是 机器人的运动。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐