（《机器学习》完整版系列）1-5 没有免费的午餐（NFL）的证明

【西瓜书】中对NFL（没有免费的午餐）定理进行了证明（【西瓜书式（1.1）（1.2）（1.3）】），但过于简化，本文对几个关键点进行补充，从而给出详细的证明。

人工干智能

1378人浏览 · 2023-02-16 20:38:30

人工干智能 · 2023-02-16 20:38:30 发布

没有免费的午餐！没有免费的午餐！没有免费的午餐！重要的事情说三遍。
【西瓜书】中对NFL（没有免费的午餐）定理进行了证明（【西瓜书式（1.1）（1.2）（1.3）】），但过于简化，本文对几个关键点进行补充，从而给出详细的证明。

NFL的证明*

（1）指示函数（用I的变体 $\mathbb{I}$ 表示）
$\mathbb{I}(\boldsymbol{x}\in A) = \begin{cases} 1\, ,\qquad \text{当$\boldsymbol{x}\in A$} \\ 0\, ,\qquad \text{当$\boldsymbol{x}\notin A$} \end{cases} \tag{1}$

（2）误差（点 $\boldsymbol{x}$ 处的误差）

设点 $\boldsymbol{x}$ 处的真实值为 $f(\boldsymbol{x})$ ，预测值为 $h(\boldsymbol{x})$ ，将预测点 $\boldsymbol{x}$ 处误差记为
$E_h(\boldsymbol{x})= \begin{cases} 1\, ,\qquad \text{当预测不准时} \\ 0\, ,\qquad \text{当预测准确时} \end{cases} \tag{2}$
记 $A=\{\boldsymbol{x}: h(\boldsymbol{x})\neq f(\boldsymbol{x})\}$ ，则由式(1)、式(2)有
$E_h(\boldsymbol{x})= \mathbb{I}(h(\boldsymbol{x})\neq f(\boldsymbol{x})) \tag{3}$
（3）期望误差（对于固定的模型 $h$ ，每点的期望误差）

设样本空间（sample space）为 $\mathcal{X}$ ，训练集为 $X$ ， $\boldsymbol{x}$ 的概率函数为 $P(\boldsymbol{x})$ ，对于固定的模型 $h$ ，求 $\mathcal{X}\diagdown X$ 上各点误差的平均值，记为 $\overline{E}_h$ ，则由式(3)有
$\overline{E}_h= \mathop{\mathbb{E}}\limits_{\mathcal{X}\diagdown X} (E_h(\boldsymbol{x}))= \sum\limits_{\boldsymbol{x}\in \mathcal{X}\diagdown X} P(\boldsymbol{x})\mathbb{I}(h(\boldsymbol{x})\neq f(\boldsymbol{x})) \tag{4}$

（4）期望误差（对于固定的算法 $\mathcal{L}_a$ ，每点的期望误差）

前述式(4)是基于固定的 $h$ 的期望误差，而在已知训练集 $X$ 条件下，算法 $\mathcal{L}_a$ 可产生多种 $h$ ，设产生 $h$ 的概率为 $P(h\,|\,X,\mathcal{L}_a)$ ，则对于前述 $\overline{E}_h$ 再做基于 $h$ 的平均（即求基于 $h$ 的期望）
$\mathop{\mathbb{E}}\limits_{h:\mathcal{L}_a}\left(\overline{E}_h\right)= \sum\limits_{h} \overline{E}_hP(h\,|\,X,\mathcal{L}_a) \tag{5}$
而
$\sum\limits_{h} P(h\,|\,X,\mathcal{L}_a)=1 \tag{6}$

因预报范围为 $\mathcal{X}\diagdown X$ ，故将其记为 $E_{\mathrm{ote}}\left(\mathcal{L}_a\,|\,X,f \right)$ （其下标 $\mathrm{ote}$ 指：off-training error），即
$E_{\mathrm{ote}}\left(\mathcal{L}_a\,|\,X,f \right)= \mathop{\mathbb{E}}\limits_{h:\mathcal{L}_a}\left(\overline{E}_h\right) \tag{7}$
由式(4)、式(5)、式(7)即得【西瓜书式(1.1)】

（5）现考虑二分问题所有可能的真值情况，真值函数为 $f:\mathcal{X}\mapsto \{0,1\}$ ，反之，任一个这类映射都有一个真值函数，所有的 $f$ 组成一个集合 $\mathcal{F}$ （函数空间），该集合中元素 $f$ 的个数为
$|\mathcal{F} |=2^{|\mathcal{X} |} \tag{8}$
显然，集合 $\mathcal{F}$ 具有对称性，即对于固定的 $\boldsymbol{x}\in \mathcal{X}$ ，一定有一对 $f_1,f_2\in \mathcal{F}$ ，使得
$\begin{cases} f_1(\boldsymbol{x})=0 \\ f_2(\boldsymbol{x})=1 \end{cases} \tag{9}$
即固定 $\boldsymbol{x}$ ，则 $|\mathcal{F} |$ 中的元素 $f$ ，一半使得 $f(\boldsymbol{x})=0$ ，另一半使得 $f(\boldsymbol{x})=1$ 。

（6）现考虑二分问题的一个预测模型 $h$ 。

当 $h(\boldsymbol{x})=0$ 时
$\begin{aligned} \sum\limits_f\mathbb{I} (h(\boldsymbol{x})\neq f(\boldsymbol{x})) & =\sum\limits_f\mathbb{I} (f(\boldsymbol{x})\neq 0) \\ & =\sum\limits_f\mathbb{I} (f(\boldsymbol{x})=1) \\ & =\frac{1}{2}|\mathcal{F} |\qquad \text{（由前述的对称性）} \\ & =2^{|\mathcal{X} |-1} \qquad \text{（由式(8)）} \end{aligned}$

当 $h(\boldsymbol{x})=1$ 时,同样推导，即无论 $h(\boldsymbol{x})$ 为0还是1，都有
$\sum\limits_f\mathbb{I} (h(\boldsymbol{x})\neq f(\boldsymbol{x})) =2^{|\mathcal{X} |-1} %2^｛|\mathcal{X}| -1｝%% ^处不能有空格 \tag{10}$

（7）考虑 $\mathcal{F}$ 中，关于 $f$ 的总误差。即对【西瓜书式(1.1)】求关于 $f$ 的和。
$\begin{align} \sum_{f}E_{\mathrm{ote}}\left(\mathcal{L}_a\,|\,X,f \right) & =\sum_{f}\sum_{h}\sum_{\boldsymbol{x} \in \mathcal{X}\diagdown X}(\cdots)\quad \text{（$(\cdots)$表示省略）}\notag \\ & =\sum_{\boldsymbol{x} \in \mathcal{X}\diagdown X}\sum_{h}\sum_{f}(\cdots)\quad \text{（交换次序）}\notag \\ & =\sum_{\boldsymbol{x} \in \mathcal{X}\diagdown X}\sum_{h}P(\boldsymbol{x})P(h\,|\,X,\mathcal{L}_a)\sum_{f}\mathbb{I} (h(\boldsymbol{x})\neq f(\boldsymbol{x}))\notag \\ & =\sum_{\boldsymbol{x} \in \mathcal{X}\diagdown X}\sum_{h}P(\boldsymbol{x})P(h\,|\,X,\mathcal{L}_a)2^{|\mathcal{X} |-1}\qquad\text{（由式(10)）} \notag \\ & =2^{|\mathcal{X} |-1}\sum_{\boldsymbol{x} \in \mathcal{X}\diagdown X}P(\boldsymbol{x})\sum_{h}P(h\,|\,X,\mathcal{L}_a)\notag \\ & =2^{|\mathcal{X} |-1}\sum_{\boldsymbol{x} \in \mathcal{X}\diagdown X}P(\boldsymbol{x}) \qquad \text{（由式(6)）} \tag{11} \end{align}$

（8）由式(11)可知，总误差 $\sum_{f}E_{\mathrm{ote}}\left(\mathcal{L}_a\,|\,X,f \right)$ 竟然与算法 $\mathcal{L}_a$ 无关，即用算法 $\mathcal{L}_b$ 去推导仍是相同的结果。表明：无论聪明的算法 $\mathcal{L}_a$ 还是笨拙的算法 $\mathcal{L}_b$ 的期望性能（总误差）相同，故区分不了聪明与笨拙。这就是“没有免费的午餐”定理（NFL）。为什么会出现这种不可思议的情况呢？其原因：我们指望找一个算法“通吃” $\mathcal{F}$ 中的所有 $f$ ，依此去求总误差，在推导中又“假设 $f$ 是均匀分布”，（NFL）定理可以理解为：任一个算法总会在某些 $f$ 上表现好，在某些 $f$ 上表现差（【西瓜书图1.4】说明了这一点），平均下来各算法表现在“ $f$ 是均匀分布”的前提下是一样的，即此时各算法的总误差是一样的。

好在“ $f$ 是均匀分布”被现实世界所否定，即并非任意的映射 $f:\mathcal{X}\mapsto \{0,1\}$ 都可以作为一种真实情况而存在，有的 $f$ 在实际中罕见，甚至根本不存在。可以理解成：现实世界是经过“筛选”了的。
当我们放弃寻找“通吃”的算法时，即针对具体的实际问题（ $f$ ）可以去考虑该误差的最小化（误差 $E_{\mathrm{ote}}\left(\mathcal{L}_a\,|\,X,f \right)$ 与 $f$ 有关），这才是机器学习的任务。

（9）前述 NFL（没有免费的午餐）定理，使用的是“分类错误率”作为性能度量指标，若使用其他性能度量 $\ell$ ，NFL（没有免费的午餐）定理仍成立。

式(2)变为
$E_h(\boldsymbol{x})= \begin{cases} \alpha \, ,\qquad \text{当预测不正确时} \\ \beta \, ,\qquad \text{当预测正确时} \end{cases}$
即
$E_h(\boldsymbol{x})= \begin{cases} \alpha ,\qquad \text{当$f(\boldsymbol{x})\neq h(\boldsymbol{x})$时} \\ \beta ,\qquad \text{当$f(\boldsymbol{x})=h(\boldsymbol{x})$时} \end{cases} \tag{12}$
在 $\mathcal{X}$ 上进行任意二分类（随便分），则共有 $2^{|\mathcal{X}|}$ 个不同的二分类器 $f:\mathcal{X}\mapsto \{0,1\}$ ， $f$ 组成集合 $\mathcal{F}$ ，不妨记为 $|\mathcal{F} |=2^{|\mathcal{X}|}=n$ 。显然 $\mathcal{F}$ 中 $f$ 具有对称性：对于固定的 $\boldsymbol{x}$ 和 $h$ ，则 $\mathcal{F}$ 中的元素 $f$ ，一半使得 $f(\boldsymbol{x})=h(\boldsymbol{x})$ ，另一半使得 $f(\boldsymbol{x})\neq h(\boldsymbol{x})$ ，各占 $\frac{n}{2}$ 个。

由式(12)及对称性，对于固定的 $\boldsymbol{x}$ 和 $h$ ，有
$\begin{align} \sum\limits_f E_h(\boldsymbol{x}) & =\sum\limits_{f(\boldsymbol{x})\neq h(\boldsymbol{x})}E_h(\boldsymbol{x}) +\sum\limits_{f(\boldsymbol{x})= h(\boldsymbol{x})}E_h(\boldsymbol{x}) \notag \\ & =\sum\limits_{f(\boldsymbol{x})\neq h(\boldsymbol{x})}\alpha +\sum\limits_{f(\boldsymbol{x})= h(\boldsymbol{x})}\beta \notag \\ & =\frac{n}{2}\alpha +\frac{n}{2}\beta \notag \\ & = 2^{|\mathcal{X}|-1}(\alpha+\beta) \tag{14} \end{align}$

采用NFL定理证明中的符号，式(11)的推导此时变为
$\begin{align} \sum_{f}E_{\mathrm{ote}}\left(\mathcal{L}_a\,|\,X,f \right) & =\sum_{\boldsymbol{x} \in \mathcal{X}\diagdown X}\sum_{h}P(\boldsymbol{x})P(h\,|\,X,\mathcal{L}_a)\sum_{f} E_h(\boldsymbol{x})\notag \\ & =\sum_{\boldsymbol{x} \in \mathcal{X}\diagdown X}\sum_{h}P(\boldsymbol{x})P(h\,|\,X,\mathcal{L}_a)2^{|\mathcal{X} |-1}(\alpha+\beta)\quad \text{（由式(14)）}\notag \\ & =2^{|\mathcal{X} |-1}(\alpha+\beta)\sum_{\boldsymbol{x} \in \mathcal{X}\diagdown X}P(\boldsymbol{x})\sum_{h}P(h\,|\,X,\mathcal{L}_a)\quad \text{（由式(6)）} \notag \\ & =2^{|\mathcal{X} |-1}(\alpha+\beta)\sum_{\boldsymbol{x} \in \mathcal{X}\diagdown X}P(\boldsymbol{x}) \tag{15} \end{align}$
由式(15)可知，总误差 $\sum_{f}E_{\mathrm{ote}}\left(\mathcal{L}_a\,|\,X,f \right)$ 与算法 $\mathcal{L}_a$ 无关，定理得证。

本文为原创，您可以：

点赞（支持博主）
收藏（待以后看）
转发（他考研或学习，正需要）
评论（或讨论）
引用（支持原创）
不侵权

上一篇：1-4 机器学习中的三个空间
下一篇：2.1误差，还是有误差

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

揭秘易开发核心功能：页面信息提取与无障碍服务配置详解

易开发（DeveloperHelper）是一款专为Android开发者打造的快速开发工具，核心功能包括界面分析、页面信息提取、加固脱壳等，完美支持Android 9.0系统。本文将深入解析其两大核心功能——**页面信息提取**与**无障碍服务配置**，帮助开发者快速掌握使用技巧，提升开发效率。## 一、无障碍服务：易开发的核心引擎 🚀无障碍服务是易开发实现界面分析的基础，通过系统级别的

魔乐社区

魔乐社区上线Qwen3.5全家桶！基于vLLM Ascend的昇腾部署教程已就位

魔乐社区

pry-rails源码探秘：Rails控制台增强插件的实现原理

pry-rails是一款为Rails >= 3应用提供Pry控制台支持的增强插件，它通过替换默认的IRB控制台，为开发者带来更强大的交互式编程体验。本文将深入剖析pry-rails的实现原理，帮助开发者理解其工作机制和核心功能。## Railtie：Rails集成的核心pry-rails的核心集成逻辑位于[lib/pry-rails/railtie.rb](https://link.git