【机器学习】贝叶斯线性回归

贝叶斯线性回归。不是什么新奇的东西，实际上就是线性回归从贝叶斯派的角度去理解罢了。本文将从贝叶斯派的角度去推导。

鬼魅森林☚

2804人浏览 · 2023-11-15 21:38:34

鬼魅森林☚ · 2023-11-15 21:38:34 发布

1、前言

贝叶斯线性回归。不是什么新奇的东西，实际上就是线性回归从贝叶斯派的角度去理解罢了。本文将从贝叶斯派的角度去推导。
数学基础：【概率论与数理统计知识复习-哔哩哔哩】

2、引入

在这里插入图片描述

很显然，在频率派的角度去理解的话，就是要找出一条直线，让每一个点和直线之间的误差最小。所以按频率派的思路，直线为
$f(x)=w^Tx+b$
设我们每一个点的坐标为 $\left((x_1,y_1),(x_2,y_2),\cdots,(x_n,y_n)\right)$ 。

所以我们只需要设置损失函数，让它最小
$\arg\min\limits_{w}\sum\limits_{i=1}^n(f(x)-y_i)^2$
而 $y_i$ 自然就是对应点 $x_i$ 的纵坐标的值，让每一个点都和直线对应值做差，让他们最小，然后找到最合适的w即可。w被认为是未知的常量。

然而，贝叶斯派却不是这样。从贝叶斯派的角度去看的话，参数 $w$ 被认为是一个随机变量，服从一定的概率分布。而 $f (x)$ 也是如此。所以
$f(x)=w^Tx+b \\ y=f(x)+\epsilon\tag{1}$
$f (x)$ 是随机变量， $y$ 也是随机变量， $\epsilon \sim \mathcal{N}(0,\sigma^2)$ 的正态分布，所以要求出 $f (x)$ 的概率分布，就必须先求出 $w$ （后验）对应的概率分布。

3、原理推导

3.1、后验w

在求解之前，先对里面的值做一些定义
$X=\begin{pmatrix} x_1 & x_2 & \cdots &x_n \end{pmatrix}^T; \\Y=\begin{pmatrix} y_1 & y_2 & \cdots &y_n \end{pmatrix}^T; \\w=\begin{pmatrix} w^1 & w^2 & \cdots &w^p \end{pmatrix}^T;$
其中，每一个 $x_i$ 都是p维的列向量。在这里就不展开了(或者可以看式2)。有n个样本。我们知道
$f(x)=w^Tx+b=w^1x^1+w^2x^2+\cdots+w^px^p+b$
为了简洁，对于每一个x，和w，重定义为
$x=\begin{pmatrix} x^1 & x^2 & \cdots & x^p & 1 \end{pmatrix} \\w=\begin{pmatrix} w^1 & w^2 & \cdots & w^p & b \end{pmatrix} \tag{2}$
要求出随机变量w概率分布，就是要利用对应的数据 $X, Y$ 求解，即
$P(w|X,Y)=\frac{P(w,Y|X)}{P(Y|X)}=\frac{P(Y|w,X)P(w|X)}{P(Y|X)}$
里面用到的是贝叶斯公式的转化。

因为我们要求的是w的概率分布，并且X，Y都是给定的， $\boxed{所以P(Y|X)可以当作是一个常数项(X,Y是给定)}$ ，所以
$P(w|X,Y)\propto P(Y|w,X)P(w|X)$
对于里面的 $P (w ∣ X)$ ， $\boxed{我们一般认为是先验分布}$ ，是我们要给定的，现在，假设我们给定为
$P(w|X)\sim \mathcal{N}(w|\mu_p,\Sigma_p)$
也就是我们假定它服从期望为0，协方差矩阵为 $\Sigma_g$ 的正态分布。

所以我们们要先求出 $P (Y ∣ w, X)$ ，才能求出后验 $P (w ∣ X, Y)$

3.2、求解似然

对于 $P (Y ∣ w, X)$ ，我们一般称为似然
$P(Y|w,X)=\prod\limits_{i=1}^nP(y_i|w,x_i)\tag{3}$
我们知道，对于随机变量y，我们前面有（式1）
$y=w^Tx+\epsilon$
里面的式子每一个都是随机变量

但是对于随机变量 $y ∣ w, x$ ，w和x都是给定的，不再是随机变量，又因为 $\epsilon \sim \mathcal{N}(0,\sigma^2)$ ，所以实际上
$P(y|w,x)\sim \mathcal{N}(y|w^Tx,\sigma^2)$
对这个不熟悉的可以参考线性动态系统中的概率求解，里面讲解了这种问题的解法。

所以依据高斯分布的共轭性质，如果似然和先验都是高斯分布，那么对应的后验同样也是高斯分布

我们设假设它的参数，即
$(w|X,Y)\sim \mathcal{N}(\mu_k,\Sigma_k)$
所以对于（式3）
$\begin{equation}\begin{aligned} P(Y|w,X)=&\prod\limits_{i=1}^nP(y_i|w,x_i) \\=&\prod\limits_{i=1}^n\frac{1}{\sqrt{2\pi}\sigma}\exp\left\{-\frac{(y_i-w^Tx_i)^2}{2\sigma^2}\right\} \\=&\frac{1}{(2\pi)^{\frac{n}{2}}\sigma^n}\exp\left\{-\frac{1}{2\sigma^2}\sum\limits_{i=1}^n(y_i-w^Tx_i)^2\right\} \nonumber\end{aligned}\end{equation}$

对于exp里面
$\begin{equation}\begin{aligned} &\sum\limits_{i=1}^n(y_i-w^Tx_i)^2 \\=&\begin{pmatrix} y_1-w^Tx_1 & y_2-w^Tx_2 & \cdots & y_n-w^Tx_n \end{pmatrix} \begin{pmatrix} y_1-w^Tx_1 \\ y_2-w^Tx_2 \\ \cdots \\ y_n-w^Tx_n \end{pmatrix} \\=&(Y-Xw)^T(Y-Xw) \nonumber\end{aligned}\end{equation}$

所以
$\begin{equation}\begin{aligned} P(Y|w,X)=&\frac{1}{(2\pi)^{\frac{n}{2}}\sigma^n}\exp\left\{-\frac{1}{2\sigma^2}(Y-Xw)^T(Y-Xw)\right\} \\=&\frac{1}{(2\pi)^{\frac{n}{2}}\sigma^n}\exp\left\{-\frac{1}{2}(Y-Xw)^T\sigma^{-2}(Y-Xw)\right\} \\=&\frac{1}{(2\pi)^{\frac{n}{2}}\sigma^n}\exp\left\{-\frac{1}{2}(Y-Xw)^T\sigma^{-2}\mathbb{I}(Y-Xw)\right\} \nonumber\end{aligned}\end{equation}$
其中 $\mathbb{I}$ 是一个单位矩阵，之所以要写入一个单位矩阵，就是因为 $\sigma^{-2}$ 是一个一维实数。而我们需要的是矩阵形式。

不难看到，这就是一个多维高斯分布的概率密度函数，所以直接就可以得到
$P(Y|w,X)\sim \mathcal{N}(Xw,(\sigma^{-2}\mathbb{I})^{-1})$

3.3、求解后验

结合 $P(w|X)\sim \mathcal{N}(w|0,\Sigma_g)$ ，得到
$\begin{equation}\begin{aligned} P(w|X,Y)\propto& P(Y|w,X)P(w|X) \\=&\frac{1}{(2\pi)^{\frac{n}{2}}\sigma^n}\exp\left\{-\frac{1}{2}(Y-Xw)^T\sigma^{-2}\mathbb{I}(Y-Xw)\right\}\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma_p|^{\frac{1}{2}}}\exp\left\{-\frac{1}{2}(w-\mu_p)^T\Sigma_p^{-1}(w-\mu_p)\right\} \\=&\frac{1}{(2\pi)^{\frac{n+p}{2}}\sigma^n|\Sigma_p|^{\frac{1}{2}}}\exp\left\{-\frac{1}{2\sigma^{2}}(Y-Xw)^T(Y-Xw)-\frac{1}{2}(w-\mu_p)^T\Sigma_p^{-1}(w-\mu_p)\right\} \nonumber\end{aligned}\end{equation}\tag{4}$
由于直接配成多维高斯分布比较困难，我们不如反过来推，假设多维高斯分布P(x)，我们有
$\begin{equation}\begin{aligned} P(x)=&\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\exp\left\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\right\} \\=&\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\exp\left\{-\frac{1}{2}(x^T\Sigma^{-1}x-\mu^T\Sigma^{-1}x-x^T\Sigma^{-1}\mu+\mu\Sigma^{-1}\mu)\right\} \\=&\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\exp\left\{-\frac{1}{2}(x^T\Sigma^{-1}x-2\mu^T\Sigma^{-1}x+\mu\Sigma^{-1}\mu)\right\} \nonumber\end{aligned}\end{equation}$
对于随机变量x，里面有关的只有 $x^T\Sigma^{-1}x$ 和 $2\mu^T\Sigma^{-1}x$ 。其中第一项有两个x，为二次项。第二项有一个x，为一次项。那么我们也同样可以在 $P (w ∣ X, Y)$ 中，找出对应 $w$ 的一次项和二次项。

我们将(式4)继续拆开，并且只保留与 $w$ 相关的项
$\begin{equation}\begin{aligned} P(w|X,Y)=&\frac{1}{(2\pi)^{\frac{n+p}{2}}\sigma^n|\Sigma_p|^{\frac{1}{2}}}\exp\left\{\frac{1}{2\sigma^{2}}(w^TX^TXw+2Y^TXw)-\frac{1}{2}(w-\mu_p)^T\Sigma_p^{-1}(w-\mu_p)\right\} \\=&\frac{1}{(2\pi)^{\frac{n+p}{2}}\sigma^n|\Sigma_p|^{\frac{1}{2}}}\exp\left\{\frac{1}{2}\left[w^T(X^TX\sigma^{-2}-\Sigma_p^{-1})w+(2\sigma^{-2}Y^TX+2\mu_p^T\Sigma_p^{-1})w\right]\right\} \nonumber\end{aligned}\end{equation}$
由里面的二次项得 $P (w ∣ X, Y)$ 协方差矩阵为
$\Sigma_k^{-1}=X^TX\sigma^{-2}-\Sigma_p^{-1}$
再看一次项
$\sigma^{-2}Y^TX+\mu_p^T\Sigma_p^{-1}=\mu_k^T\Sigma_k^{-1} \rightarrow \mu_k=\sigma^{-2}\Sigma_k^TX^TY+\Sigma_k\Sigma_p^{-1}\mu_p$
至此，我们终于求出了
$P(w|X,Y)\sim\mathcal{N}(w|\mu_k,\Sigma_k)$
其中 $\mu_k=\sigma^{-2}\Sigma_k^TX^TY+\Sigma_k\Sigma_p^{-1}\mu_p$ ， $\Sigma_k^{-1}=X^TX\sigma^{-2}-\Sigma_p^{-1}$

4、预测

不难看出实际上两个随机变量之间是存在一个线性关系。那么依据线性动态系统中的概率求解，我们很容易得到它的概率分布
$y^*|X,Y,x^*\sim N(x^{*T}\mu_k,x^{*T}\Sigma_kx^*+\sigma^2)$

5、结束

以上就是线性回归用贝叶斯派的角度去推导的结果。如有问题，还望指出。阿里嘎多。

在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda