智能计算数学基础——回归问题

不一样的天蝎座

361人浏览 · 2021-07-07 22:34:57

不一样的天蝎座 · 2021-07-07 22:34:57 发布

从机器学习的角度着手分析。

1、先来个小例子

给定一组data：1，2，3，4，5，？
猜测5后面的数是多少？
想必，我们会猜测是6

具体思路是这样的：
我们假定这组data服从一个规律， $f$ ，满足 $f (1) = 1, f (2) = 2, f (3) = 3, f (4) = 4, f (5) = 5$
这时，从最简单的角度出发，猜测规律 $f$ 为： $f (x) = x$ ,从而推断 $f (6) = 6$ 。

总结： 以上算是一个特别简单的数据拟合问题，即回归问题。

2、回归问题

给定N组对应关系的符号表示： $x_1,y_1),...,(x_N,y_N)$ ，其中 $xi∈Rn,yi∈Rx_i\in R^n,y_i\in R$ 。

$xi∈Rnx_i\in R^n$ ，表示 $x_i$ 为 $n$ 维向量。
$yi∈Ry_i\in R$ ，表示 $y_i$ 为一个实数。

每一组 $x_i,y_i)$ 都有 $x_i➡y_i$ 的对应关系。
从函数的角度，要想整体描述 $x$ 和 $y$ 的关系，则目标是：
找到这样一个函数 $f$ ，满足： $y_i≈f(x_i)$ ，即
$(y1⋮yN)≈(f(x1)⋮f(xN))\left( \begin{matrix} y_1\\ \vdots \\ y_N \end{matrix} \right)≈\left( \begin{matrix} f(x_1)\\ \vdots \\ f(x_N) \end{matrix} \right)$
显然，这是一个数据拟合，即回归问题。
这时，要让左右两边向量尽可能近。

向量，可以理解为高维空间中的点。
高维空间中点的距离，最简单的定义是2-范数的平方。

范数：某个向量空间中每个向量的长度或大小。
2-范数是常用范数，表达式为： $∣∣x∣∣2=(x12+⋯+xn2)1/2||x||_2=(x_1^2+\cdots+x_n^2)^{1/2}$ ，其中下角标2常省略。

因此，向量之间的距离表示为： $∣∣a−b∣∣2=∑i=1n(ai−bi)2||a-b||^2=\displaystyle\sum_{i=1}^n(a_i-b_i)^2$ ，该距离也称为欧氏距离。

左右两边向量的距离 $d=∑i=1n(yi−f(xi))2d=\displaystyle\sum_{i=1}^n(y_i-f(x_i))^2$ ，表示对函数 $f$ 契合度的度量，要使 $d$ 尽可能小。

找 $f$ 时，假设 $f$ 是最简单的线性函数， $f(x)=a^tx+b$ ，其中 $a∈Rn,b∈Ra\in R^n,b\in R$ 。

$a, b$ 为函数的参数，也称为模型的参数。
$a$ 默认为是一个列向量， $a^t$ 表示 $a$ 的转置。
eg:
$a=(123)a=\left( \begin{matrix} 1\\ 2\\ 3 \end{matrix} \right)$ ，则 $a^t=(1,2,3)$

$atx=<a,x>=∑i=1naixia^tx=<a,x>=\displaystyle\sum_{i=1}^na_ix_i$ ， $< a, x >$ 为 $a, x$ 的内积。

因此，问题转化为了这样一个优化问题：
$m i n i m i z e$ $d$ ，求参数 $a, b$
即 $minimize(a,b)\underset{(a,b)}{minimize}$ $∑i=1n(yi−atxi−b)2\displaystyle\sum_{i=1}^n(y_i-a^tx_i-b)^2$
一旦求解了这个优化问题，那么 $a, b$ 就可以找到了。、
将 $min(a,b)\underset{(a,b)}{min}$ $∑i=1n(yi−atxi−b)2\displaystyle\sum_{i=1}^n(y_i-a^tx_i-b)^2$ 记作 $g (a, b)$ ,即： $g(a,b)=min(a,b)g(a,b)=\underset{(a,b)}{min}$ $∑i=1n(yi−atxi−b)2\displaystyle\sum_{i=1}^n(y_i-a^tx_i-b)^2$ ,
后续课程会涉及到 $g (a, b)$ 是一个凸函数，在最小值点 $⇒\Rightarrow$
$∂ag=0\partial_{a}g=0$ ➡ $n$ 个方程
$∂bg=0\partial_{b}g=0$ ➡1个方程
共 $n + 1$ 个方程，解出 $n + 1$ 个变量，从而得出 $a, b$ 的值。

$∂\partial$ 偏导数，也是偏微分

3、总结

3.1、做科研时，总是要去解决一个具体的问题，可以分为以下这么几步：
idea➡math(数学推演)➡optimization(优化问题)➡algo

3.2、在回归问题中，涉及到多元微积分，多元微积分是优化的基础，微积分与优化的关系如下：
一元微积分 $⇒\Rightarrow$ 多元微积分 $⇒\Rightarrow$ 优化 $⇒\Rightarrow$ 凸优化
前者均为后者的基础，无论是微积分还是优化，都是服务于机器学习的，机器学习中的很多算法，就是一个优化问题。

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模