机器学习的角度着手分析。

1、先来个小例子

给定一组data:1,2,3,4,5,?
猜测5后面的数是多少?
想必,我们会猜测是6

具体思路是这样的:
我们假定这组data服从一个规律,fff,满足f(1)=1,f(2)=2,f(3)=3,f(4)=4,f(5)=5f(1)=1,f(2)=2,f(3)=3,f(4)=4,f(5)=5f(1)=1,f(2)=2,f(3)=3,f(4)=4,f(5)=5
这时,从最简单的角度出发,猜测规律fff为:f(x)=xf(x)=xf(x)=x,从而推断f(6)=6f(6)=6f(6)=6

总结: 以上算是一个特别简单的数据拟合问题,即回归问题。

2、回归问题

给定N组对应关系的符号表示:(x1,y1),...,(xN,yN)(x_1,y_1),...,(x_N,y_N)(x1,y1),...,(xN,yN),其中xi∈Rn,yi∈Rx_i\in R^n,y_i\in RxiRn,yiR

xi∈Rnx_i\in R^nxiRn,表示xix_ixinnn维向量。
yi∈Ry_i\in RyiR,表示yiy_iyi为一个实数。

每一组(xi,yi)(x_i,y_i)(xi,yi)都有xi➡yix_i➡y_ixiyi的对应关系。
从函数的角度,要想整体描述xxxyyy的关系,则目标是:
找到这样一个函数fff,满足:yi≈f(xi)y_i≈f(x_i)yif(xi),即
(y1⋮yN)≈(f(x1)⋮f(xN))\left( \begin{matrix} y_1\\ \vdots \\ y_N \end{matrix} \right)≈\left( \begin{matrix} f(x_1)\\ \vdots \\ f(x_N) \end{matrix} \right) y1yNf(x1)f(xN)
显然,这是一个数据拟合,即回归问题。
这时,要让左右两边向量尽可能近。

向量,可以理解为高维空间中的点。
高维空间中点的距离,最简单的定义是2-范数的平方。

范数:某个向量空间中每个向量的长度或大小。
2-范数是常用范数,表达式为:∣∣x∣∣2=(x12+⋯+xn2)1/2||x||_2=(x_1^2+\cdots+x_n^2)^{1/2}x2=(x12++xn2)1/2,其中下角标2常省略。

因此,向量之间的距离表示为:∣∣a−b∣∣2=∑i=1n(ai−bi)2||a-b||^2=\displaystyle\sum_{i=1}^n(a_i-b_i)^2ab2=i=1n(aibi)2,该距离也称为欧氏距离。

左右两边向量的距离d=∑i=1n(yi−f(xi))2d=\displaystyle\sum_{i=1}^n(y_i-f(x_i))^2d=i=1n(yif(xi))2,表示对函数fff契合度的度量,要使ddd尽可能小。

fff时,假设fff是最简单的线性函数,f(x)=atx+bf(x)=a^tx+bf(x)=atx+b,其中a∈Rn,b∈Ra\in R^n,b\in RaRn,bR

a,ba,ba,b为函数的参数,也称为模型的参数。
aaa默认为是一个列向量,ata^tat表示aaa的转置。
eg:
a=(123)a=\left( \begin{matrix} 1\\ 2\\ 3 \end{matrix} \right)a=123,则at=(1,2,3)a^t=(1,2,3)at=(1,2,3)

atx=<a,x>=∑i=1naixia^tx=<a,x>=\displaystyle\sum_{i=1}^na_ix_iatx=<a,x>=i=1naixi<a,x><a,x><a,x>a,xa,xa,x的内积。

因此,问题转化为了这样一个优化问题:
minimizeminimizeminimizeddd,求参数a,ba,ba,b
minimize(a,b)\underset{(a,b)}{minimize}(a,b)minimize∑i=1n(yi−atxi−b)2\displaystyle\sum_{i=1}^n(y_i-a^tx_i-b)^2i=1n(yiatxib)2
一旦求解了这个优化问题,那么a,ba,ba,b就可以找到了。、
min(a,b)\underset{(a,b)}{min}(a,b)min∑i=1n(yi−atxi−b)2\displaystyle\sum_{i=1}^n(y_i-a^tx_i-b)^2i=1n(yiatxib)2记作g(a,b)g(a,b)g(a,b),即:g(a,b)=min(a,b)g(a,b)=\underset{(a,b)}{min}g(a,b)=(a,b)min∑i=1n(yi−atxi−b)2\displaystyle\sum_{i=1}^n(y_i-a^tx_i-b)^2i=1n(yiatxib)2,
后续课程会涉及到g(a,b)g(a,b)g(a,b)是一个凸函数,在最小值点⇒\Rightarrow
∂ag=0\partial_{a}g=0ag=0nnn个方程
∂bg=0\partial_{b}g=0bg=0➡1个方程
n+1n+1n+1个方程,解出n+1n+1n+1个变量,从而得出a,ba,ba,b的值。

∂\partial 偏导数,也是偏微分

3、总结

3.1、做科研时,总是要去解决一个具体的问题,可以分为以下这么几步:
idea➡math(数学推演)➡optimization(优化问题)➡algo

3.2、在回归问题中,涉及到多元微积分,多元微积分是优化的基础,微积分与优化的关系如下:
一元微积分⇒\Rightarrow多元微积分⇒\Rightarrow优化⇒\Rightarrow凸优化
前者均为后者的基础,无论是微积分还是优化,都是服务于机器学习的,机器学习中的很多算法,就是一个优化问题。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐