【机器学习-周志华】学习笔记-第七章
周志华《机器学习》第七章-啃书笔记
记录第一遍没看懂的
记录觉得有用的
其他章节:
第一章
第三章
第五章
第六章
第七章
第八章
第九章
第十章
十一章
十二章
十三章
十四章
十五章
十六章
第七章的前提:所有相关概率都已知
7.1节首先定义了条件风险(公式7.1),然后把每一个样本的条件风险的数学期望表达了出来(公式7.2),然后返回来定义使得每个样本达到最小的分类器记录下来(公式7.3)。
极大似然估计


极大似然估计是要先假设参数服从一个先验分布。可以看公式(7.12)(7.13)对应的例子,他假设了概率密度函数复制高斯分布,而高斯分布形式为: p ( x ) = ( 2 π σ 2 ) − 1 2 e x p ( − ( x − μ ) 2 2 σ 2 ) p(x)=(2\pi\sigma^2)^{-\dfrac{1}{2}}exp(-\dfrac{(x-\mu)^2}{2\sigma^2}) p(x)=(2πσ2)−21exp(−2σ2(x−μ)2)。因此,相当与把高斯分布的表达式代入(7.10)之中,去解(7.11)中的问题。首先代入可得:
L L ( θ c ) = ∑ x ∈ D c l o g ( p θ c ( x ) ) = ∑ x ∈ D c l o g ( ( 2 π σ c 2 ) − 1 2 e x p ( − ( x − μ c ) 2 2 σ c 2 ) ) = ∑ x ∈ D c − 1 2 l o g 2 π σ c 2 − ( x − μ c ) 2 2 σ c 2 LL(\theta_c)=\sum_{x\in D_c}log(p\theta_c(x))=\sum_{x\in D_c} log((2\pi\sigma^2_c)^{-\dfrac{1}{2}}exp(-\dfrac{(x-\mu_c)^2}{2\sigma^2_c }))=\sum_{x\in D_c}-\dfrac{1}{2}log2\pi\sigma^2_c-\dfrac{(x-\mu_c)^2}{2\sigma^2_c } LL(θc)=x∈Dc∑log(pθc(x))=x∈Dc∑log((2πσc2)−21exp(−2σc2(x−μc)2))=x∈Dc∑−21log2πσc2−2σc2(x−μc)2
然后是求偏导等于0:
∂ L L / ∂ μ c = ∑ x ∈ D c − ( x − μ c ) / σ c 2 = 0 ⇒ ∑ x ∈ D c x = ∑ x ∈ D c μ c ∂ L L / ∂ σ c 2 = ∑ x ∈ D c − 1 2 σ c 2 + ( x − μ c ) 2 2 ( σ c 2 ) 2 = 0 ⇒ ∑ x ∈ D c σ c 2 = ∑ x ∈ D c ( x − μ c ) 2 \partial LL/\partial \mu_c = \sum_{x\in D_c}-(x-\mu_c)/\sigma^2_c = 0 \rArr \sum_{x\in D_c}x= \sum_{x\in D_c} \mu_c\\ \partial LL/\partial \sigma^2_c = \sum_{x\in D_c}-\dfrac{1}{2\sigma^2_c }+\dfrac{(x-\mu_c)^2}{2(\sigma^2_c)^2 }=0 \rArr \sum_{x\in D_c}\sigma^2_c= \sum_{x\in D_c} (x-\mu_c)^2\\ ∂LL/∂μc=x∈Dc∑−(x−μc)/σc2=0⇒x∈Dc∑x=x∈Dc∑μc∂LL/∂σc2=x∈Dc∑−2σc21+2(σc2)2(x−μc)2=0⇒x∈Dc∑σc2=x∈Dc∑(x−μc)2
即,参数最大似然估计为:
朴素贝叶斯分类器
核心:假设所有属性相互独立,有
对于离散属性:
对于连续属性:
EM算法
在已知 x x x和上一步的 Θ t \Theta^t Θt的条件之下,隐变量 Z Z Z的数学期望:
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐


所有评论(0)