rt,本文是为了大数据统计分析课程所写的复习提纲。希望学弟学妹可以作为参考

大数据统计与分析
统计学习:基于数据构建概率模型从而对数据预测分析
分为监督,非监督,强化学习
三要素:模型+策略+算法
监督学习:输入到输出的映射统计规律
特征向量空间:特征空间
输入输出空间
非监督学习:从无标注的数据中学习预测模型
强化学习:智能系统在和环境的互动中学习最优策略
统计学习分为:概率模型
概率:决策树 朴素贝叶斯 隐马尔可夫
非概率模型
非概率:adaboostknn,感知机,支持向量机
逻辑斯谛回归二者都算
线性和非线性
线性:感知机 支持向量机 knn k-means
非线性:adaboost 朴素贝叶斯
参数化和非参数化
二者区别在于维度是否有限
统计学习根据算法分为在线学习和批量学习
后验概率:在给定数据下模型的条件概率
核方法:核函数表示学习非线性模型
PCA 非线性支持向量机
模型+策略+算法
模型:条件概率分布或者决策函数
策略:选择什么模型
算法:学习模型时具体采用什么方法
策略:损失函数
0-1损失 不相等为1
平方损失
绝对损失
对数损失
经验风险最小化+结构风险最小化
认为经验风险最小就是最优
结构风险最小化SRM解决上述过拟合的问题
加入惩罚项
模型选择:正则化/交叉验证
正则化采用结构风险最小化
交叉验证
简单交叉37
s折交叉
留一交叉
泛化能力:学习到的模型对未知数据的预测能力
泛化能力有泛化误差上界
监督学习又可分生成方法+判别方法
生成决策函数 隐马尔可夫+朴素贝叶斯
判别:条件概率分布
当输出变量Y是有限个离散的值时,预测问题变成回归问题
precision+recall
标注问题输入观测序列 输出状态序列
回归模型从输入到输出的映射函数
感知机
决策函数+分离超平面
极小化损失函数 原始形式
误分类点到超平面的总距离
对偶形式
可以提前算出Gram矩阵
原始形式+对偶形式算法
KNN
knn三要素:k值选择 距离度量 分类决策规则
k大时近似误差大
kd树 找中位数
多数表决
交叉验证最优的k
朴素贝叶斯
0-1损失函数
生成学习方法
假设独立同分布
朴素贝叶斯/贝叶斯:一个分子分母不加,一个分母分子加参数防止分子为0
求极大值
决策树
信息增益=经验熵-经验条件熵
信息增益比
ID3 C4.5的特征选择方式
CART gini系数
算法5.1
信息增益取大,信息增益比取小,gini系数取小
逻辑斯谛回归
逻辑斯谛分布
FX s fx 轴对称
FX关于u 0.5中心对称
二项
多项
最大熵和逻辑斯谛模型属于对数线性模型,采用极大似然估计
正则化极大似然估计
可以形式为无约束最优化问题
梯度下降法 拟牛顿法
支持向量机
线性可分
间隔最大化
硬间隔
函数间隔 几何间隔
间隔最大化
对偶形式
最优解存在且唯一
线性
软间隔 间隔最大化
对偶形式
w唯一但b不一定唯一
非线性
核函数
多项式核函数 高斯核函数 字符串核函数
adaboost提升方法
算法会考
以决策树为基函数的提升方法为提升树
平方误差
损失函数是指数损失 模型是加法模型 算法是前向算法
对偶问题极大极小问题
EM算法
e m
期望最大
高斯混合模型
EM算法含有隐变量的概率模型极大似然估计或极大后验概率估计的迭代算法
EM算法收敛,但是不能保证收敛到全局最优
隐马尔可夫
前向后向
前向得到at 后向得到bt
生成模型
在模型入下观测序列O的概率
Baum-Welch算法,即EM算法可以高效的训练隐马尔可夫无监督学习方法
聚类
距离
闵可夫斯基 欧式 曼哈顿 切比雪夫
层次聚类+k-means
奇异值分解
紧奇异值+截断奇异值分解
任意一个实矩阵,奇异值分解一定存在但不唯一
紧奇异值是与原始矩阵等秩
截断奇异值是比原始矩阵低秩的奇异值分解
奇异值就是特征值入的平方根,从大到小
外积展开式
主成分分析
两种方法:特征值求/奇异值求
例题7.1 10.3 重点
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐