西电大数据专业大数据统计与分析

算法含有隐变量的概率模型极大似然估计或极大后验概率估计的迭代算法。贝叶斯：一个分子分母不加，一个分母分子加参数防止分子为。损失函数是指数损失模型是加法模型算法是前向算法。强化学习：智能系统在和环境的互动中学习最优策略。泛化能力：学习到的模型对未知数据的预测能力。非监督学习：从无标注的数据中学习预测模型。是有限个离散的值时，预测问题变成回归问题。截断奇异值是比原始矩阵低秩的奇异值分解。后验概率：

不是很爱摆烂的小李

655人浏览 · 2024-06-24 11:06:29

不是很爱摆烂的小李 · 2024-06-24 11:06:29 发布

rt，本文是为了大数据统计分析课程所写的复习提纲。希望学弟学妹可以作为参考

大数据统计与分析

统计学习：基于数据构建概率模型从而对数据预测分析

分为监督，非监督，强化学习

三要素：模型+策略+算法

监督学习：输入到输出的映射统计规律

特征向量空间：特征空间

输入输出空间

非监督学习：从无标注的数据中学习预测模型

强化学习：智能系统在和环境的互动中学习最优策略

统计学习分为：概率模型

概率：决策树朴素贝叶斯隐马尔可夫

非概率模型

非概率：adaboost，knn，感知机，支持向量机

逻辑斯谛回归二者都算

线性和非线性

线性：感知机支持向量机 knn k-means

非线性：adaboost 朴素贝叶斯

参数化和非参数化

二者区别在于维度是否有限

统计学习根据算法分为在线学习和批量学习

后验概率：在给定数据下模型的条件概率

核方法：核函数表示学习非线性模型

核PCA 非线性支持向量机

模型+策略+算法

模型：条件概率分布或者决策函数

策略：选择什么模型

算法：学习模型时具体采用什么方法

策略：损失函数

0-1损失不相等为1

平方损失

绝对损失

对数损失

经验风险最小化+结构风险最小化

认为经验风险最小就是最优

结构风险最小化SRM解决上述过拟合的问题

加入惩罚项

模型选择：正则化/交叉验证

正则化采用结构风险最小化

交叉验证

简单交叉37开

s折交叉

留一交叉

泛化能力：学习到的模型对未知数据的预测能力

泛化能力有泛化误差上界

监督学习又可分生成方法+判别方法

生成决策函数隐马尔可夫+朴素贝叶斯

判别：条件概率分布

当输出变量Y是有限个离散的值时，预测问题变成回归问题

precision+recall

标注问题输入观测序列输出状态序列

回归模型从输入到输出的映射函数

感知机

决策函数+分离超平面

极小化损失函数原始形式

误分类点到超平面的总距离

对偶形式

可以提前算出Gram矩阵

原始形式+对偶形式算法

KNN

knn三要素：k值选择距离度量分类决策规则

k大时近似误差大

kd树找中位数

多数表决

交叉验证最优的k

朴素贝叶斯

0-1损失函数

生成学习方法

假设独立同分布

朴素贝叶斯/贝叶斯：一个分子分母不加，一个分母分子加参数防止分子为0

求极大值

决策树

信息增益=经验熵-经验条件熵

信息增益比

ID3 C4.5的特征选择方式

CART gini系数

算法5.1

信息增益取大，信息增益比取小，gini系数取小

逻辑斯谛回归

逻辑斯谛分布

FX s型 fx 轴对称

FX关于u 0.5中心对称

二项

多项

最大熵和逻辑斯谛模型属于对数线性模型，采用极大似然估计

正则化极大似然估计

可以形式为无约束最优化问题

梯度下降法拟牛顿法

支持向量机

线性可分

间隔最大化

硬间隔

函数间隔几何间隔

间隔最大化

对偶形式

最优解存在且唯一

线性

软间隔间隔最大化

对偶形式

w唯一但b不一定唯一

非线性

核函数

多项式核函数高斯核函数字符串核函数

adaboost提升方法

算法会考

以决策树为基函数的提升方法为提升树

平方误差

损失函数是指数损失模型是加法模型算法是前向算法

对偶问题极大极小问题

EM算法

e步 m步

期望最大

高斯混合模型

EM算法含有隐变量的概率模型极大似然估计或极大后验概率估计的迭代算法

EM算法收敛，但是不能保证收敛到全局最优

隐马尔可夫

前向后向

前向得到at 后向得到bt

生成模型

在模型入下观测序列O的概率

Baum-Welch算法，即EM算法可以高效的训练隐马尔可夫无监督学习方法

聚类

距离

闵可夫斯基欧式曼哈顿切比雪夫

层次聚类+k-means

奇异值分解

紧奇异值+截断奇异值分解

任意一个实矩阵，奇异值分解一定存在但不唯一

紧奇异值是与原始矩阵等秩

截断奇异值是比原始矩阵低秩的奇异值分解

奇异值就是特征值入的平方根，从大到小

外积展开式

主成分分析

两种方法：特征值求/奇异值求

例题7.1 10.3 重点

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda