https://datawhalechina.github.io/math-for-ai/#           参考书籍与开源内容

第一章   导语

术语的模糊性
1.机器学习领域中的术语具有多重含义,需根据上下文精确理解。

2.预测器 (Predictor):指利用输入数据进行预测的系统。

3.训练系统 (Training System):指调整预测器内部参数以优化其未来性能的系统。

第一部分:机器学习的三大支柱
本书第一部分围绕构建机器学习系统的三个核心组成部分展开:数据、模型和学习。

1. 数据 (Data)
核心观点:数据被表示为向量 (Vector)。

向量的多元视角:

计算机科学观:一个数字数组。

物理学观:一个有方向和大小的箭头。

数学观:一个服从加法和缩放规则的抽象对象。

2. 模型 (Model)
本质:对(未知的)真实数据生成过程的简化描述。

目的:捕捉数据中的关键特征与隐藏模式。

作为一个模拟器,用于预测现实世界的结果,而无需进行真实实验。

3. 学习 (Learning) / 训练 (Training)
定义:利用现有数据,优化模型的参数,使其在某个效用函数上表现最佳的过程。

核心类比:爬山优化

将性能指标的最大化类比为“到达山顶”。

训练过程即是通过数值优化方法寻找这个“山顶”的过程。

核心矛盾与目标:

记忆 (Memorization) vs. 泛化 (Generalization)

风险:模型可能只是在“记忆”训练数据,而非学习其内在规律。

最终目标:模型必须在未见过的数据(测试数据) 上表现良好,具备强大的泛化能力。

构建机器学习知识体系的策略与路径

一、 两种核心学习策略

自下而上

 

路径:从数学基础概念开始,逐步进阶到高级的机器学习应用。

 

优点:知识体系扎实、严谨,每一步都建立在已理解的概念之上。

 

缺点:前期学习动力可能不足,基础概念因缺乏应用场景而易被遗忘。

 

自上而下

 

路径:从实际的机器学习应用和目标出发,反向追溯所需的数学基础。

 

优点:目标驱动,学习目的明确,能快速建立知识与应用的联系。

 

缺点:知识体系可能不够稳固,容易陷入“知其然不知其所以然”的境地。

 

本书的解决方案:模块化设计

 

将数学基础(第一部分) 与机器学习应用(第二部分) 分离。

 

阅读灵活性:读者可以根据自身情况,采用纯自下而上、纯自上而下,或两者结合的混合模式进行学习。

 

交叉引用:书中通过大量前后指引,将数学概念与机器学习算法紧密相连,帮助读者融会贯通。

 

二、 全书核心框架:基础与四大支柱

机器学习 = 数学基础 + 四大支柱(回归、降维、密度估计、分类)

 

第一部分:数学基础 —— 为机器学习提供语言与工具

第2章 线性代数:数据的表示。

数据表示为向量,数据集表示为矩阵。

 

第3章 解析几何:相似性的度量。

定义向量间的距离与相似性,是许多算法(如聚类、分类)的核心。

 

第4章 矩阵分解:数据的理解与压缩。

通过分解矩阵来揭示数据的内在结构,提高计算效率。

 

第6章 概率论:不确定性的量化。

为“噪声”建模,并量化预测的置信度。

 

第5、7章 向量微积分与优化:寻找最优解的方法。

第5章:引入梯度概念,指示优化方向。

第7章:利用梯度进行优化,寻找模型性能的“山顶”(最大值/最小值)。

 

第二部分:机器学习四大支柱 —— 数学工具的应用场景

第8章:问题重述与评估

用数学语言重述机器学习的三大组件(数据、模型、学习)。

核心:强调模型评估必须针对未见过的数据(泛化能力),防止过拟合。

 

四大支柱详解:

第9章:回归

任务:学习输入到连续实值输出的映射(如预测房价)。

数学:线性模型、最大似然估计、贝叶斯方法。

 

第10章:降维

任务:为高维数据寻找紧凑的低维表示(无标签)。

目标:便于数据可视化、分析和去除噪声。

数学:主成分分析(PCA)。

 

第11章:密度估计

任务:估计描述数据集的概率分布(无标签)。

目标:发现数据的内在结构(如聚类)。

数学:高斯混合模型(GMM),迭代优化算法。

 

第12章:分类

任务:学习输入到离散类别输出的映射(如图像识别)。

数学:支持向量机(SVM)。

 

本书构建了一个清晰的学习路径:以线性代数和解析几何来“表示”数据,用概率论来“理解”不确定性,最后通过向量微积分和优化方法来“寻找”最优模型。

以下是手写笔记

 

 

 

 

 

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐