监督学习(Supervised Learning)

定义:监督学习是指在训练过程中,利用包含输入特征与对应输出标签的数据集,通过最小化预测输出与真实标签之间的误差,学习输入空间到输出空间映射关系的一类机器学习方法。

训练数据形式:
D = { ( x i , y i ) } i = 1 n D = \{(x_i, y_i)\}_{i=1}^n D={(xi,yi)}i=1n

  • x i x_i xi:输入特征向量
  • y i y_i yi:已知标签(目标值)

学习目标:
f : X → Y f : X \rightarrow Y f:XY
优化目标:经验风险最小化(ERM)

非监督学习(Unsupervised Learning)

定义:非监督学习是指在训练数据不包含任何先验标签信息的情况下,仅利用输入数据的内在结构、统计特性或相似性关系,对数据进行建模和结构发现的一类机器学习方法。

训练数据形式: D = { x i } i = 1 n \mathcal{D} = \{ x_i \}_{i=1}^{n} D={xi}i=1n

  • 无显式目标变量 y y y

学习目标:发现数据分布或潜在结构
常见依据:距离度量、相似度函数、概率分布假设

区分——是否有“标签(Label)”

有标签 → 监督学习(Supervised Learning)
没标签 → 非监督学习(Unsupervised Learning)

什么是「标签」?

标签 = 标准答案

数据 是否有标签 说明
房子面积 → 房价 ✅ 有 房价就是答案
图片 → 是猫/不是猫 ✅ 有 猫 / 非猫
一堆用户购买记录 ❌ 没有 没人告诉你“这属于哪一类”

监督学习(Supervised Learning)

定义:给定输入 X 和对应的正确输出 Y,学习 X → Y 的映射关系
📌 核心关键词:有标签

监督学习主要解决 两类问题:分类&回归

分类(Classification)

输出是类别

例子:
垃圾邮件 / 非垃圾邮件
肿瘤是良性 / 恶性
是否违约(是 / 否)

回归(Regression)

输出是连续数值

例子:
房价预测
温度预测
股票价格预测

非监督学习(Unsupervised Learning)

定义:只有输入数据 X,没有标准答案 Y,让算法自己发现数据结构
📌 核心关键词:没标签

非监督学习主要做三件事:聚类&降维&异常检测

聚类(Clustering)

👉 把“相似的东西”分到一起

例子:
用户分群
客户画像
文档主题聚类

降维(Dimensionality Reduction)

👉 压缩特征、去冗余、便于可视化

例子:
高维数据 → 2D/3D 可视化
特征压缩

异常检测(Anomaly Detection)

👉 找“不正常”的点

常见监督&非监督学习算法

监督 非监督
线性回归(Linear Regression)——回归 K-means ——聚类
逻辑回归(Logistic Regression) ——分类 层次聚类(Hierarchical Clustering)—— 聚类
KNN(K近邻) —— 分类 / 回归 DBSCAN —— 聚类 / 异常检测
支持向量机(SVM) ——分类 / 回归 PCA(主成分分析) —— 降维
决策树(Decision Tree) ——分类 / 回归 ICA —— 降维
随机森林(Random Forest) —— 分类 / 回归 AutoEncoder ——降维
神经网络(ANN / CNN / RNN) ——分类 / 回归 Apriori —— 关联规则
对比点 监督学习 非监督学习
是否有标签 ✅ 有 ❌ 没有
是否有标准答案 没有
目标 预测结果 发现结构
常见任务 分类、回归 聚类、降维
学习难度 相对简单 相对抽象
现实场景 标签贵 数据多但没标签
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐