监督学习&非监督学习的区别

红眼牧师鸟

1195人浏览 · 2025-12-18 15:10:49

红眼牧师鸟 · 2025-12-18 15:10:49 发布

监督学习&非监督学习

监督学习（Supervised Learning）
非监督学习（Unsupervised Learning）
区分——是否有“标签（Label）”

监督学习（Supervised Learning）

定义：监督学习是指在训练过程中，利用包含输入特征与对应输出标签的数据集，通过最小化预测输出与真实标签之间的误差，学习输入空间到输出空间映射关系的一类机器学习方法。

训练数据形式：
$D = \{(x_i, y_i)\}_{i=1}^n$

$x_i$ ：输入特征向量
$y_i$ ：已知标签（目标值）

学习目标：
$\rightarrow Y$
优化目标：经验风险最小化（ERM）

非监督学习（Unsupervised Learning）

定义：非监督学习是指在训练数据不包含任何先验标签信息的情况下，仅利用输入数据的内在结构、统计特性或相似性关系，对数据进行建模和结构发现的一类机器学习方法。

训练数据形式： $\mathcal{D} = \{ x_i \}_{i=1}^{n}$

无显式目标变量 $y$

学习目标：发现数据分布或潜在结构
常见依据：距离度量、相似度函数、概率分布假设

区分——是否有“标签（Label）”

有标签 → 监督学习（Supervised Learning）
没标签 → 非监督学习（Unsupervised Learning）

什么是「标签」？

标签 = 标准答案

数据	是否有标签	说明
房子面积 → 房价	✅ 有	房价就是答案
图片 → 是猫/不是猫	✅ 有	猫 / 非猫
一堆用户购买记录	❌ 没有	没人告诉你“这属于哪一类”

监督学习（Supervised Learning）

定义：给定输入 X 和对应的正确输出 Y，学习 X → Y 的映射关系
📌 核心关键词：有标签

监督学习主要解决两类问题：分类&回归

分类（Classification）

输出是类别

例子：
垃圾邮件 / 非垃圾邮件
肿瘤是良性 / 恶性
是否违约（是 / 否）

回归（Regression）

输出是连续数值

例子：
房价预测
温度预测
股票价格预测

非监督学习（Unsupervised Learning）

定义：只有输入数据 X，没有标准答案 Y，让算法自己发现数据结构
📌 核心关键词：没标签

非监督学习主要做三件事：聚类&降维&异常检测

聚类（Clustering）

👉 把“相似的东西”分到一起

例子：
用户分群
客户画像
文档主题聚类

降维（Dimensionality Reduction）

👉 压缩特征、去冗余、便于可视化

例子：
高维数据 → 2D/3D 可视化
特征压缩

异常检测（Anomaly Detection）

👉 找“不正常”的点

常见监督&非监督学习算法

监督	非监督
线性回归（Linear Regression）——回归	K-means ——聚类
逻辑回归（Logistic Regression） ——分类	层次聚类（Hierarchical Clustering）—— 聚类
KNN（K近邻） —— 分类 / 回归	DBSCAN —— 聚类 / 异常检测
支持向量机（SVM） ——分类 / 回归	PCA（主成分分析） —— 降维
决策树（Decision Tree） ——分类 / 回归	ICA —— 降维
随机森林（Random Forest） —— 分类 / 回归	AutoEncoder ——降维
神经网络（ANN / CNN / RNN） ——分类 / 回归	Apriori —— 关联规则

对比点	监督学习	非监督学习
是否有标签	✅ 有	❌ 没有
是否有标准答案	有	没有
目标	预测结果	发现结构
常见任务	分类、回归	聚类、降维
学习难度	相对简单	相对抽象
现实场景	标签贵	数据多但没标签

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模