数据预处理必看！Min-Max 归一化 vs Z-Score 标准化，用 1 个例子讲透核心差异

X：原始数据μ：该维度数据的均值（所有数据的平均值）σ：该维度数据的标准差（衡量数据 “离散程度” 的指标）对比维度Min-Max 归一化Z-Score 标准化结果范围固定（如 [0,1]）不固定（通常 [-3,3]）核心逻辑按 “最大值 - 最小值” 比例压缩按 “偏离均值的标准差倍数” 衡量对异常值敏感吗敏感（易被极端值带偏）不敏感（极端值影响小）计算依赖依赖 Min 和 Max依赖 μ（均值

牟同學

1941人浏览 · 2025-10-17 11:28:47

牟同學 · 2025-10-17 11:28:47 发布

做数据分析、机器学习时，你是不是也遇到过 “数据量纲混乱” 的问题？比如用 “身高（厘米）” 和 “体重（公斤）” 建模，前者数值动辄 150+，后者只有 50+，直接代入会让模型 “偏听偏信”。

这时候就需要 “数据标准化 / 归一化” 来救场 —— 但面对 Min-Max 归一化和 Z-Score 标准化，很多人会犯难：到底选哪个？今天用「学生成绩」和「商品销量」两个真实场景，帮你彻底搞懂！

一、先理清核心逻辑：为什么要做数据转换？

本质目的就一个：消除量纲影响，让不同维度的数据 “公平对话”。

举个直观例子：

假设你要对比 “数学成绩（满分 100，某学生考 80）” 和 “每日刷题量（道，该学生刷 20 道）”，直接看数值 80＞20，但显然两者衡量标准不同，无法直接比较。

通过归一化 / 标准化，能把它们映射到同一 “评价尺度” 上，再做后续分析才合理。

二、Min-Max 归一化：把数据 “压缩” 到固定区间，直观看得见

1. 核心公式（默认映射到 [0,1] 区间）

X_norm = (X - Min) / (Max - Min)

X：原始数据
Min：该维度数据的最小值
Max：该维度数据的最大值

若要映射到 [a,b] 区间，公式调整为：X_norm = a + (X - Min)×(b - a)/(Max - Min)

2. 实战例子：给学生成绩做 [0,1] 归一化

假设某班级 5 名学生数学成绩：60、75、80、90、100。

步骤 1：找关键值

最小值 Min=60，最大值 Max=100

步骤 2：逐个计算归一化结果

原始成绩 X	计算过程	归一化后结果 X_norm
60	(60-60)/(100-60)	0
75	(75-60)/(100-60)	0.375
80	(80-60)/(100-60)	0.5
90	(90-60)/(100-60)	0.75
100	(100-60)/(100-60)	1

最终结果：[0, 0.375, 0.5, 0.75, 1]，所有成绩都落在 [0,1] 里，谁高谁低一目了然。

3. 优缺点 & 适用场景

优点：计算简单，结果有固定区间，能保留原始数据的 “相对大小”（比如 100 分始终是 1，60 分始终是 0）。
缺点：怕异常值！比如若有个学生考了 200 分（异常值），Min=60，Max=200，原本 90 分的归一化结果会变成 (90-60)/(200-60)≈0.21，直接被 “拉低”，失去参考意义。
适合场景：数据无异常值、需要明确 “比例关系” 的场景，比如图像处理（像素值需压缩到 [0,255]）、推荐系统（用户评分归一化后对比偏好）。

三、Z-Score 标准化：用 “偏离均值的程度” 定义数据，抗干扰强

1. 核心公式（标准化后均值 = 0，标准差 = 1）

Z = (X - μ) / σ

X：原始数据
μ：该维度数据的均值（所有数据的平均值）
σ：该维度数据的标准差（衡量数据 “离散程度” 的指标）

2. 实战例子：给商品日销量做标准化

假设某商品一周的日销量：120、150、130、180、140、160、170（单位：件）。

步骤 1：算核心统计量

先算均值 μ：(120+150+130+180+140+160+170)/7 = 150
再算标准差 σ：

① 每个数据与均值的差值：-30、0、-20、30、-10、10、20

② 差值平方：900、0、400、900、100、100、400

③ 方差（平方和的平均值）：(900+0+400+900+100+100+400)/7 = 400

④ 标准差 σ=√400=20

步骤 2：逐个计算 Z 值

原始销量 X	计算过程	Z 值（标准化结果）	含义（偏离均值的程度）
120	(120-150)/20	-1.5	比均值低 1.5 个标准差
150	(150-150)/20	0	等于均值
130	(130-150)/20	-1	比均值低 1 个标准差
180	(180-150)/20	1.5	比均值高 1.5 个标准差
140	(140-150)/20	-0.5	比均值低 0.5 个标准差
160	(160-150)/20	0.5	比均值高 0.5 个标准差
170	(170-150)/20	1	比均值高 1 个标准差

最终结果：[-1.5, 0, -1, 1.5, -0.5, 0.5, 1]，均值 = 0，标准差 = 1，能清晰看到每天销量 “是否正常”（通常 Z 值在 [-3,3] 内为正常，超出则可能是异常值）。

3. 优缺点 & 适用场景

优点：抗异常值能力强！比如某天销量突然涨到 500（异常值），重新计算后，原本 180 的 Z 值会变成 (180-μ’)/σ’，但不会像 Min-Max 那样被 “严重挤压”；且能体现数据在整体分布中的 “位置”，适合后续统计分析。
缺点：结果无固定区间（可能是负数），无法直观看到 “比例”，只能看 “偏离程度”。
适合场景：数据有异常值、需要基于 “概率分布” 的场景，比如回归分析、聚类算法（K-Means）、PCA 降维，这些模型对 “数据分布” 敏感，Z-Score 能让数据更贴合标准正态分布。

四、一张表总结：Min-Max vs Z-Score 怎么选？

对比维度	Min-Max 归一化	Z-Score 标准化
结果范围	固定（如 [0,1]）	不固定（通常 [-3,3]）
核心逻辑	按 “最大值 - 最小值” 比例压缩	按 “偏离均值的标准差倍数” 衡量
对异常值敏感吗	敏感（易被极端值带偏）	不敏感（极端值影响小）
计算依赖	依赖 Min 和 Max	依赖 μ（均值）和 σ（标准差）
适用场景	无异常值、需比例关系	有异常值、需分布特征

最后划重点：别再纠结选哪个！

记住两个 “优先原则”：

若数据无异常值、需要明确 “大小比例”→ 选 Min-Max 归一化（比如用户评分、像素值）；
若数据有异常值、后续要做统计建模→ 选 Z-Score 标准化（比如销量、用户消费金额）。

如果还是不确定，建议两种方法都试一下，看哪种能让你的模型效果更好（比如分类准确率更高、回归误差更小）—— 实践才是检验真理的唯一标准！

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

替你试过了，消费级显卡可以跑的开源文生图SOTA模型，顶级渲染、高密度文本绘图

魔乐社区

量化挑战赛冠军专访：4小时啃下W4A8量化，我靠的是这些经验

魔乐社区

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模