SPSS统计数据分析实战：聚类分析与数据预处理全解析

讲了这么多技术细节，我想回到最初的问题：我们为什么要学SPSS？为什么要搞聚类分析？其实答案很简单：为了更好地理解世界，做出更明智的决策。工具只是手段，真正的价值在于你怎么用它去讲故事、解决问题、创造改变。下次当你面对一堆数据感到迷茫时，不妨问问自己：- 我真正想解决的问题是什么？- 这些数据能告诉我什么？- 我的分析能让谁受益？带着这些问题出发，你会发现，SPSS不再只是一个软件，而是你通往洞察

毛心宇

860人浏览 · 2025-12-02 10:45:53

毛心宇 · 2025-12-02 10:45:53 发布

本文还有配套的精品资源，点击获取

简介：SPSS是一款广泛应用于社会科学、市场研究和健康科学等领域的强大统计软件，支持描述性统计、推断性统计及无监督学习中的聚类分析。本文围绕SPSS的.SAV格式数据文件（如“裁判打分.sav”、“小康指数.sav”和“商厦评分.sav”），系统讲解如何使用快速聚类与系统聚类方法发现数据中的自然分组，并涵盖缺失值处理、变量标准化与选择等关键预处理步骤。通过聚类中心、轮廓图和树状图（Dendrogram）解读结果，帮助用户挖掘裁判评分模式、地区小康水平差异及顾客满意度群体特征，实现从数据到决策的转化。

SPSS统计软件功能与聚类分析实战

你有没有过这样的经历？面对一堆密密麻麻的Excel表格，感觉数据像潮水一样涌来，却不知道从哪里下手分析？🤯 尤其是当你被老板催着要“尽快出报告”时，那种焦虑感简直让人窒息！别担心，今天我们就来聊聊一个能帮你化繁为简、轻松驾驭数据的强大工具——SPSS。

说实话，在我刚接触数据分析的时候，也是一头雾水。各种术语、公式、图表看得眼花缭乱，更别说写出一份像样的分析报告了。直到我遇到了SPSS，才真正体会到什么叫“工欲善其事，必先利其器”。这不仅仅是一个软件，更像是一个懂你的数据分析搭档，无论你是小白还是老手，它都能陪你走好每一步。

为什么SPSS值得你花时间去了解？

想象一下：你可以不用写一行代码，就能完成复杂的回归分析；也可以通过简单的拖拽操作，生成专业级的统计图表；甚至还能用它的语法语言（Syntax），把重复的工作自动化处理。是不是听起来就很心动？😏

更重要的是，SPSS不是那种“高冷”的学术工具，它已经在市场研究、医学健康、社会调查、教育评估等领域广泛应用多年。可以说，只要你在做结构化数据的分析工作，几乎绕不开它。

那我们今天就来一场深度之旅吧！不光讲清楚SPSS到底有多强大，还要带你从数据导入开始，一步步走到高级聚类分析，最后用两个真实案例告诉你：这些技术怎么真正落地到实际工作中，并产生价值 💡

准备好了吗？Let’s go！

数据管理的艺术：从混乱到有序

很多人以为数据分析就是建模和画图，其实不然。真正的关键在于 数据准备 ——也就是我们常说的“脏活累活”。但正是这些看似枯燥的过程，决定了最终结果的可信度。

举个例子，假设你拿到了一份客户满意度问卷数据，里面有几千条记录。乍一看没啥问题，可仔细一查才发现：

有些人的年龄填成了“999”，其实是表示“不愿透露”；
收入字段里混进了“保密”这种文字；
还有几百个空值，不知道是因为没填还是系统漏录……

这时候如果你直接上模型，得到的结果可能完全偏离现实 😱 所以，数据清洗就像是盖房子前的地基工程，再怎么重视都不为过。

而SPSS在这方面的设计，可以说是既贴心又专业。它有两个核心视图： 数据视图 和 变量视图 ，就像一对默契十足的搭档，一个管“内容”，一个管“定义”。

变量视图：给每个字段贴上“身份证”

在变量视图里，你能为每一个变量设置详细的属性，比如：
- 名称（Name）：不能有空格或特殊符号，推荐用下划线连接，如 income_level
- 类型（Type）：数值型、字符串型、日期型等
- 标签（Label）：可以写得非常详细，比如“个人月收入（单位：元）”
- 值标签（Values）：让数字变得有意义，比如1=男性，2=女性
- 缺失值（Missing）：明确哪些值代表“无效回答”

这个机制有多重要呢？让我给你讲个小故事👇

有一次我在做一个教育调研项目，三年后需要重新分析同样的数据集。打开文件的一瞬间我就惊呆了——所有变量都带着清晰的标签和值说明，连当初为什么要将“999”设为缺失值都有备注。那一刻我真的想给SPSS的设计团队点个赞👏

正是因为这种“自描述式”的设计理念，.SAV格式成了专业分析项目的首选归档方式。虽然它不像CSV那样通用，但它保存了完整的元数据上下文，确保多年之后依然可读、可复现。

特性	.SAV 格式	CSV 格式
是否包含元数据	✅ 是（变量标签、值标签、缺失定义）	❌ 否（仅纯数据）
文件大小	中等（支持压缩）	小（无冗余信息）
跨平台兼容性	需专用工具读取	极高（通用文本格式）
写入速度	快（二进制流）	慢（逐字符写入）
支持长变量名	✅ 是（最多64字符）	取决于软件限制

看到这里你可能会问：“那如果我的数据是从Excel或者数据库来的怎么办？”别急，SPSS早就考虑到了这一点。

多源数据接入：灵活应对现实世界的复杂性

现实中，我们的数据来源五花八门：可能是HR部门发来的Excel考勤表，也可能是后台导出的CSV日志，甚至是实时连接的MySQL数据库。SPSS提供了多种导入路径，满足不同场景需求。

Excel 导入：小心那些“合并单元格”

Excel是最常见的数据源之一。在SPSS中可以通过【文件 → 打开 → 数据】选择Excel文件（.xls或.xlsx）。系统会启动“读取电子表格向导”，引导你完成以下设置：

指定工作表 ：选择包含目标数据的具体Sheet；
首行是否为变量名 ：勾选“读取变量名”以使用第一行为列标题；
数据范围 ：可限定导入区域（如A1:D100），避免导入无关行列；
日期识别 ：自动检测时间字段并设为日期型变量。

⚠️ 注意事项：
- Excel中的“合并单元格”会导致数据错位，应在导入前拆分处理。
- SPSS无法识别Excel中的公式结果以外的内容（如图表、注释），仅提取数值区域。

CSV 文本导入：编码问题必须重视

对于大规模日志或API接口返回的数据，CSV是标准输出格式。SPSS提供【文件 → 导入数据 → 文本数据】功能，支持自定义分隔符（逗号、制表符、分号等）、字符编码（UTF-8、GBK、Latin-1）及行跳过规则。

常见问题是中文乱码，根源在于编码不匹配。例如，国内Windows环境下导出的CSV常为GBK编码，而SPSS默认尝试UTF-8读取，导致汉字显示为问号或方框。解决方法是在导入对话框中手动选择正确的编码类型：

* 使用语法命令精确控制CSV导入 *
DATA LIST FILE='C:\data\survey_gbk.csv' 
       FIXED RECORDS=1
       /V1 TO V10 A10.

BEGIN DATA.
END DATA.

* 指定编码方式（需SPSS 24+版本支持）*
IMPORT FORMAT FILE='C:\data\survey_utf8.csv'
                TYPE=TXT
                ENCODING='UTF8'
                DELIMITERS=","
                QUALIFIER='"'
                FIRSTCASE=2
                NAMES
                /VAR1 TO VAR8.

参数说明：
- ENCODING='UTF8' 明确设定字符集，防止乱码；
- DELIMITERS="," 定义字段分隔符为英文逗号；
- QUALIFIER='"' 表示文本字段可能被双引号包围；
- FIRSTCASE=2 跳过首行标题，从第二行开始读取数据；
- NAMES 指示首行为变量名，自动创建对应变量。

数据库连接（ODBC）：打通实时数据通道

对于实时性要求高的分析任务，可直接连接数据库。SPSS支持通过ODBC驱动访问SQL Server、Oracle、MySQL等主流数据库。操作步骤如下：

在操作系统中配置ODBC数据源（控制面板 → 管理工具 → ODBC 数据源）；
在SPSS中选择【文件 → 获取数据 → 数据库 → 新建查询】；
选择已注册的数据源，输入用户名密码；
图形化构建SQL查询语句，筛选所需字段与条件；
执行后将结果加载至数据视图。

此方式适用于动态更新的数据仓库环境，避免频繁导出中间文件带来的延迟风险。

整个流程可以用一张图概括：

graph TD
    A[原始数据源] --> B{数据类型}
    B -->|Excel| C[使用读取电子表格向导]
    B -->|CSV| D[设置编码与分隔符]
    B -->|Database| E[配置ODBC连接]
    C --> F[检查变量类型与缺失]
    D --> F
    E --> F
    F --> G[保存为.SAV格式]

图：外部数据导入SPSS的标准流程图

通过这套多路径导入策略，你能灵活应对各类输入需求，确保原始信息完整迁移至分析环境。而且一旦清洗完毕，记得立刻保存为.SAV格式，方便后续调用和协作 👍

缺失值处理：别让“看不见的信息”误导你

说到数据质量问题，最头疼的就是 缺失值 了。无论是问卷调查中有人跳过了某个问题，还是传感器偶尔断线导致数据中断，都会造成部分观测信息的丢失。

但你知道吗？并不是所有的缺失都一样！😱 统计学家们根据缺失机制的不同，把它分成了三类：

MCAR、MAR、MNAR：三种缺失模式的认知升级

完全随机缺失（MCAR）
缺失与否与任何可观测或不可观测变量都没关系。比如随机抽样中个别问卷意外遗失。这种情况相对安全，直接删除影响不大。
随机缺失（MAR）
缺失概率依赖于其他已观测变量。比如老年人更可能跳过智能手机使用频率的问题，但只要控制年龄因素，缺失就独立了。这类情况可以通过多重插补等方法纠正。
非随机缺失（MNAR）
缺失本身与未观测值相关。比如低收入群体更不愿意透露薪资水平。这时即使调整协变量也无法消除偏倚，需要借助敏感性分析或潜变量模型。

判别这三种机制没有绝对检验方法，通常依赖领域知识 + 辅助分析。一种常用手段是构建“缺失指示矩阵”，然后检验其与其他变量的相关性：

* 创建缺失标志变量 *
COMPUTE miss_service = MISSING(service_score).
COMPUTE miss_income = MISSING(income).

* 执行卡方检验判断缺失是否与性别相关 *
CROSSTABS miss_service BY Gender
  /STATISTICS=CHISQ
  /CELLS=COUNT ROW.

如果结果显示 miss_service 与 Gender 显著相关，那就说明至少属于 MAR，不能简单删掉。

如何在SPSS中标记和查看缺失值？

SPSS内置两种缺失值类型：
- 系统缺失（System-missing） ：用圆点 . 表示，通常源于空白单元格；
- 用户缺失（User-defined missing） ：由你指定特定数值（如-99、999）表示无效响应。

可通过【变量视图】→【缺失】列直接设置，也可以用语法批量定义：

* 将数值999定义为income变量的缺失值 *
MISSING VALUES income (999).
* 将多个值同时设为缺失 *
MISSING VALUES education ('DK', 'NA').

然后使用 FREQUENCIES 查看各变量缺失比例：

FREQUENCIES VARIABLES=service_score income agegroup
  /FORMAT=NOTABLE
  /STATISTICS=MISSING.

输出结果会显示“Valid”与“Missing”的频数及百分比，帮助快速定位问题字段。

变量	有效样本数	缺失样本数	缺失率
service_score	850	150	15%
income	700	300	30%
agegroup	980	20	2%

当某变量缺失率超过5%，就要引起警惕；若超过30%，就得慎重考虑是否保留了。

怎么填补缺失值？这里有三种常见做法

列表删除法（Listwise Deletion）

最简单粗暴：剔除任一关键变量缺失的个案。

* 执行回归分析时自动排除含缺失值的案例 *
REGRESSION
  /DEPENDENT salary
  /METHOD=ENTER experience education
  /MISSING LISTWISE.

优点是操作简便，缺点是可能导致样本量锐减，尤其当多个变量都有少量缺失时。

均值填补（Mean Imputation）

对数值型变量，用均值替代缺失值：

* 计算均值并替换缺失 *
AGGREGATE
  /OUTFILE=* MODE=ADDVARIABLES
  /BREAK=
  /mean_income=MEAN(income).

IF MISSING(income) income = mean_income.
EXECUTE.

虽然保持样本量不变，但会低估方差，扭曲相关结构， 强烈不推荐用于正式建模 。

EM算法填补（Expectation-Maximization）

SPSS提供“替换缺失值”功能，支持使用EM算法估计最可能的缺失值。该方法基于协方差结构迭代求解，适用于MAR情形。

操作路径：【转换】→【替换缺失值】→ 方法选择“EM” → 指定协变量 → 生成新变量。

原理如下：
1. E步：基于当前参数估计期望值；
2. M步：最大化似然函数更新参数；
3. 迭代直至收敛。

flowchart LR
    A[初始化缺失值] --> B[E步: 计算条件期望]
    B --> C[M步: 更新均值与协方差]
    C --> D{收敛?}
    D -- 否 --> B
    D -- 是 --> E[输出填补后数据]

相比单一填补，EM能更好地维持变量间关系，但仍属单次填补，未反映不确定性。更优方案是结合“多重插补”（Multiple Imputation），我们后面会讲到。

描述性统计：揭开数据的第一层面纱

终于进入正题啦～🎉 在开始建模之前，我们必须先搞清楚数据长什么样。这就是所谓的“探索性数据分析”（EDA），而描述性统计就是第一步。

很多新手喜欢一上来就跑回归，结果发现模型效果很差，回头一看才发现因变量严重偏态，压根不符合正态假设。所以啊，慢下来，看看数据本身，往往会有意想不到的收获。

集中趋势 vs 离散程度：如何选择合适的指标？

我们要回答两个基本问题：
- 数据集中在哪个位置？→ 集中趋势
- 数据围绕中心有多分散？→ 离散程度

常用的集中趋势指标有三个：

指标	优点	缺点	适用数据类型
均值	利用全部信息，数学性质优良	易受异常值影响	定距/定比变量
中位数	不受极端值干扰	忽略部分数据细节	所有有序变量
众数	可用于名义变量	可能不唯一或不存在	名义变量

选择建议：
- 对称分布 → 使用均值；
- 偏态分布或含异常值 → 优先使用中位数；
- 分类变量 → 使用众数。

在SPSS中执行如下语法可一次性输出多种描述性指标：

FREQUENCIES VARIABLES=income
  /STATISTICS=MEAN MEDIAN MODE STDDEV VARIANCE RANGE.

输出包括均值、中位数、众数、标准差、方差、极差等，非常适合批量处理多个变量。

还有一种更强大的方式是使用 EXAMINE 命令：

EXAMINE VARIABLES=age
  /PLOT BOXPLOT STEMLEAF
  /STATISTICS DESCRIPTIVES
  /CINTERVAL 95
  /MISSING LISTWISE
  /NOTOTAL.

它不仅能生成箱形图、茎叶图，还能输出均值的95%置信区间，并标记出离群点，简直是数据侦探的好帮手 🔍

正态性检验：别忘了这个关键前提

很多经典统计方法（如t检验、ANOVA、线性回归）都要求残差或原始变量服从正态分布。所以我们得学会判断数据是否接近正态。

SPSS提供了多种工具：

偏度与峰度分析

偏度（Skewness） ：衡量不对称性
正偏（右偏）：尾部向右延伸，均值 > 中位数
负偏（左偏）：尾部向左延伸，均值 < 中位数
接近0 → 对称分布

经验法则：
- |偏度| < 0.5：轻度偏斜，可接受；
- 0.5 ≤ |偏度| < 1：中度偏斜；
- |偏度| ≥ 1：严重偏斜，建议变换或使用非参数方法。

峰度（Kurtosis） ：反映尾部厚度
正峰度（Leptokurtic）：尖峰厚尾，极端值较多；
负峰度（Platykurtic）：平顶薄尾；
峰度=0 → 与正态分布相似。

SPSS输出的是 excess kurtosis（已减3），所以标准正态分布的峰度为0。

DESCRIPTIVES VARIABLES=satisfaction_score
  /STATISTICS=MEAN STDDEV SKEWNESS KURTOSIS.

如果结果显示 Skewness = 1.23, Kurtosis = 2.05 → 表明数据明显右偏且尖峰，不适合直接用于参数检验。可以考虑对数变换：

COMPUTE log_score = LG10(satisfaction_score + 1).

然后再检验变换后的分布。

Shapiro-Wilk 与 Kolmogorov-Smirnov 检验

Shapiro-Wilk 适合小样本（n < 50），功效高；
K-S 适合大样本，但对中心区域敏感度较低。

操作路径：
【分析】→【描述统计】→【探索】→ 勾选“含检验的正态图”

输出中会自动包含两者的p值。当 p < 0.05 时拒绝正态性假设。

图形诊断：Q-Q图与直方图

视觉判断非常重要！

Q-Q图 ：将样本分位数与理论正态分布分位数绘制成散点图。若点大致落在对角线上，说明分布接近正态。
直方图叠加正态曲线 ：直观对比形状差异。

GRAPH
  /HISTOGRAM(NORMAL)=reaction_time.

加上 /NORMAL 参数会在柱状图上叠加一条正态曲线，便于对比。

最终决策路径如下：

flowchart LR
    A[原始变量] --> B{样本量<50?}
    B -->|是| C[使用Shapiro-Wilk检验]
    B -->|否| D[使用K-S检验]
    C & D --> E[结合Q-Q图判断]
    E --> F{是否拒绝正态?}
    F -->|否| G[可使用参数方法]
    F -->|是| H[考虑变换或非参数方法]

记住一句话： 统计检验 + 图形诊断 = 更可靠的结论

聚类分析：发现隐藏在数据中的群体结构

终于到了重头戏——聚类分析 🎯

它的核心目标是将一组对象划分为若干个“簇”（Cluster），使得同一簇内的对象彼此相似，而不同簇之间的对象差异显著。这是一种典型的无监督学习方法，特别适合在缺乏先验标签的情况下发现潜在模式。

比如你想对全国省份进行发展模式分类，但事先并没有明确的标准。这时候聚类就能帮你自动找出几类典型的发展路径。

两种主流算法：K-Means vs 层次聚类

特性	K-Means	层次聚类
簇形成方式	将数据划分为互斥子集	构建嵌套簇的树状结构
输入参数需求	必须指定聚类数 $ k $	不强制指定 $ k $，可通过切割树获得
时间复杂度	较低，适合大数据	较高，适合中小数据
输出形式	每个样本对应一个簇标签	谱系图（Dendrogram）显示合并过程
对噪声敏感性	较高	中等

简单来说：
- 如果你数据量大、追求效率，选 K-Means ；
- 如果你想探索多层次结构、不需要预设k值，选 层次聚类 。

关键前置步骤：距离计算与标准化

聚类效果高度依赖于“相似性”的定义。最常见的距离度量有：

欧氏距离 ：强调各维度差值的综合影响，广泛用于连续型变量；
曼哈顿距离 ：对极端值更稳健；
余弦相似度 ：关注方向一致性，忽略绝对大小，适合文本或评分向量。

但要注意！当变量具有不同量纲时（如年龄 vs 收入），大尺度变量会在距离计算中占据主导地位，导致结果偏差。

解决方案： 标准化 ！

Z-score标准化 ：$ z = \frac{x - \mu}{\sigma} $
Min-Max归一化 ：$ x’ = \frac{x - x_{\min}}{x_{\max} - x_{\min}} $

在SPSS中可通过【转换】→【计算变量】实现：

COMPUTE Z_Age = (Age - MEAN(Age)) / SD(Age).
EXECUTE.

执行后应检查描述性统计确认标准化是否成功（均值≈0，标准差≈1）。

实战演练：用SPSS完成一次完整的聚类分析

让我们以上海某连锁商场的顾客评分为例，实战一遍全流程。

第一步：数据准备与清洗

数据包含5000名顾客在五个维度的评分（1–5分）：
- service：服务态度
- price：价格合理性
- environment：购物环境
- variety：商品丰富度
- parking：停车便利性

先做相关性分析：

CORRELATIONS
  /VARIABLES=service price environment variety parking
  /PRINT=TWOTAIL NOSIG.

发现“服务”与“环境”相关系数达0.67（p < 0.01），说明顾客对软性体验有统一偏好。

接着标准化：

DESCRIPTIVES VARIABLES=service price environment variety parking /SAVE.

生成 Zservice, Zprice 等新变量。

第二步：运行K-Means聚类

QUICK CLUSTER Zservice Zprice Zenvironment Zvariety Zparking
  /CRITERIA=CLUSTERS(3) MXITER(50)
  /METHOD=CENTROID
  /SAVE CLUSTER.

通过轮廓系数辅助判断最优k值，在Excel中绘制WCSS随k变化曲线，发现k=3时出现明显“肘部”。

聚类结果如下：

维度	聚类1（忠诚体验派）	聚类2（价格敏感派）	聚类3（全面满意派）
Zservice	1.21	-0.87	1.05
Zprice	-0.33	1.45	0.98
Zenvironment	1.15	-0.76	1.02
Zvariety	0.45	0.33	0.89
Zparking	0.12	-0.45	0.67

于是我们可以定义三类客户：
- 聚类1 ：重视服务与环境，对价格不敏感，适合推送高端品牌活动；
- 聚类2 ：强烈关注性价比，易被促销吸引，宜定向发放折扣券；
- 聚类3 ：各项均高度满意，属核心高价值用户，应纳入VIP维护体系。

三个月后，商场复购率提升了14.6% 💪

最后的思考：数据分析的本质是什么？

讲了这么多技术细节，我想回到最初的问题：我们为什么要学SPSS？为什么要搞聚类分析？

其实答案很简单： 为了更好地理解世界，做出更明智的决策 。

工具只是手段，真正的价值在于你怎么用它去讲故事、解决问题、创造改变。

下次当你面对一堆数据感到迷茫时，不妨问问自己：
- 我真正想解决的问题是什么？
- 这些数据能告诉我什么？
- 我的分析能让谁受益？

带着这些问题出发，你会发现，SPSS不再只是一个软件，而是你通往洞察力的一扇门 🚪✨

本文还有配套的精品资源，点击获取

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模