数据分析学习——基础理论知识详细版

数据编码：将分类数据转化为数值数据（如 “性别：男 = 1，女 = 0”“产品类别：家电 = 0，服装 = 1，食品 = 2”）数据离散化：将连续型数据转化为分类数据（如 “将‘年龄’离散化为‘18-25 岁’‘26-35 岁’‘36 岁以上’”）应用场景：多指标波动对比（如 “产品 A 的 CV=0.2，产品 B 的 CV=0.3，说明产品 A 波动更小”）数据类型转换：如 “将‘字符串类型的日

悲守穷庐，将复何及

944人浏览 · 2025-11-26 16:15:01

悲守穷庐，将复何及 · 2025-11-26 16:15:01 发布

基础理论知识（详细版）

一、数据分析核心认知

数据分析的定义与本质：数据驱动决策的过程，通过对数据的收集、处理、分析，提取有价值的信息并解决业务问题数据分析的核心流程：
需求明确：拆解业务目标（如 “提升销售额”→“分析各渠道销售贡献”）数据收集：确定数据来源（内部数据库、公开数据、调研数据等）
数据处理：清洗、转换、整合数据（为分析做准备）数据分析：运用统计 / 算法挖掘数据规律（描述、诊断、预测、决策）结果呈现：通过报告 /
可视化传达结论（支撑业务行动）数据分析的应用场景：业务运营：销售分析、用户行为分析、库存优化市场营销：渠道效果评估、用户分群、营销
ROI 分析风险控制：异常交易检测、客户流失预警、信用评估产品优化：功能使用分析、用户满意度调研、迭代效果验证数据分析的核心思维：
目标导向思维：所有分析围绕业务目标展开数据因果思维：区分 “相关关系” 与 “因果关系”（如
“广告投入与销售额正相关≠广告导致销售额增长”）多维度拆解思维：从时间、地区、用户、产品等维度拆分数据（如 “按地区拆解月度销售额”）
概率统计思维：用统计规律替代 “直觉判断”（如用置信区间描述结果可靠性）数据分析师的核心能力模型：
业务理解能力：将业务需求转化为分析问题数据处理能力：清洗、整合多源数据分析方法能力：灵活运用统计 / 算法工具
沟通表达能力：清晰传达分析结论工具使用能力：熟练掌握 Excel、Python、SQL 等工具

二、数据基础概念
数据的本质与价值：数据是对现实世界的记录（如 “用户点击记录”“订单金额”），核心价值是辅助决策
数据的分类：
按结构划分：
结构化数据：表格形式（Excel / 数据库表，如 “销售明细表”）
半结构化数据：JSON/XML/HTML（如 API 返回数据、网页数据）
非结构化数据：文本、图片、音频、视频（如用户评论、产品图片）
按类型划分：
定量数据（数值型）：
离散型数据：可数、不连续（如 “订单数”“用户数”，取值为 0,1,2…）
连续型数据：不可数、连续（如 “销售额”“身高”，取值为任意实数）
定性数据（分类型）：
名义型数据：无顺序（如 “性别：男 / 女”“产品类别：家电 / 服装”）
有序型数据：有顺序但无固定间隔（如 “满意度：高 / 中 / 低”“评分：1-5 星”）
数据的核心属性：
维度（Dimension）：分析的角度（如 “时间维度”“地区维度”“用户维度”）
指标（Metric）：可量化的衡量标准（如 “销售额”“转化率”“留存率”）
口径（Caliber）：指标的统计规则（如 “活跃用户 = 当日登录≥1 次”“销售额 = 付款金额”）
粒度（Granularity）：数据的详细程度（如 “日粒度销售额”“小时粒度销售额”）
数据质量评估标准：
完整性：无缺失值（如 “用户表中 95% 的用户填写了手机号”）
准确性：数据真实可靠（如 “订单金额与实际收款一致”）
一致性：同一指标统计规则统一（如 “各部门统计的‘销售额’口径一致”）
及时性：数据更新及时（如 “实时销售数据延迟不超过 1 小时”）
唯一性：无重复数据（如 “用户 ID 无重复记录”）
三、统计学基础（核心重点）
（一）描述性统计
数据集中趋势衡量（“数据的平均水平”）：
均值（Mean）：
定义：所有数据的算术平均（总体均值 μ，样本均值 x̄）
公式：x̄=Σxᵢ/n（适用于对称分布数据）
特点：易受极端值影响（如 “少数高收入拉高人均收入”）
应用场景：描述无极端值的数据平均（如 “日均销售额”）
中位数（Median）：
定义：数据排序后中间位置的数值（奇数个数据取中间值，偶数个取中间两数平均）
特点：抗极端值（不受异常值干扰）
应用场景：描述有极端值的数据（如 “居民收入中位数”“房价中位数”）
众数（Mode）：
定义：数据中出现频率最高的数值
特点：可用于分类数据（如 “最畅销的产品型号”）
应用场景：描述 “最常见” 的结果（如 “用户最常使用的支付方式”）
数据离散程度衡量（“数据的波动范围”）：
极差（Range）：
定义：最大值 - 最小值（R=max (xᵢ)-min (xᵢ)）
特点：计算简单，但易受极端值影响
应用场景：快速判断数据波动范围（如 “日销售额波动幅度”）
方差（Variance）：
定义：数据偏离均值的平方的平均（总体方差 σ²，样本方差 s²）
公式：s²=Σ(xᵢ-x̄)²/(n-1)（样本方差分母用 n-1，无偏估计）
特点：单位是原数据单位的平方，不易直观解释
应用场景：后续统计分析（如回归、假设检验）的基础
标准差（Standard Deviation）：
定义：方差的平方根（总体标准差 σ，样本标准差 s）
特点：单位与原数据一致，易解释
应用场景：描述数据的波动程度（如 “销售额标准差 5 万元，说明日常波动较小”）
四分位数（Quartile）：
定义：数据排序后分为四等份的分界点（Q1 = 下四分位 25%，Q2 = 中位数 50%，Q3 = 上四分位 75%）
应用场景：计算四分位距、识别异常值
四分位距（IQR）：
定义：IQR=Q3-Q1（中间 50% 数据的波动范围）
特点：抗极端值
应用场景：异常值检测（超出 [Q1-1.5IQR, Q3+1.5IQR] 的为异常值）
变异系数（CV）：
定义：CV=s/x̄（标准差 / 均值，无量纲）
特点：可跨量纲对比波动（如 “销售额与用户数的波动对比”）
应用场景：多指标波动对比（如 “产品 A 的 CV=0.2，产品 B 的 CV=0.3，说明产品 A 波动更小”）
数据分布形态衡量：
偏度（Skewness）：
定义：描述数据分布的不对称程度（正态分布偏度 = 0）
解读：偏度 > 0（右偏，长尾在右，如 “收入分布”）；偏度 < 0（左偏，长尾在左，如 “考试分数分布”）
峰度（Kurtosis）：
定义：描述数据分布的陡峭程度（正态分布峰度 = 3）
解读：峰度 > 3（尖峰分布，数据集中在均值附近）；峰度 < 3（平峰分布，数据分散）
（二）概率与概率分布
概率基础：
概率的定义：事件发生的可能性（0≤P (A)≤1）
核心法则：
加法法则：互斥事件 P (A∪B)=P (A)+P (B)；非互斥事件 P (A∪B)=P (A)+P (B)-P (A∩B)
乘法法则：独立事件 P (A∩B)=P (A)×P (B)；条件概率 P (A|B)=P (A∩B)/P (B)
常用概念：
互斥事件：不能同时发生（如 “掷骰子得到 1 和得到 2”）
独立事件：一个事件发生不影响另一个（如 “两次掷骰子的结果”）
条件概率：在 B 发生的前提下 A 发生的概率（如 “用户点击广告后下单的概率”）
随机变量：
定义：取值不确定的变量（如 “每日订单量”“单次抽奖奖金”）
分类：离散型随机变量（可数，如 “订单数”）、连续型随机变量（不可数，如 “销售额”）
常见概率分布（业务核心）：
二项分布（Binomial Distribution）：
定义：n 次独立试验中成功次数的分布（X~B (n,p)）
参数：n（试验次数）、p（单次成功概率）
期望：E (X)=np；方差：Var (X)=np (1-p)
应用场景：转化率预测（如 “100 次点击，转化率 20%，预期下单 20 次”）、抽奖中奖次数
正态分布（Normal Distribution）：
定义：对称钟形分布（X~N (μ,σ²)）
参数：μ（均值 = 期望）、σ²（方差）
核心性质：68% 数据在 μ±σ，95% 在 μ±2σ，99.7% 在 μ±3σ（3σ 原则）
应用场景：自然 / 业务数据描述（如 “用户身高”“正常销售额”）、假设检验、抽样分布
泊松分布（Poisson Distribution）：
定义：单位时间 / 空间内事件发生次数的分布（X~P (λ)）
参数：λ（平均发生次数）
期望 = 方差 =λ
应用场景：稀有事件计数（如 “每小时咨询量”“每日故障数”“每月投诉数”）
均匀分布（Uniform Distribution）：
定义：数据在区间 [a,b] 内均匀取值
应用场景：随机抽样（如 “从 1-100 中随机选数”）
抽样与抽样分布：
抽样的意义：用样本数据推断总体特征（如 “抽取 1000 用户样本推断所有用户偏好”）
常用抽样方法：
简单随机抽样：随机抽取，每个样本被选中概率相等（如 “抽签”）
分层抽样：按特征分层后抽样（如 “按地区分层，各地区抽取 100 用户”）
系统抽样：按固定间隔抽样（如 “每隔 10 个订单抽取 1 个”）
整群抽样：按群体抽样（如 “抽取 5 个门店，调查所有门店用户”）
抽样分布：样本统计量的分布（如 “样本均值 x̄的分布”）
中心极限定理（CLT）：当样本量 n 足够大（n≥30），无论总体分布如何，样本均值近似服从正态分布 N (μ,σ²/n)
应用：用样本均值估计总体均值（如 “样本均值 100，推断总体均值在 95-105 之间”）
（三）假设检验
假设检验的核心逻辑：
本质：通过样本数据判断总体的某个猜想是否成立（“小概率反证法”）
核心思想：假设 “原假设成立”，如果观察到的样本结果是小概率事件（概率 <α），则拒绝原假设
核心概念：
原假设（H₀）：无差异 / 无效果的假设（如 “销售额无显著增长”“两组用户转化率无差异”）
备择假设（H₁）：与原假设对立的假设（如 “销售额显著增长”“两组用户转化率有差异”）
显著性水平（α）：拒绝原假设的临界概率（常用 α=0.05，即 “误判风险不超过 5%”）
P 值：观察到的结果比实际结果更极端的概率（P<α 则拒绝 H₀）
第一类错误（α 错误）：拒绝了正确的原假设（“假阳性”，如 “误以为销售额增长”）
第二类错误（β 错误）：接受了错误的原假设（“假阴性”，如 “误以为销售额无增长”）
假设检验的步骤：
步骤 1：明确问题，建立 H₀和 H₁（如 H₀：μ=μ₀，H₁：μ≠μ₀）
步骤 2：选择检验方法（如 t 检验、Z 检验、卡方检验）
步骤 3：确定显著性水平 α（常用 0.05）
步骤 4：计算检验统计量和 P 值（如 t 值、Z 值）
步骤 5：做出决策（P<α 拒绝 H₀，否则接受 H₀）
常用假设检验方法：
Z 检验：总体标准差已知，或大样本（n≥30）的均值检验（如 “大样本下销售额是否显著增长”）
t 检验：总体标准差未知，小样本（n<30）的均值检验（如 “小样本下两组用户转化率差异”）
单样本 t 检验：检验样本均值与总体均值的差异（如 “本季度销售额均值是否高于去年同期”）
双样本 t 检验：检验两组样本均值的差异（如 “A 渠道与 B 渠道转化率是否有差异”）
卡方检验（χ² 检验）：检验分类数据的独立性或拟合优度（如 “性别与购买偏好是否相关”“实际分布是否符合预期分布”）
置信区间与假设检验的关系：
置信区间：总体参数的可能范围（如 “95% 置信区间 [80,100]”）
关系：若原假设的参数值不在置信区间内，则拒绝原假设（如 H₀：μ=70，置信区间 [80,100]，则拒绝 H₀）
（四）相关性分析
相关性的定义：衡量两个变量之间的线性关联程度（无因果关系）
常用相关系数：
皮尔逊相关系数（Pearson Correlation Coefficient）：
定义：标准化的协方差（r∈[-1,1]）
公式：r=Cov (X,Y)/(σ_Xσ_Y)
解读：r=1（完全正相关）、r=-1（完全负相关）、r=0（无线性相关）
适用场景：两个连续型变量的线性相关（如 “广告投入与销售额的相关性”）
斯皮尔曼等级相关系数（Spearman’s Rho）：
定义：基于变量排序的相关系数（ρ∈[-1,1]）
适用场景：有序分类变量或连续型变量（不要求正态分布）（如 “满意度评分与复购率的相关性”）
肯德尔相关系数（Kendall’s Tau）：
定义：基于变量秩次一致度的相关系数（τ∈[-1,1]）
适用场景：样本量较小的有序分类变量（如 “产品评分与用户推荐意愿的相关性”）
相关性分析的注意事项：
相关≠因果：如 “冰淇淋销量与溺水人数正相关，但并非因果关系（共同原因是气温）”
警惕伪相关：两个变量无内在联系，但因第三方变量导致相关（如 “每年巧克力销量与诺贝尔奖数正相关”）
样本量影响：样本量过小时，相关系数可能不可靠（如 n=10 的相关系数 r=0.8，可能是偶然结果）
四、数据清洗与预处理基础
数据清洗的定义与目的：
定义：处理数据中的错误、缺失、重复、异常等问题，使数据符合分析要求
目的：提高数据质量，避免 “垃圾数据导致垃圾结论”
数据清洗的核心步骤：
数据审核：检查数据质量（完整性、准确性、一致性）
缺失值处理：
删除法：缺失比例高（如 > 30%）或无意义的字段 / 样本（如 “用户 ID 缺失的样本”）
填充法：
数值型数据：均值填充（无极端值）、中位数填充（有极端值）、众数填充（离散型）
分类数据：众数填充（如 “性别缺失用‘男’填充，因男用户占比 70%”）
高级填充：线性插值（时间序列数据）、KNN 填充（基于相似样本）
标识法：对缺失值标注（如 “年龄缺失标注为‘未知’”）
异常值处理：
异常值识别方法：
统计法：3σ 原则（正态分布）、IQR 法（[Q1-1.5IQR, Q3+1.5IQR]）、Z-score 法（|Z|>3 为异常）
业务法：基于业务逻辑识别（如 “单笔订单金额 100 万元，远超日常均值，可能是异常”）
异常值处理方法：
删除法：确认是错误数据（如 “订单金额 =-100 元”）
修正法：修正为正确值（如 “将‘10000 元’修正为‘1000 元’，因笔误多写 1 个 0”）
替换法：用均值 / 中位数替换（如 “用销售额中位数替换异常高的订单金额”）
保留法：确认是真实数据（如 “某大客户单笔订单 100 万元”），保留并单独标注分析
重复数据处理：
识别：基于唯一标识（如 “用户 ID”“订单号”）查找重复记录
处理：保留一条有效记录（如 “保留最新的订单记录，删除重复的旧记录”）
数据一致性处理：
单位统一：如 “将‘千克’和‘克’统一为‘千克’”
格式统一：如 “将日期格式‘2025-11-21’和‘21/11/2025’统一为‘YYYY-MM-DD’”
口径统一：如 “将各部门的‘销售额’统一为‘付款金额’口径”
数据转换与规范化：
数据类型转换：如 “将‘字符串类型的日期’转换为‘日期类型’”“将‘文本型数字’转换为‘数值型’”
数据标准化（Z-score 标准化）：
公式：z=(x-μ)/σ（标准化后均值 = 0，标准差 = 1）
应用场景：消除量纲影响（如 “身高（cm）和体重（kg）的协同分析”）
数据归一化（Min-Max 归一化）：
公式：x’=(x-min)/(max-min)（归一化后取值∈[0,1]）
应用场景：算法模型输入（如聚类、神经网络）
数据离散化：将连续型数据转化为分类数据（如 “将‘年龄’离散化为‘18-25 岁’‘26-35 岁’‘36 岁以上’”）
数据编码：将分类数据转化为数值数据（如 “性别：男 = 1，女 = 0”“产品类别：家电 = 0，服装 = 1，食品 = 2”）
五、数据探索与可视化基础
探索性数据分析（EDA）的定义与目的：
定义：通过统计方法和可视化工具，初步探索数据的分布、趋势、相关性等特征
目的：发现数据规律、识别异常、提出分析假设（为后续深入分析打基础）
EDA 的核心步骤：
单变量分析：分析单个变量的分布（如 “销售额的均值、标准差、直方图”）
双变量分析：分析两个变量的关系（如 “广告投入与销售额的散点图、相关系数”）
多变量分析：分析多个变量的协同关系（如 “地区、产品类别、销售额的热力图”）
数据可视化的基础原则：
准确性：图表反映真实数据（如 “不扭曲坐标轴比例”）
简洁性：避免冗余元素（如 “不添加无关的装饰图案”）
针对性：根据受众选择图表类型（如 “给业务人员用柱状图，给技术人员用折线图”）
逻辑性：图表标题、坐标轴标签、图例清晰（如 “坐标轴标注单位‘万元’，图例说明‘A 渠道’‘B 渠道’”）
常用可视化图表及应用场景：
描述分布：直方图（连续型数据分布）、箱线图（离散程度 + 异常值）、饼图（分类数据占比）
描述趋势：折线图（时间序列趋势）、面积图（趋势 + 占比）
描述对比：柱状图（分类数据对比）、条形图（多类别对比）、雷达图（多维度对比）
描述关系：散点图（两个变量相关性）、热力图（多变量相关性）
描述构成：堆叠柱状图（分类 + 占比）、树状图（层级结构占比）

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模