基础理论知识(详细版)

一、数据分析核心认知

  • 数据分析的定义与本质:数据驱动决策的过程,通过对数据的收集、处理、分析,提取有价值的信息并解决业务问题 数据分析的核心流程:
    需求明确:拆解业务目标(如 “提升销售额”→“分析各渠道销售贡献”) 数据收集:确定数据来源(内部数据库、公开数据、调研数据等)
    数据处理:清洗、转换、整合数据(为分析做准备) 数据分析:运用统计 / 算法挖掘数据规律(描述、诊断、预测、决策) 结果呈现:通过报告 /
    可视化传达结论(支撑业务行动) 数据分析的应用场景: 业务运营:销售分析、用户行为分析、库存优化 市场营销:渠道效果评估、用户分群、营销
    ROI 分析 风险控制:异常交易检测、客户流失预警、信用评估 产品优化:功能使用分析、用户满意度调研、迭代效果验证 数据分析的核心思维:
    目标导向思维:所有分析围绕业务目标展开 数据因果思维:区分 “相关关系” 与 “因果关系”(如
    “广告投入与销售额正相关≠广告导致销售额增长”) 多维度拆解思维:从时间、地区、用户、产品等维度拆分数据(如 “按地区拆解月度销售额”)
    概率统计思维:用统计规律替代 “直觉判断”(如用置信区间描述结果可靠性) 数据分析师的核心能力模型:
    业务理解能力:将业务需求转化为分析问题 数据处理能力:清洗、整合多源数据 分析方法能力:灵活运用统计 / 算法工具
    沟通表达能力:清晰传达分析结论 工具使用能力:熟练掌握 Excel、Python、SQL 等工具

二、数据基础概念
数据的本质与价值:数据是对现实世界的记录(如 “用户点击记录”“订单金额”),核心价值是辅助决策
数据的分类:
按结构划分:
结构化数据:表格形式(Excel / 数据库表,如 “销售明细表”)
半结构化数据:JSON/XML/HTML(如 API 返回数据、网页数据)
非结构化数据:文本、图片、音频、视频(如用户评论、产品图片)
按类型划分:
定量数据(数值型):
离散型数据:可数、不连续(如 “订单数”“用户数”,取值为 0,1,2…)
连续型数据:不可数、连续(如 “销售额”“身高”,取值为任意实数)
定性数据(分类型):
名义型数据:无顺序(如 “性别:男 / 女”“产品类别:家电 / 服装”)
有序型数据:有顺序但无固定间隔(如 “满意度:高 / 中 / 低”“评分:1-5 星”)
数据的核心属性:
维度(Dimension):分析的角度(如 “时间维度”“地区维度”“用户维度”)
指标(Metric):可量化的衡量标准(如 “销售额”“转化率”“留存率”)
口径(Caliber):指标的统计规则(如 “活跃用户 = 当日登录≥1 次”“销售额 = 付款金额”)
粒度(Granularity):数据的详细程度(如 “日粒度销售额”“小时粒度销售额”)
数据质量评估标准:
完整性:无缺失值(如 “用户表中 95% 的用户填写了手机号”)
准确性:数据真实可靠(如 “订单金额与实际收款一致”)
一致性:同一指标统计规则统一(如 “各部门统计的‘销售额’口径一致”)
及时性:数据更新及时(如 “实时销售数据延迟不超过 1 小时”)
唯一性:无重复数据(如 “用户 ID 无重复记录”)
三、统计学基础(核心重点)
(一)描述性统计
数据集中趋势衡量(“数据的平均水平”):
均值(Mean):
定义:所有数据的算术平均(总体均值 μ,样本均值 x̄)
公式:x̄=Σxᵢ/n(适用于对称分布数据)
特点:易受极端值影响(如 “少数高收入拉高人均收入”)
应用场景:描述无极端值的数据平均(如 “日均销售额”)
中位数(Median):
定义:数据排序后中间位置的数值(奇数个数据取中间值,偶数个取中间两数平均)
特点:抗极端值(不受异常值干扰)
应用场景:描述有极端值的数据(如 “居民收入中位数”“房价中位数”)
众数(Mode):
定义:数据中出现频率最高的数值
特点:可用于分类数据(如 “最畅销的产品型号”)
应用场景:描述 “最常见” 的结果(如 “用户最常使用的支付方式”)
数据离散程度衡量(“数据的波动范围”):
极差(Range):
定义:最大值 - 最小值(R=max (xᵢ)-min (xᵢ))
特点:计算简单,但易受极端值影响
应用场景:快速判断数据波动范围(如 “日销售额波动幅度”)
方差(Variance):
定义:数据偏离均值的平方的平均(总体方差 σ²,样本方差 s²)
公式:s²=Σ(xᵢ-x̄)²/(n-1)(样本方差分母用 n-1,无偏估计)
特点:单位是原数据单位的平方,不易直观解释
应用场景:后续统计分析(如回归、假设检验)的基础
标准差(Standard Deviation):
定义:方差的平方根(总体标准差 σ,样本标准差 s)
特点:单位与原数据一致,易解释
应用场景:描述数据的波动程度(如 “销售额标准差 5 万元,说明日常波动较小”)
四分位数(Quartile):
定义:数据排序后分为四等份的分界点(Q1 = 下四分位 25%,Q2 = 中位数 50%,Q3 = 上四分位 75%)
应用场景:计算四分位距、识别异常值
四分位距(IQR):
定义:IQR=Q3-Q1(中间 50% 数据的波动范围)
特点:抗极端值
应用场景:异常值检测(超出 [Q1-1.5IQR, Q3+1.5IQR] 的为异常值)
变异系数(CV):
定义:CV=s/x̄(标准差 / 均值,无量纲)
特点:可跨量纲对比波动(如 “销售额与用户数的波动对比”)
应用场景:多指标波动对比(如 “产品 A 的 CV=0.2,产品 B 的 CV=0.3,说明产品 A 波动更小”)
数据分布形态衡量:
偏度(Skewness):
定义:描述数据分布的不对称程度(正态分布偏度 = 0)
解读:偏度 > 0(右偏,长尾在右,如 “收入分布”);偏度 < 0(左偏,长尾在左,如 “考试分数分布”)
峰度(Kurtosis):
定义:描述数据分布的陡峭程度(正态分布峰度 = 3)
解读:峰度 > 3(尖峰分布,数据集中在均值附近);峰度 < 3(平峰分布,数据分散)
(二)概率与概率分布
概率基础:
概率的定义:事件发生的可能性(0≤P (A)≤1)
核心法则:
加法法则:互斥事件 P (A∪B)=P (A)+P (B);非互斥事件 P (A∪B)=P (A)+P (B)-P (A∩B)
乘法法则:独立事件 P (A∩B)=P (A)×P (B);条件概率 P (A|B)=P (A∩B)/P (B)
常用概念:
互斥事件:不能同时发生(如 “掷骰子得到 1 和得到 2”)
独立事件:一个事件发生不影响另一个(如 “两次掷骰子的结果”)
条件概率:在 B 发生的前提下 A 发生的概率(如 “用户点击广告后下单的概率”)
随机变量:
定义:取值不确定的变量(如 “每日订单量”“单次抽奖奖金”)
分类:离散型随机变量(可数,如 “订单数”)、连续型随机变量(不可数,如 “销售额”)
常见概率分布(业务核心):
二项分布(Binomial Distribution):
定义:n 次独立试验中成功次数的分布(X~B (n,p))
参数:n(试验次数)、p(单次成功概率)
期望:E (X)=np;方差:Var (X)=np (1-p)
应用场景:转化率预测(如 “100 次点击,转化率 20%,预期下单 20 次”)、抽奖中奖次数
正态分布(Normal Distribution):
定义:对称钟形分布(X~N (μ,σ²))
参数:μ(均值 = 期望)、σ²(方差)
核心性质:68% 数据在 μ±σ,95% 在 μ±2σ,99.7% 在 μ±3σ(3σ 原则)
应用场景:自然 / 业务数据描述(如 “用户身高”“正常销售额”)、假设检验、抽样分布
泊松分布(Poisson Distribution):
定义:单位时间 / 空间内事件发生次数的分布(X~P (λ))
参数:λ(平均发生次数)
期望 = 方差 =λ
应用场景:稀有事件计数(如 “每小时咨询量”“每日故障数”“每月投诉数”)
均匀分布(Uniform Distribution):
定义:数据在区间 [a,b] 内均匀取值
应用场景:随机抽样(如 “从 1-100 中随机选数”)
抽样与抽样分布:
抽样的意义:用样本数据推断总体特征(如 “抽取 1000 用户样本推断所有用户偏好”)
常用抽样方法:
简单随机抽样:随机抽取,每个样本被选中概率相等(如 “抽签”)
分层抽样:按特征分层后抽样(如 “按地区分层,各地区抽取 100 用户”)
系统抽样:按固定间隔抽样(如 “每隔 10 个订单抽取 1 个”)
整群抽样:按群体抽样(如 “抽取 5 个门店,调查所有门店用户”)
抽样分布:样本统计量的分布(如 “样本均值 x̄的分布”)
中心极限定理(CLT):当样本量 n 足够大(n≥30),无论总体分布如何,样本均值近似服从正态分布 N (μ,σ²/n)
应用:用样本均值估计总体均值(如 “样本均值 100,推断总体均值在 95-105 之间”)
(三)假设检验
假设检验的核心逻辑:
本质:通过样本数据判断总体的某个猜想是否成立(“小概率反证法”)
核心思想:假设 “原假设成立”,如果观察到的样本结果是小概率事件(概率 <α),则拒绝原假设
核心概念:
原假设(H₀):无差异 / 无效果的假设(如 “销售额无显著增长”“两组用户转化率无差异”)
备择假设(H₁):与原假设对立的假设(如 “销售额显著增长”“两组用户转化率有差异”)
显著性水平(α):拒绝原假设的临界概率(常用 α=0.05,即 “误判风险不超过 5%”)
P 值:观察到的结果比实际结果更极端的概率(P<α 则拒绝 H₀)
第一类错误(α 错误):拒绝了正确的原假设(“假阳性”,如 “误以为销售额增长”)
第二类错误(β 错误):接受了错误的原假设(“假阴性”,如 “误以为销售额无增长”)
假设检验的步骤:
步骤 1:明确问题,建立 H₀和 H₁(如 H₀:μ=μ₀,H₁:μ≠μ₀)
步骤 2:选择检验方法(如 t 检验、Z 检验、卡方检验)
步骤 3:确定显著性水平 α(常用 0.05)
步骤 4:计算检验统计量和 P 值(如 t 值、Z 值)
步骤 5:做出决策(P<α 拒绝 H₀,否则接受 H₀)
常用假设检验方法:
Z 检验:总体标准差已知,或大样本(n≥30)的均值检验(如 “大样本下销售额是否显著增长”)
t 检验:总体标准差未知,小样本(n<30)的均值检验(如 “小样本下两组用户转化率差异”)
单样本 t 检验:检验样本均值与总体均值的差异(如 “本季度销售额均值是否高于去年同期”)
双样本 t 检验:检验两组样本均值的差异(如 “A 渠道与 B 渠道转化率是否有差异”)
卡方检验(χ² 检验):检验分类数据的独立性或拟合优度(如 “性别与购买偏好是否相关”“实际分布是否符合预期分布”)
置信区间与假设检验的关系:
置信区间:总体参数的可能范围(如 “95% 置信区间 [80,100]”)
关系:若原假设的参数值不在置信区间内,则拒绝原假设(如 H₀:μ=70,置信区间 [80,100],则拒绝 H₀)
(四)相关性分析
相关性的定义:衡量两个变量之间的线性关联程度(无因果关系)
常用相关系数:
皮尔逊相关系数(Pearson Correlation Coefficient):
定义:标准化的协方差(r∈[-1,1])
公式:r=Cov (X,Y)/(σ_Xσ_Y)
解读:r=1(完全正相关)、r=-1(完全负相关)、r=0(无线性相关)
适用场景:两个连续型变量的线性相关(如 “广告投入与销售额的相关性”)
斯皮尔曼等级相关系数(Spearman’s Rho):
定义:基于变量排序的相关系数(ρ∈[-1,1])
适用场景:有序分类变量或连续型变量(不要求正态分布)(如 “满意度评分与复购率的相关性”)
肯德尔相关系数(Kendall’s Tau):
定义:基于变量秩次一致度的相关系数(τ∈[-1,1])
适用场景:样本量较小的有序分类变量(如 “产品评分与用户推荐意愿的相关性”)
相关性分析的注意事项:
相关≠因果:如 “冰淇淋销量与溺水人数正相关,但并非因果关系(共同原因是气温)”
警惕伪相关:两个变量无内在联系,但因第三方变量导致相关(如 “每年巧克力销量与诺贝尔奖数正相关”)
样本量影响:样本量过小时,相关系数可能不可靠(如 n=10 的相关系数 r=0.8,可能是偶然结果)
四、数据清洗与预处理基础
数据清洗的定义与目的:
定义:处理数据中的错误、缺失、重复、异常等问题,使数据符合分析要求
目的:提高数据质量,避免 “垃圾数据导致垃圾结论”
数据清洗的核心步骤:
数据审核:检查数据质量(完整性、准确性、一致性)
缺失值处理:
删除法:缺失比例高(如 > 30%)或无意义的字段 / 样本(如 “用户 ID 缺失的样本”)
填充法:
数值型数据:均值填充(无极端值)、中位数填充(有极端值)、众数填充(离散型)
分类数据:众数填充(如 “性别缺失用‘男’填充,因男用户占比 70%”)
高级填充:线性插值(时间序列数据)、KNN 填充(基于相似样本)
标识法:对缺失值标注(如 “年龄缺失标注为‘未知’”)
异常值处理:
异常值识别方法:
统计法:3σ 原则(正态分布)、IQR 法([Q1-1.5IQR, Q3+1.5IQR])、Z-score 法(|Z|>3 为异常)
业务法:基于业务逻辑识别(如 “单笔订单金额 100 万元,远超日常均值,可能是异常”)
异常值处理方法:
删除法:确认是错误数据(如 “订单金额 =-100 元”)
修正法:修正为正确值(如 “将‘10000 元’修正为‘1000 元’,因笔误多写 1 个 0”)
替换法:用均值 / 中位数替换(如 “用销售额中位数替换异常高的订单金额”)
保留法:确认是真实数据(如 “某大客户单笔订单 100 万元”),保留并单独标注分析
重复数据处理:
识别:基于唯一标识(如 “用户 ID”“订单号”)查找重复记录
处理:保留一条有效记录(如 “保留最新的订单记录,删除重复的旧记录”)
数据一致性处理:
单位统一:如 “将‘千克’和‘克’统一为‘千克’”
格式统一:如 “将日期格式‘2025-11-21’和‘21/11/2025’统一为‘YYYY-MM-DD’”
口径统一:如 “将各部门的‘销售额’统一为‘付款金额’口径”
数据转换与规范化:
数据类型转换:如 “将‘字符串类型的日期’转换为‘日期类型’”“将‘文本型数字’转换为‘数值型’”
数据标准化(Z-score 标准化):
公式:z=(x-μ)/σ(标准化后均值 = 0,标准差 = 1)
应用场景:消除量纲影响(如 “身高(cm)和体重(kg)的协同分析”)
数据归一化(Min-Max 归一化):
公式:x’=(x-min)/(max-min)(归一化后取值∈[0,1])
应用场景:算法模型输入(如聚类、神经网络)
数据离散化:将连续型数据转化为分类数据(如 “将‘年龄’离散化为‘18-25 岁’‘26-35 岁’‘36 岁以上’”)
数据编码:将分类数据转化为数值数据(如 “性别:男 = 1,女 = 0”“产品类别:家电 = 0,服装 = 1,食品 = 2”)
五、数据探索与可视化基础
探索性数据分析(EDA)的定义与目的:
定义:通过统计方法和可视化工具,初步探索数据的分布、趋势、相关性等特征
目的:发现数据规律、识别异常、提出分析假设(为后续深入分析打基础)
EDA 的核心步骤:
单变量分析:分析单个变量的分布(如 “销售额的均值、标准差、直方图”)
双变量分析:分析两个变量的关系(如 “广告投入与销售额的散点图、相关系数”)
多变量分析:分析多个变量的协同关系(如 “地区、产品类别、销售额的热力图”)
数据可视化的基础原则:
准确性:图表反映真实数据(如 “不扭曲坐标轴比例”)
简洁性:避免冗余元素(如 “不添加无关的装饰图案”)
针对性:根据受众选择图表类型(如 “给业务人员用柱状图,给技术人员用折线图”)
逻辑性:图表标题、坐标轴标签、图例清晰(如 “坐标轴标注单位‘万元’,图例说明‘A 渠道’‘B 渠道’”)
常用可视化图表及应用场景:
描述分布:直方图(连续型数据分布)、箱线图(离散程度 + 异常值)、饼图(分类数据占比)
描述趋势:折线图(时间序列趋势)、面积图(趋势 + 占比)
描述对比:柱状图(分类数据对比)、条形图(多类别对比)、雷达图(多维度对比)
描述关系:散点图(两个变量相关性)、热力图(多变量相关性)
描述构成:堆叠柱状图(分类 + 占比)、树状图(层级结构占比)

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐