假设检验

假设检验可以用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计推断方法。其基本原理是先对总体的特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出推断。假设检验的本质是反证法,当我们无法证明给出很好的解决方案的时候,我们可以通过反证法来证明。

样本间差异有两种方式导致

  1. 这两个或几个样本均数(或率)来自同一总体,其差别仅仅由于抽样误差即偶然性所造成
  2. 这两个或几个样本均数(或率)来自不同的总体,即其差别不仅由抽样误差造成,而主要是由实验因素不同所引起的

假设检验的目的就在于排除抽样误差的影响,区分差别在统计上是否成立,并了解事件发生的概率。
1、提出检验假设又称无效假设,符号是H0;备择假设的符号是H1 。
H0:样本与总体或样本与样本间的差异是由抽样误差引起的 ;
H1:样本与总体或样本与样本间存在本质差异 ;
预先设定的检验水准昆明为0.05;当检验假设为真,但被错误地拒绝的概率,记作α,通常取α=0.05或α=0.01(这个后面会解释)

(无效)零假设怎么选

无效假设就跟他的名字一样,选择无效的假设。

  • 判断身高和体重是否相关,我们选择无关
  • 一种药物没有效果,我们选择无效

总之,哪个佛系选择哪个

p值的意义

先来举一个投掷硬币的例子。现在有一个硬币,我给你投10次,你觉得会出现几个正面,几个反面,出现什么情况的时候我们会觉得这个硬币是有问题的
这里可以运用我们上面讲的假设检验

  • H0 : 硬币是均匀的
  • H1 : 硬币是不均匀的
    我们来看看发生什么可以证明这个硬币是不均匀的。

第一次扔出一个正面,概率是 0.5 0.5 0.5
第二次扔出一个正面,概率是 0.5 ∗ 0.5 = 0.25 0.5*0.5=0.25 0.50.5=0.25
第三次又扔出一个正面,概率是 0.5 ∗ 0.5 ∗ 0.5 = 0.125 0.5*0.5*0.5=0.125 0.50.50.5=0.125
第四次还是扔出一个正面,概率是 0.5 ∗ 0.5 ∗ 0.5 = 0.0625 0.5*0.5*0.5=0.0625 0.50.50.5=0.0625

这个时候我们就会想,如果硬币均匀,出现四次的概率只有0.0625,这么低概率的情况竟然出现了,这个硬币可能是有点猫腻啊,然后又丢了一次

第五次扔出一个正面,概率是0.50.50.5*0.5=0.03125

这回就彻底不干了,这概率也太低了。信息论告诉我们,事件出现的概率越低,当发生时,所包含的信息是非常多的。这个时候我们有很大信心相信这个硬币有问题。

反复扔硬币应该符合二项分布(这就不解释了),表达式为:

X − B ( n , μ ) X-B(n,\mu) XB(n,μ)
如果硬币是均衡的, μ \mu μ就是0.5,n=10,然后绘制出曲线在这里插入图片描述
假如出现了8次或者8次以上的正面,那么概率就是

在这里插入图片描述
P ( 8 < = X < = 10 ) = 0.05 P(8<=X<=10)=0.05 P(8<=X<=10)=0.05,我们知道正面次数落在0-2,8-10的区间概率是非常低,当在一次实验中出现这样的极端事件,我们会觉得硬币是有问题的。我们可以考虑一下,当出现的概率非常低的时候,比如低于0.05,我们就认为这个假设是不合理,即硬币不均匀。

有个数学大佬出来定义了一个称为(p-value)的概念:即把八次正面的概率,与更极端的九次正面、十次正面的概率加起来: p _ v a l u e = P ( X > = 8 ) p\_value=P(X>=8) p_value=P(X>=8),根据扔硬币这个例子,可能你会觉得,我知道八次正面出现不正常就行了,干嘛要把九次、十次加起来?
首先连续的概率密度无法计算单点的概率(概率等于概率密度的积分,如果一个点的话上下值都是一样的,积分等于0),其次区间会更加的稳定,如果我们做多次实验(每次都投500次),那么每次的概率值都是不同的,但是大多数都大于某一个值,例如530等,所以比单一值更好(有点像是置信区间)。

在这里插入图片描述
这个时候我们讲故事就有了理论依据了,如何来证明一个硬币是不均匀的

  1. 提出假设,这个硬币是均匀的
  2. 置信水平,这里默认为α=0.05
  3. 验证数据,在硬币均匀的假设下,计算数据出现的概率,暂且认为是p值,概率越低,说明越不可能出现,我们采样一次就出现了,很有可能是有问题的。
  4. 进行比对,p值与置信水平α进行对比,如果p<α,我们认为出现这个事情已经超出我们的想象了,拒绝原假设。

统计学假设检验中 p 值的含义具体是什么? - 马同学的回答 - 知乎

对于来自总体分布类型相同的样本 { x 1 , x 2 . . . x n } \{x_{1},x_{2}...x_{n}\} {x1,x2...xn},如果样本间独立且样本量足够大,则样本均值 x = 1 n ∑ x i x=\frac{1}{n} \sum{x_{i}} x=n1xi服从均值为 μ \mu μ,标准差为 σ 2 n \frac{\sigma^{2}}{n} nσ2的正态分布,表示为 x ∼ N ( μ , σ 2 n ) x \sim N(\mu,\frac{\sigma^{2}}{n}) xN(μ,nσ2)。其中 μ \mu μ为总体均值, σ 2 \sigma^{2} σ2为总体方差。根据中心极限定理,对样本均值进行标准化处理(减去均值,除以标准差),标准化后的样本均值服从均值为0,方差为1的标准正态分布,即 x − μ σ n ∼ N ( 0 , 1 ) \frac{x-\mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0,1) n σxμN(0,1)。由于两个样本独立(AB组独立),
x B − x A ∼ N ( μ B − μ A , S A 2 n A + S B 2 n B ) x_{B}-x_{A} \sim N(\mu_{B}-\mu_{A},\frac{S_{A}^{2}}{n_{A}}+\frac{S_{B}^{2}}{n_{B}}) xBxAN(μBμA,nASA2+nBSB2)
当原假设成立时, μ B − μ A = 0 \mu_{B}-\mu_{A} = 0 μBμA=0,所以 x B − x A ∼ N ( 0 , S A 2 n A + S B 2 n B ) x_{B}-x_{A} \sim N(0,\frac{S_{A}^{2}}{n_{A}}+\frac{S_{B}^{2}}{n_{B}}) xBxAN(0,nASA2+nBSB2),标准化后得到
x B − x A S A 2 n A + S B 2 n B ∼ N ( 0 , 1 ) \frac{x_{B}-x_{A} }{\sqrt{\frac{S_{A}^{2}}{n_{A}}+\frac{S_{B}^{2}}{n_{B}}}} \sim N(0,1) nASA2+nBSB2 xBxAN(0,1)
得到统计量之后,根据实验数据计算z值,得到
P   v a l u e = 2 ∗ ( 1 − Θ ( ∣ z ∣ ) ) P \ value = 2 * (1-\Theta(|z|) ) P value=2(1Θ(z))
其中: Θ \Theta Θ为正态分布的累积概率密度,定义为 F ( z ) = P ( Z < z ) F(z)=P(Z<z) F(z)=P(Z<z),其中Z为正态分布

置信度

中心极限定理 (Central Limit Theorem): 随着抽样次数增多,样本均值的抽样分布趋向于服从正态分布。(不管样本是什么分布,任意一个总体的样本均值都会围绕在总体的平均值周围,并且呈现正态分布)这里需要注意的是,抽样次数并不是样本量,一次实验只是一次抽样,只能得到一个样本均值。而n次抽样会得到n个值,这些值的分布才是正态分布。 如果一组数据属于正态分布,我们可以根据正态分布的概率密度函数推算出置信区间或p-value,当一组数据不属正态分布时,我们仍然可以依据中心极限定理和正态分布的函数推导出置信区间和p-value。

理想状态中,样本能够完美的代表总体。例如:总体有100,000个用户,有10,000个用户成功转化,那么转化率为10%。理想状态中,抽取100个用户做实验,那么一定有10个用户转化。在这个例子中,样本的转化率10%是严格等于总体转化率10%的。但是现实没有这么完美。现实情况下,在这100个样本中,也许只有2个人转化,也许有20个人转化。这就是样本之间的波动。由于样本的随机性,样本的观测值(如转化率)和总体的真实参数(如总体转化率)存在差距。这种差距能用抽样误差衡量。 抽样误差越大,用样本估计总体的结果就越不准确。正因为抽样误差的存在,我们用样本观测值直接作为总体参数的估计值是不可取的。因此,直接比较实验组和对照组转化率的大小还不足以支撑一个有力的决策。我们需要更多的信息来描述这次抽样用样本估计总体的准确程度。置信区间和p-value正起到了这个作用。

如果我们想知道在这个世界上有多少人喜欢吃橘子,我们不可能去调查世界上所有人的喜好,只能通过抽样的方法用样本来推断总体。假设在这个世界上有50%的人真正喜欢吃橘子(p=0.5),但是否真的是50%我们是不确定的。于是我们试图通过随机抽样来验证这个值到底对不对,于是我们每次随机抽取100个样本,并且重复抽样n次。如果用 p̂ 来表示每次抽样喜欢吃橘子的人的比例,那么重复抽样n次会得到n个 p̂ 。根据正态分布的概率密度函数,不管 p̂ 落在距离总体均值 μ 多么远的地方, 总有68.2%个落在距离总体均值1个标准差 (σ) 的范围内,95.4%个落在距离总体均值2个标准差 (σ) 的范围内,99.7%个落在距离总体均值3个标准差 (σ) 的范围内(中心极限定理和正态分布的运用)。特别的,有95%个落在距离总体均值1.96倍个标准差 (σ) 的范围内。

反过来思考,以一次抽样的观测值 p̂ 为中心,往前和往后推大约1.96 σ 的区间,就有可能抓住那个真实的的 p 。如果重复抽样无数次,构成无数个这样的区间,有95%个区间会包含真实的 p , 只有5%个区间不包含。在这个例子里,如果一次随机抽样的结果是80%的人喜欢吃橘子,标准差为0.20.8=0.16 (伯努利分布),那么可以说我们95%肯定这个世界上爱吃橘子的人的比率在[80% ± 1.96*0.16] 这个区间内。通过上面的例子,我们知道置信区间的上界是样本均值+抽样误差,下界是样本均值-抽样误差,95%置信度下的抽样误差是1.96样本标准差。

在这里插入图片描述

实验何时结束

对于A/B实验很容易犯的一个错误就是看到实验结果显著就立即停止实验。
这其实是不可取的,因为对于很多实验,在实验前段时期的显著性是在显著和不显著之间上下波动的,特别是对于UI改版,新的运营方案这种对于用户有感知的实验,实验组的任何改变都会引起用户的特别注意,我们因此需要足够的样本量和更长一段时间的实验周期来涵盖前期的波动期直到显著性趋于平稳。所以,等到实验达到预估的样本量再做决定吧!

统计显著性不是实际显著性(Practical significance)。p-value只能告诉你两个版本有没有差异,并不能说明实验组到底比对照组好了多少。
在某个A/B测试中,实验组相比对照组只有0.01%的提升,p-value=0.001,这说明这次实验是达到统计显著的,但是实验效果却只提升了0.01%。是否你会为了这0.01%的提升全量上线实验组方案,还需从成本等角度全面衡量一个实验的商业效果。因此不能仅凭统计显著性做决策。一般来说,如果观察实际提升里实验组相比对照组的相对提升>MDE, 并且p-value<0.05, 可以认为实验组方案是值得采纳的。
有时,A/B实验的核心指标有多个,这些指标的结果可能有好有坏,为了其中一个指标较小的提升而牺牲另一个指标较大的下跌是不可取的。
例如,新的算法用户点击率和gmv都获得了显著的提升,但是用户的下单路径和消单量也有明显的提升,如果新的算法上线了需要承担风险。所以当我们决定要才去哪个算法上线的时候就要权衡这个实验的目标是什么,什么是重要的,什么是相对来说没那么重要。

卡方检验

我们想要判断性别对度假方式的偏爱有影响吗,很明显这是一个假设检验,然后选择佛系的H0假设,性别对度假方式的偏爱没有影响

下面是采集的数据

沙滩 邮轮 合计
207 282 489
231 242 473
合计 438 524 962

可以看到男女在数据上是有差异,这个差异是因为数据抽样导致的还是性别对度假方式的影响导致的。我们把性别作为分组,相当于实验组和空白组。 如果性别对旅游方式没有影响的话,也就是说性别独立于出行方式,出行方式在性别的各个组的分布与总体的分布应该是一致的 。
首先假设这个差异是抽样导致的,咱们计算一下期望值,首先是每个类别的概率,先来看沙滩在总体占比,我们把数据抽象一下

沙滩 邮轮 合计
组别(男) a b a+b
组别(女) c d c+d
总体 a+c b+d a+b+c+d=n
先算出总体的分布占比,总体分布其实相当于把组别之间的采样波动给抹平了
沙滩 邮轮
总体分布 a + c n \frac{a+c}{n} na+c b + d n \frac{b+d}{n} nb+d

总体的分布计算出来了,如果是无关的话,组别之间的分布与总体分布是一致的,即男女组别中沙滩的占比与总体占比是一致的。那么在男组别中,沙滩的期望值就是男组别的总数乘总体沙滩占比,女组别同样

期望 沙滩 邮轮
a + c n ∗ ( a + b ) \frac{a+c}{n}*(a+b) na+c(a+b) b + d n ∗ ( a + b ) \frac{b+d}{n}*(a+b) nb+d(a+b)
a + c n ∗ ( c + d ) \frac{a+c}{n}*(c+d) na+c(c+d) b + d n ∗ ( c + d ) \frac{b+d}{n}*(c+d) nb+d(c+d)
期望 沙滩 邮轮 合计
总体分布 0.455 0.545 962
489*0.455=222.495 489*0.545=266.505 489
473*0.455=215.215 473*0.545=257.785 473

然后咱们再来卡方值
χ 2 = ( 207 − 222.495 ) 2 222.49 5 2 + ( 282 − 266.505 ) 2 266.50 5 2 + ( 231 − 215.215 ) 2 215.21 5 2 + ( 242 − 257.785 ) 2 257.78 5 2 = 4.102 \chi^2=\frac{(207-222.495)^2}{222.495^2}+\frac{(282-266.505)^2}{266.505^2}+\frac{(231-215.215)^2}{215.215^2}+\frac{(242-257.785)^2}{257.785^2}=4.102 χ2=222.4952(207222.495)2+266.5052(282266.505)2+215.2152(231215.215)2+257.7852(242257.785)2=4.102

糊里糊涂的计算出了卡方值,这个时候我们就可以请出卡方检验了
χ 2 = ∑ ( O − E ) 2 E \chi^2 = \sum \frac{(O-E)^2}{E} χ2=E(OE)2
其中,O = 观察(实际)值, E = 期望值

卡方检验只适用于分类数据(分成不同类别的数据),像性别 {Men, Women} 或颜色 {Red, Yellow, Green, Blue} 等等,而不适用于数值数据,例如身高、体重等等(其实可以将连续变量通过分箱变成离散变量,再使用卡方检验)。 数据的值需要是相当大的,每个数值需要是 5 或更大。在以上的例子里,数值是 209、282 等,所以是合适的。

通过卡方值和自由度查表得到p值,跟我们的设定的置信水平进行比较,如果低于执行水平我们就拒绝原假设。
卡方检验
如何学习和理解卡方检验?
一文详解卡方检验 - Coffee的文章 - 知乎

卡方分箱

知道了什么是卡方检验,后面就可以学习卡方分箱了,什么是分箱呢,将连续变量转化为离散变量的过程就叫做分箱。例如,我们有每个人的

  • 稀疏向量内积乘法运算速度快,计算结果方便存储,容易扩展;
  • 离散化后的特征对异常数据有很强的鲁棒性:比如一个特征是年龄>30是1,否则0。如果特征没有离散化,一个异常数据“年龄300岁”会给模型造成很大的干扰;
  • 单变量离散化后,每个变量有单独的权重,可以为逻辑回归模型引入了非线性,能够提升模型表达能力,加大拟合;
  • 特征离散化以后,起到了简化了逻辑回归模型的作用,降低了模型过拟合的风险。 可以将缺失作为独立的一类带入模型。

从论文分析,告诉你什么叫 “卡方分箱”?

辛普森悖论

样本量估算(二):随机对照试验(两组均数)比较的样本量计算方法
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐