#数据分析 A/B 测试

懿朔

635人浏览 · 2021-06-13 15:20:18

懿朔 · 2021-06-13 15:20:18 发布

定义

A/B test 是将平台的流量均分为几组，每个组添加不同的策略，根据这几个组的用户数据指标，如：留存、人均观看时长等核心指标，最终选择一个最好的组上线。

实验设计
A/B Test实验的目的一般包含两个：

判断哪个更好，如有两个UI，欲知A/B哪个更好一些即可根据A/Btest进行实验判定
计算收益：如最新上线的某一功能给平台带来了多少额外的DAU,多少额外的使用时长等

其目标通常为：

希望尽快得到实验结论，尽快决策
希望收益最大化，用户体验影响最小

实验的基本步骤：
在这里插入图片描述
流量分配：
在进行流量分配时一般遵循：

实验效果：
在这里插入图片描述
实验分析：
方案 1 和方案 2，哪个效果更好？
哪个 ROI （投资回报率）更高？
长期来看哪个更好？
不同群体有差异吗？

方案 1 和方案 2，哪个效果更好？
运用假设检验，对于留存率、渗透率等漏斗类指标，采用卡方检验
对于人均时长类等均值类指标，采用t 检验
对于假设检验的结果需要进一步进行置信分析

哪个 ROI （投资回报率）更高？
对于成本可以直接进行计算，对于收益，假定以总日活跃天作为收益指标，则：

实验组假设不做活动日活跃天 = 对照组日活跃天 * （实验组流量 / 对照组流量）
实验组收益 = 实验组日活跃天 - 实验组假设不做活动日活跃天
通过收益/ 成本即可计算ROI

长期来看哪个更好？
需要考虑新奇效应，在实验上线前期用户会因为新鲜感而取得不错的效果，所以在进行评估时，需要观测到稳定态后再做评估

不同群体有差异吗？
很多情况下，对新用户可能实验组更好，老用户对照组更好；对年轻人实验组更好，中年人对照组更好

ref: https://www.zhihu.com/question/20045543/answer/1103961403

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

小参数・大码力・易部署 | Qwen3.6-27B上线魔乐社区，基于昇腾的部署教程来了

继一周前模型开源发布后，千问再度开源Qwen3.6-27B —— 一个拥有270亿参数的稠密多模态模型，也是社区呼声最高的模型规格。Qwen3.6-27B 依然支持多模态思考与非思考模式，在智能体编程方面达到了旗舰级表现，全面超越前代开源旗舰 Qwen3.5-397B-A17B（总参数397B / 激活参数17B的MoE模型）。作为稠密架构，它无需MoE路由即可部署，是开发者在实用、可广泛部署规模