Stata数据处理:一文读懂微观数据库清理(下)
全文阅读:https://lianxh.cn/news/cb05be5a4dc6e.html目录4. 数据清理4.2 多变量清理5. 综合变量生成5.1 观测值组间计算-根据观测值分组5.2 观测值组内计算-变量分组6. 数据清理管理7. 注意事项8. 参考资料9. 相关推文 4. 数据清理4.2 多变量清理数据中有些问题不是关于某一特定变量取值不合理,有时需要联合其他变量才能发现其不合理的地方
·
全文阅读:https://lianxh.cn/news/cb05be5a4dc6e.html
目录
4. 数据清理
4.2 多变量清理
数据中有些问题不是关于某一特定变量取值不合理,有时需要联合其他变量才能发现其不合理的地方。多变量的清理建立在单变量清理完成的基础上,通过多变量的联合分布、交叉验证检验变量之间的逻辑一致性等。
4.2.1 用分类变量检查分类变量
此时可以用两个分类变量的交互表来查看两个变量的所有取值组合,用分类变量的取值检验和另一个分类变量的取值是否矛盾。这里以是否处于结婚状态和是否结过婚两个变量的交叉验证为例 (此例无数据)。marriedornot 表示是否结过婚 (0-1 变量),marriednow 表示当下是否处于婚姻状态(0-1 变量)。

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)