数据分析基础流程

明确问题->理解数据->数据清洗-> 数据分析或构建模型->数据可视化

step1: 明确问题

借用阿里天池电商婴儿数据集熟悉excel数据分析,主要明确以下几个问题:

  1. 哪一个商品种类最受用户欢迎
  2. 婴儿每月度销售数量变化趋势
  3. 销量最高的商品
Baby Goods Info Data-数据集-阿里云天池​tianchi.aliyun.com
37b1fddc1e1c8287f51fb892a5bd9b27.png

step2: 理解数据

user_id:用户身份信息

auction_id:购买行为编号

cat_id:商品种类序列号

cat:商品序列号

property:商品属性

buy_mount:购买数量

day:购买时间

step3: 数据清洗

  1. 数据重命名以及将day字段通过分列转换呈日期格式

8eb21d3892fe4ba0bccf5b4b4ac40785.png

2. 重复值和缺失值处理

全选数据集,选择数据下面的删除重复值,得知数据集无重复值;在选中各个列,根据excel下方的计算栏得出每一列的个数,得出商品属性存至缺失值,不过考虑到研究问题和商品属性关联不大,故暂不处理

efa1792a9ccac32ff27ad54d2fde5fe6.png

f804764de9adbec9f6e3e0e65a61433c.png

step4: 数据分析或构建模型&step5数据可视化

基于不同的问题,选择不同的字段

  1. 哪一个商品种类最受用户欢迎

所需字段:商品种类序列号、用户身份信息;

使用数据透视表,将商品种类序列号拖到行,将用户身份信息拖到值,值字段选择计数项;然后在商品种类序列号选择按照用户身份信息倒序排序

由此透视表得出50013636购买用户数最多,高达2066人

55684ef037ee9b300292a221027fa1d1.png

2. 婴儿每月度销售数量变化趋势

所需字段:购买时间、购买数量

使用数据透视表进行聚合,将购买时间按照“月”进行组合,然后在按照购买数量排序

93b1e2edc9dd2115d2e37b3223828b2b.png

f2451d37dd31fabb700aef4b76c978e5.png

3. 销量最高的商品

所需字段:商品序列号、购买数量

使用数据透视表进行聚合,得出:28号商品销量最佳,销量占比37%

a3200a4f4127bd4fe99f3e850427ce38.png

868faeca1189b86ba60e73cf6a573688.png

关于excel其他函数用户,自己还是要多加练习,继续加油!

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐