存数据返回他的序列号id_使用excel进行数据分析
数据分析基础流程明确问题->理解数据->数据清洗-> 数据分析或构建模型->数据可视化step1: 明确问题借用阿里天池电商婴儿数据集熟悉excel数据分析,主要明确以下几个问题:哪一个商品种类最受用户欢迎婴儿每月度销售数量变化趋势销量最高的商品Baby Goods Info Data-数据集-阿里云天池tianchi.aliyun.comstep2: 理解数据user_
数据分析基础流程
明确问题->理解数据->数据清洗-> 数据分析或构建模型->数据可视化
step1: 明确问题
借用阿里天池电商婴儿数据集熟悉excel数据分析,主要明确以下几个问题:
- 哪一个商品种类最受用户欢迎
- 婴儿每月度销售数量变化趋势
- 销量最高的商品
step2: 理解数据
user_id:用户身份信息
auction_id:购买行为编号
cat_id:商品种类序列号
cat:商品序列号
property:商品属性
buy_mount:购买数量
day:购买时间
step3: 数据清洗
- 数据重命名以及将day字段通过分列转换呈日期格式
2. 重复值和缺失值处理
全选数据集,选择数据下面的删除重复值,得知数据集无重复值;在选中各个列,根据excel下方的计算栏得出每一列的个数,得出商品属性存至缺失值,不过考虑到研究问题和商品属性关联不大,故暂不处理
step4: 数据分析或构建模型&step5数据可视化
基于不同的问题,选择不同的字段
- 哪一个商品种类最受用户欢迎
所需字段:商品种类序列号、用户身份信息;
使用数据透视表,将商品种类序列号拖到行,将用户身份信息拖到值,值字段选择计数项;然后在商品种类序列号选择按照用户身份信息倒序排序
由此透视表得出50013636购买用户数最多,高达2066人
2. 婴儿每月度销售数量变化趋势
所需字段:购买时间、购买数量
使用数据透视表进行聚合,将购买时间按照“月”进行组合,然后在按照购买数量排序
3. 销量最高的商品
所需字段:商品序列号、购买数量
使用数据透视表进行聚合,得出:28号商品销量最佳,销量占比37%
关于excel其他函数用户,自己还是要多加练习,继续加油!
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)