数据分析案例：利用pandas清洗数据

假如你有一份数据，有淘宝店铺的一些基本数据，比如店铺名称、发货地址、付款人数、评论数、商品价格、商品名称。由于爬取的数据较乱不能直接用于数据分析，所以要先进行数据清洗。数据如下大概如下：（关于如何爬取可以参考前面博文python爬取淘宝评论）加载数据import pandas as pdpro_data=pd.read_csv("taobaoproducts.csv",header=0)pro_d

Cpsu

2674人浏览 · 2020-07-18 21:57:02

Cpsu · 2020-07-18 21:57:02 发布

假如你有一份数据，有淘宝店铺的一些基本数据，比如店铺名称、发货地址、付款人数、评论数、商品价格、商品名称。由于爬取的数据较乱不能直接用于数据分析，所以要先进行数据清洗。数据如下大概如下：
（关于如何爬取可以参考前面博文python爬取淘宝评论）
在这里插入图片描述
加载数据

import pandas as pd
pro_data=pd.read_csv("taobaoproducts.csv",header=0)
pro_data

在这里插入图片描述
数据清洗：地址列
爬取的地址列是省+城市名，当然还有北京这种直辖市，这里我们要把城市和省份分开，分成两列，对于北京则让城市和省份都显示为北京。

def get_province(x):
    if len(x)==2:
        return x+"市"
    else:
        pro_list=x.split()
        return pro_list[0]+"省"
        
def get_city(x):
    if len(x)==2:
        return x+"市"
    else:
        pro_list=x.split()
        return pro_list[1]+"市"
    
pro_data["省份"]=pro_data["地址"].map(get_province)        
pro_data["城市"]=pro_data["地址"].map(get_city)
pro_data.head()

在这里插入图片描述

#这里还可以将函数写成三元表达式
def get_province(x):
    return x.split()[0]+"省" if len(x)>2 else x+"市"
    
pro_data["省份"]=pro_data["地址"].map(get_province)
pro_data

数据清洗：付款人数
这里只需要付款人数的数字，要把文字删除掉。

#第一种方法用str接口和正则表达式
pro_data["付款人数"]=pro_data["付款人数"].str.findall("\d+").str[0]

#第二种直接利用str接口
pro_data["付款人数"]=pro_data["付款人数"].str[:-3]

在这里插入图片描述
数据清洗：评论数
这里的评论数是小数，并且评论数会有缺失值，我们将它改为整型并填补缺失值。

pro_data["评论数"]=pro_data["评论数"].fillna(0)
pro_data["评论数"]=pro_data["评论数"].astype("int")
pro_data

最后可以做一些基础的数据分析，比如分省份计算销售量等,销售量的前五名：

turn_over=pro_data.groupby("省份")["付款人数"].agg([("销售量","sum")])
turn_over.sort_values(by="销售量",ascending=False,inplace=True)
turn_over.head()

在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r

魔乐社区

所有评论(0)

查看更多评论

Cpsu

@m0_46412065

已为社区贡献3条内容