数据分析——数据处理
数据处理步骤1.数据清洗1)处理缺失值 ①查看 df.info():查看数据基本信息 ②查找 df.isna():查找DataFrame对象缺失值,缺失数据用True表示,False表示不缺失 df[‘列索引’].isna():指定列查找缺失值 Series.isna():查找Series对象缺失值 ③删除 df.dropna():删除两大对象中含有缺失的数据(行) df.dropna
数据处理步骤
1.数据清洗
1)处理缺失值
①查看
df.info():查看数据基本信息
②查找
df.isna():查找DataFrame对象缺失值,缺失数据用True表示,False表示不缺失
df[‘列索引’].isna():指定列查找缺失值
Series.isna():查找Series对象缺失值
③删除
df.dropna():删除两大对象中含有缺失的数据(行)
df.dropna(subset=[‘列索引’]):删除指定列缺失的行
④填充
fillna()方法给缺失值填充数据
df[‘列索引’]=df[‘列索引’].fillna(‘补充数据’)
2)处理重复值
①查找
df.duplicated():查找DataFrame对象重复值,返回Series对象,重复为True,不重复为False
②查看
df[df.duplicated()]:列表索引查看数据(重复数据)
③删除
df.drop_duplicates():删除重复行
3)处理异常值
df.describe():描述性统计,返回以下结果
函数 | 含义 |
---|---|
count | 频数统计 |
mean | 平均值 |
std | 标准差 |
min | 最小值 |
max | 最大值 |
median | 中位数 |
计算机系统里:e+n代表的是10的n次方
布尔索引:对数据进行筛选:eg:df[年龄]>0
4)转换日期数据
pd.to_datatime(arg,format)
arg:pd[‘列索引’]=要转化的数据
format:format=’%Y-%m-%d’,占位匹配符在‘Y’,‘m’,'d’之前。Y大写,m和d小写
2.数据整理
提取时间信息:
Series.dt.year:提取年
Series.dt.month:提取月
Series.dt.day:提取日
添加新列:
df[‘colname’]=Series
3.数据写入
df.to_csv(path,encoding),index=False:将整理好的数据写入CSV文件中,index表示取消写入行索引
path为文件路劲(相对路径\绝对路径)
encoding为编码格式
4.离群值(outliers)
1)通过业务/领域知识,统计指标、数据可视化(描述性统计)识别离群值。
2)不可条件反射般剔除
3)数据丢失/录入或记录错误导致
知识点:集中趋势指标,离散趋势指标,双称正态分布且数据连续,偏态分布,类别数据(CDA考试知识点已列出来)

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐
所有评论(0)