python 数据分析之 4 —— pandas 预处理

注意：若出现如下错误，直接添加参数 sort=True 即可。method = 'bfill'后向填充，用后面的非缺失值填充。离差标准化就是对原始数据进行线性变换并映射至 [0，1] 区间的方法。表示删除形式，how = 'any' 表示只要有缺失值就删除。例如有数据文件 test.csv ，其内容为：。的 DataFrame。等宽离散化将数据的值域分成宽度相同区间，根据数据所在区间取值，实现连续

啥也都不是

1202人浏览 · 2024-05-09 19:35:31

啥也都不是 · 2024-05-09 19:35:31 发布

第1关：数据读取与合并

任务描述

本关任务：加载 csv 数据集，实现 DataFrame 合并。

知识讲解

Pandas 模块导入

import pandas as pd

读取 csv 文件
In [1]: pd.read_csv(path) #返回DataFrame

index_col 是 read_csv 方法的常用参数，常用作读取文件的指定列为行索引。例如有数据文件 test.csv ，其内容为：
name,a,b,c

x,1,2,3

y,4,5,6

把第 0 列作为行索引的代码如下：
In [1]: df = pd.read_csv('test.csv',index_col = 0)#df的行索引就是test.csv的第0列。

In [2]: df.index

Out[2]: Index(['x', 'y'], dtype='object', name='name')

In [3]: df.values

Out[3]:

array([[1, 2, 3],

[4, 5, 6]], dtype=int64)

In [4]: df.columns

Out[4]: Index(['a', 'b', 'c'], dtype='object')

DataFrame合并

DataFrame 合并有三种方法：concat 、 append 和 merge 。

详情参见教材和官方文档。

注意：若出现如下错误，直接添加参数 sort=True 即可。 “ To accept the future behavior, pass 'sort=True'. …… ”

编程要求

根据提示，在右侧编辑器补充代码，完成本关任务。

代码如下：
# -*- coding: utf-8 -*-
 
'''
第1关 数据读取与合并
现有源自世界银行的四个数据集：
1)economy-60-78.csv，
2)economy-79-19.csv，
3)population-60-78.csv，
4)population-79-19.csv，
其中分别存放了不同时间段（1960-1978和1979-2019）的
中国经济相关数据和中国人口及教育相关数据。
'''
#请将上述数据集内容读取至DataFrame结构中，
#年份为列索引，Indicator Name为行索引，
#观察其结构和内容，把它们合并为一个DataFrame，命名为ChinaData。
#输出ChinaData的形状
############begin############
import pandas as pd
d1 = pd.read_csv('economy-60-78.csv',index_col = 0)
d2 = pd.read_csv('economy-79-19.csv',index_col = 0)
d3 = pd.read_csv('population-60-78.csv',index_col = 0)
d4 = pd.read_csv('population-79-19.csv',index_col = 0)
 
# print(d1.shape)  #(2, 19)
# print(d2.shape)  #(2, 41)
# print(d3.shape)  #(116, 19)
# print(d4.shape)  #(116, 41)
 
d12 = pd.concat([d1,d2],axis = 1,sort=True)
d34 = pd.concat([d3,d4],axis = 1,sort=True)  #axis = 0为纵向拼接，axis = 1为横向拼接。
ChinaData = pd.concat([d34,d12],sort=True)
 
print(ChinaData.shape)  #(119, 60)
#############end#############
第2关：数据清洗

任务描述

本关任务：数据清洗包括：空白行删除、数据完整性检验、数据填充、插值等内容。

相关知识

为了完成本关任务，你需要掌握：

删除缺失值；

检测缺失值；

填充缺失值；

拉格朗日插值；

线性插值。

删除缺失值

DataFrame.dropna 方法用于删除含有缺失值的行或列，关键参数：axis 和how。

axis

表示轴向，0 为行，1 为列，默认 0。

how

表示删除形式，how = 'any' 表示只要有缺失值就删除；how='all' 表示全为缺失值才删除。

检测缺失值

DataFrame.isnull() 识别缺失值，返回包含True和False的 DataFrame。 DataFrame.notnull() 方法识别非缺失值，返回包含True和False的 DataFrame。上述两方法结合 sum 函数可用于检测数据序列中缺失值的分布情况。

填充缺失值

DataFrame.fillna 方法能用指定值替换缺失值。关键参数：value、method和axis。

value

表示指定的填充值。

method

method = 'bfill'后向填充，用后面的非缺失值填充； method = 'ffill'前向填充，用前面的非缺失值填充。

axis

表示操作轴向，默认1（列）。

拉格朗日插值
from scipy.interpolate import lagrange

formula = lagrange(x,y)#formula是通过lagrange方法生成的公式，x和y为数据序列

ins_y = formula(ins_x)#ins_x为缺失值所在位置，ins_y为插值结果。

线性插值
from scipy.interpolate import interp1d#1是数字一

formula = interp1d(x,y,kind = 'linear')#formula是通过linear方法生成的公式，x和y为数据序列

ins_y = formula(ins_x)#ins_x为缺失值所在位置，ins_y为插值结果。

编程要求

根据提示，在右侧编辑器补充代码，完成本关任务。

测试说明

平台会对你的代码进行测试，若与预期输出一致，则算通关。

代码如下：
# -*- coding: utf-8 -*-
'''
第2关 数据清洗
'''
import pandas as pd
d1 = pd.read_csv('economy-60-78.csv',index_col = 0)
d2 = pd.read_csv('economy-79-19.csv',index_col = 0)
d3 = pd.read_csv('population-60-78.csv',index_col = 0)
d4 = pd.read_csv('population-79-19.csv',index_col = 0)
d12 = pd.concat([d1,d2],axis = 1,sort=True)
d34 = pd.concat([d3,d4],axis = 1,sort=True)
ChinaData = pd.concat([d34,d12],sort=True)
'''
请针对ChinaData完成如下操作。
'''
# 2.1 删除空白行
# 提示：dropna,inplace
############begin############
print('原表形状',ChinaData.shape)
linenum = ChinaData.shape[0]
ChinaData.dropna(how='all',inplace=True)
print('新表形状',ChinaData.shape)
linenum -=ChinaData.shape[0]
print("%d个空白行被删除。"%linenum)
#############end#############

# 2.2 查找数据最完整（空值最少）的年份并输出
# 提示：notnull(),根据值找索引（上课讲过的方法）
############begin############
#print(ChinaData.notnull().sum().sort_values(ascending=False)[0])
nullsummary = ChinaData.isnull().sum()
y = nullsummary.loc[nullsummary==nullsummary.min()].index[0]
print(y)

#############end#############

# 2.3 前向填充"男性吸烟率（吸烟男性占所有成年人比例）"，输出2000年至2019年的数据
# fillna,ffill
############begin############

cigarette = ChinaData.loc['男性吸烟率（吸烟男性占所有成年人比例）',:]
print(cigarette.fillna(method = 'ffill').loc['2000':'2019'])

#############end#############

# 2.4 用2015年到2018年4年的gdp数据对2019年GDP数值进行拉格朗日插值预测，输出预测结果
# lagrange,
# 注意：x的取值从0开始，即x = np.array([0,1,2,3])，代表2015至2018 4年，2019年的x取值为4。
############begin############

from scipy.interpolate import lagrange
gdp = ChinaData.loc['GDP',:]
lagf = lagrange(range(0,4),gdp.values[-5:-1])
print(lagf(4))
#############end#############

# 2.5 用线性插值法填充“入学率，高等院校，男生（占总人数的百分比）”1995年到2002年数据,并输出插值后的94年至03年的数据
# interp1d
############begin############

from scipy.interpolate import interp1d
student = ChinaData.loc['入学率，高等院校，男生（占总人数的百分比）',:]
linevalue = interp1d([0,9],[student.loc['1994'],student.loc['2003']],kind = 'linear')
student.loc['1995':'2002'] = linevalue(range(1,9))
print(student.loc['1994':'2003'])

#############end#############
第3关：数据转换

任务描述

本关任务：数据转换。包括数据标准化和数据离散化。

知识讲解

为了完成本关任务，你需要掌握：1、离差标准化，2、等宽离散化。

离差标准化

离差标准化就是对原始数据进行线性变换并映射至 [0，1] 区间的方法。该方法需要自行编写实现函数，建议参考教材或网络资源自行实现。

等宽离散化

等宽离散化将数据的值域分成宽度相同区间，根据数据所在区间取值，实现连续变量的离散化。pandas.cut函数可以实现这种操作，关键参数：x和bins。

x

待离散化的数据。

bins

离散化类别数。

注意：

获得离散化结果后，常用value_counts()方法对离散化结果进行频数统计，以观察离散化数据的分布情况。

编程要求

根据提示，在右侧编辑器补充代码，完成本关任务。

代码如下：
# -*- coding: utf-8 -*-

'''
第3关 数据转换
'''
import pandas as pd
d1 = pd.read_csv('economy-60-78.csv',index_col = 0)
d2 = pd.read_csv('economy-79-19.csv',index_col = 0)
d3 = pd.read_csv('population-60-78.csv',index_col = 0)
d4 = pd.read_csv('population-79-19.csv',index_col = 0)
d12 = pd.concat([d1,d2],axis = 1,sort=True)
d34 = pd.concat([d3,d4],axis = 1,sort=True)
ChinaData = pd.concat([d34,d12],sort=True)
'''
请针对ChinaData实现下列操作
'''
# 3.1 对“人口，总数”数据（1960-2018）进行离差标准化，并输出。
# 提示：自定义离差标准化函数，注意统计年份区间
############begin############

def MinMaxScale(data):
    data = (data-data.min())/(data.max()-data.min())
    return data
population = ChinaData.loc['人口，总数',:][:-1]
npopu = MinMaxScale(population)
print(npopu)

#############end#############

# 3.2 对“GDP 增长率（年百分比）”（1961-2018）数据进行等宽离散化为7类，输出分布情况
# 提示：cut，注意统计年份区间
############begin############

gdpRatio = ChinaData.loc['GDP 增长率（年百分比）',:][1:-1]
result = pd.cut(gdpRatio,7)
print(result.value_counts())

#############end#############

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。