Anacoda&Jupyter DAY 04 pandas合并补充&pandas数据处理

Anacoda&Jupyter DAY 04 重点知识总结pandas合并补充&pandas数据处理一 pandas合并之 pd.merge()merge()和concat()的区别在于 merge需要依据某一共同的行或者列来进行合并使用pd.merge()合并时会自动根据两者相同的columns名称的那一列作为key来进行合并注意每一列的元素顺序不要求一致一般来说最普通的

Galahad_Lin

786人浏览 · 2020-08-20 20:46:24

Galahad_Lin · 2020-08-20 20:46:24 发布

Anacoda&Jupyter DAY 04 重点知识总结 pandas合并补充&pandas数据处理

一 pandas合并之 pd.merge()

merge()和concat()的区别在于 merge需要依据某一共同的行或者列来进行合并
使用pd.merge()合并时会自动根据两者相同的columns名称的那一列作为key来进行合并注意每一列的元素顺序不要求一致

一般来说最普通的合并方式分为一对一合并多对一合并多对多合并
1. 一对一合并只有一列是有关联的并且列索引的名字可以相同也可以不同
  如果两边列索引名字相同则使用:
  pd.merge(df1,df2)
  如果两边列索引名字不相同则使用:
  pd.merge(df1,df2,left_on = ‘name1’,right_on = ‘name2’)
  这里就涉及到一个合并操作了后面会讲述
2. 多对一合并或多对多合并多对一合并时出现两个表分别有一列有联系但是值有重复如果需要连接起来连接方式和上面先攻则会产生笛卡尔积
key的规范化
使用on = 显示指定那一列为key 这是在当有多个key相同的时候使用说的清楚一些比如由 name 和 id 两个表都有相应的列索引并且有联系我们如果使用这两个同时进行索引必定只能匹配到name和id 都匹配的一模一样的部分显然这是不合理的
一般来说我们在这种情况下会使用一种列索引进行合并使用on = key 即可完成
pd.merge(df1,df2,on = ‘name’)
内合并与外合并
1. 内合并 : 只保留两者都有的key (默认模式)
  如果两个表的列索引不一样长行索引也不一样长那么如果需要连接起来会只保留匹配的部分不匹配的部分将会不显示
2. 外合并 : 都显示 how = ‘outer’
  在这个方式下保留的是所有的数据就算两边长度不一样无法匹配那么将会以NaN的形式最后显示在表格中
3. 外合并: how = ‘left’ 和 how = ‘right’ 左合并右合并
  这个有点像sql语句中的 left join 和 right join , 在外连接中以其中的一个表格为参照主要显示这个表格中的所有索引的项目如果不匹配则会使用NaN进行填充
列冲突的解决
当列冲突的时候及有多个列的名称相同时需要使用 on = 来指定哪个列作为key 并且配合suffixes指定冲突的命名可以分别命名其后缀用于分辨两组数中不同的列索引的内容
书写格式为
df1.merge(df2,on = ‘name’,suffixes = [’_df1’,’_df2’]) # 添加后缀
对suffixes的书写解释 :
suffixes : 2-length sequence (tuple, list, …)
行索引的连接
刚刚使用的索引方法大多都是使用在列上的如果时两个表中的行索引之间有联系或者说一个表的行索引和另一个表的列索引有联系并且需要进行连接需要使用 left_index = True 或者 right_index = True 进行操作
比如df1的行索引’ item ’ 与 df2 中的列索引 ‘item1’ 有联系需要对这两个表通过此建立联系可以使用该方法
df1.merge(df2,left_index = True,right_on = ‘items’)
join() 方法
提一下join() 方法该方法与merge方法类似与concat的方法的区别就是这个可以指定连接的列索引与merge方式不一样的地方是表达的方式 (merge的表达方式为 suffixes 而join的表示方法为lsuffix 和 rsuffix)
通常我们可以使用merge方法那就使用merge方法如果我们可以使用concat方法就少使用append方法因为功能相似而前者功能更全

二 pandas的数据处理

删除重复行
使用duplicated() 函数进行检测重复的行返回的元素为bool类型(True or False) 每个元素对应一行如果改行不是第一次出现则返回的元素为 True (不要记反了!)
书写规则:
df1.duplicated() # 返回的是每一行对应bool类型如果非第一次出现将会返回True
1. keep
  这样写默认从上向下进行查找即从上向下的时候第一次出现的时候返回的是False 第二次出现的是True (检测重复的行在下方)
  如果使用 keep = ‘last’ 则是从表的下方向上方进行查找所以对应的是重复的部分是在非重复的上面
  如果使用 keep = False 则会将所有的有重复的所有项标为True 不论在上面还是下面
2. subset
  如果我们只需要查找指定列的数据是否为重复数据的时候我们可以使用subset设置查找的列我需要查找的是列索引分别为A,B,C 列那么在书写的时候需要写 subset = [‘A’,‘B’,‘C’]
  
  这里提一下如何取反比如我返回的是True 我如何将其取反变为False 一般采用两种方法
  1. ~cond # (cond为变量) 使用’~'这个符号相当于取反
  2. np.logical_not(cond) # 这里使用的是numpy的逻辑非属性取反
  3. 以上两种的返回结果是相同的
3. 使用drop_duplicates() 函数删除重复的行
  Return DataFrame with duplicate rows removed, optionally only considering certain columns
  可以使用subset控制查重的行 subset的概况在上面有描述
映射
映射的含义 : 创建一个映射关系列表把values元素和一个特定的标签或者字符串绑定
包含三种操作 :
replace() : 替换新元素
map() : 新建一列
rename() : 替换索引
1. replace函数 : 替换元素
  使用replace函数对values进行操作的格式是:
  df.replace({3:99,45:200},inplace = True,limit = 2)
  1. 第一个填写的是一个字典字典中存储的数据
    key = 目前的表中的某一个需要更改的数据 (如果该数据不出现在当前表内也不会报错但是不会修改目前数据的值)
  2. inplace = True # 这里指的是是否需要替换当前的变量默认inplace是为False的如果inplace默认值那么如果在后面的程序中使用这次修改后的表需要使用一个新的变量来接收
  3. replace经常用来替换NaN元素也可以将某个特定的值更改为NaN # 之前的文章中有些到另外一种方式处理NaN的使用的方法为fillna 可以在之前的文章中详细查看
  4. limit 限制每一行最多更改多少次
  5. 我们需要该其中的数据其实有很多方法比如之前提到的找到那个数的所有并且使用赋值的方式对该数据进行处理即可更改原来表格内的值但是如果使用这种方法可以一次性更改很多值也不需要找到更改这个值的索引所以总体来说是很方便的
2. map() 函数新建一列
  1. 使用map函数由已有的列中新建一个新列适合处理某一个单独的列
    df[‘python’] = df[‘Java’].map({64:100,20:103})
    这行代码的意思是使用Java的数据对python进行填充填充的时候需要更改数据如 Java中的64数据将会更改为100 在python中体现出来 (如果不更改值将会以NaN来显示)
  2. map函数中可以使用lambda函数
    df[‘等级’] = df[‘数学’].map(lambda x:‘优秀’ if x>=80 else ‘一般’)
  3. 当然如果是复杂的函数将可以在map中被调用
    def fn():
    pass
    df[‘等级’] = df[‘数学’].map(fn)
3. rename() 函数替换索引
  该函数可以更改列索引和行索引的名字格式如下
  df.rename(index = {old_name:new_name})
  df.rename(columns = {old_name:new_name})
异常值的检测和过滤
1. 异常值的检测和过滤的思路:
  确定异常的检测标准
  写成条件的形式使用条件去过滤原始的数据

# 创建表格
df = DataFrame(np.random.randn(10000,3))
df.head()
# 
'''
	0	1	2
0	0.463836	0.128646	-1.627846
1	0.443790	0.951944	1.213783
2	0.167262	0.179322	-0.691701
3	1.838812	-0.082356	-1.579476
4	2.051879	0.915174	-0.114157
'''
# 找到偏差大于三倍标准差的数

cond = df.abs() > 3 * df.std()
cond = cond.any(axis = 1)
cond.head()
'''
0       False
1       False
2       False
3       False
4       False
'''
# 过滤掉
df.loc[~cond]

抽样
1. 使用take函数进行抽样
  df.take([1,0,3,2]) # 对行进行排序
  df.take([1,0,2,3],axis = 1) # 对列进行排序
  中间的数字列表为索引
  其实可以使用iloc方法可以执行类似的操作
2. 随机抽样的排序方式有两种
  1. 第一种类似于不放回排序这种排序方法实际上就是打乱顺序但是一定不会重复
    可以使用 np.random.permutation([1,2,3,4])
    返回一个乱序的列表
    tips: random模块中也有一个随机打乱顺序的方法 random.shuffle() 这两种方法有不一样
    1. 首先permutation是有返回值的返回的是打乱后的列表但是shuffle是没有返回值的(None)
    2. 一般来说shuffle传入的是列表的变量直接打乱列表而permutation 传入的是列表返回的是乱序的列表
    3. 两者都是有打乱列表的功能有细微的差别需要在实践中应用
    4. df2.take(np.random.permutation([0,1,2,3]))
  2. 随机抽样
    这种抽样的方式类似于放回抽样意思就是说在某个区间内随机取一个数并且该数有可能会与之前抽到的值相同这样取到的可能会出现重复
    这是由放回的抽样可能是重复的 :
    df2.take(np.random.randint(0,4,size = 4))
数据聚合
数据聚合是数据处理的最后一步通常要使每一个数组生成一个单一的数值
1. 数据分类处理:
  分组: 先把数据按照某个索引分为几组 (groupby)
  用函数进行处理 : 为不同组的数据应用不同的函数以进行转换数据
  合并 : 把不同组得到的数据合并起来
  数据分类处理的核心 : groupby() 函数
  这个分组的思想和sql语句中的很像我们这里分组的操作是使用一个行或者列的索引进行分组使用该索引进行分组之后分组的那个部分将会同类合并数据将会按照按照后面指定的部分进行
  tips: 这里再分组之后我们在调用函数对数据进行处理之前我们无法看到分组后的表格返回的值为一个object 我们在使用函数方法后将会显示函数处理后的数据
  关于分组思想这里就不多赘述了 sql语句的时候有详解

#
'''
item	color	weight	price
0	萝卜	白	10	0.99
1	白菜	青	20	1.99
2	辣椒	红	30	2.99
3	冬瓜	白	40	3.99
4	萝卜	青	50	4.99
5	白菜	红	60	5.99
6	辣椒	白	70	6.99
7	冬瓜	青	80	7.99
'''
weight_sum = ddd.groupby(by = 'item')[['weight']].sum()
price_mean = ddd.groupby(by='item')[['price']].mean()

display(weight_sum,weight_sum.loc[['萝卜']],price_mean)
'''
	   weight
item	
冬瓜	120
白菜	80
萝卜	60
辣椒	100

       weight
item	
萝卜	60

       price
item	
冬瓜	5.99
白菜	3.99
萝卜	2.99
辣椒	4.99
'''

ddd.groupby(by = 'item').sum()
'''
weight	price
item		
冬瓜	120	11.98
白菜	80	7.98
萝卜	60	5.98
辣椒	100	9.98
'''

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

【计算机视觉】Pixel逐像素分类&Mask掩码分类理解摘要

魔乐社区

计算机视觉（opencv）实战三十二——CascadeClassifier 人脸微笑检测（摄像头）

本文从原理到实现，详细介绍了基于 OpenCV Haar 分类器的人脸与微笑检测：讲解了 Haar 特征和级联检测原理。对代码逐行拆解并解释参数含义。画出完整流程图，帮助理解执行过程。给出了常见问题和优化建议，甚至扩展到深度学习方法。这种方法简单、轻量、实时性好，非常适合入门和小型应用项目。但如果需要更高准确率和更强鲁棒性，建议使用深度学习检测器替代 Haar 分类器。