Pandas重复数据处理大全！

大家好，我是小z，也可以叫我阿粥在数据处理过程中，最常见的数据处理就是重复值处理。毕竟后续还有数据的排序、合并、统计等操作，如果不先进行重复值的数据，那最终的结果往往是有偏差的。针对重复值...

数据不吹牛

2220人浏览 · 2022-02-24 22:03:00

数据不吹牛 · 2022-02-24 22:03:00 发布

大家好，我是小z，也可以叫我阿粥

在数据处理过程中，最常见的数据处理就是重复值处理。毕竟后续还有数据的排序、合并、统计等操作，如果不先进行重复值的数据，那最终的结果往往是有偏差的。

针对重复值的处理有两种方式，我认为是比较简单的一种，毕竟你学会了就可以随意的秀别人一脸

一个是找出重复值
第二个是删除重复值，也就是根据自己设定的条件进行删除操作

以下就来详细说说这两种处理方法，和在实际应用中的代码实战

来吧，开秀

定位重复值

对于重复值，我们首先需要查看这些重复值是什么样的形式，然后确定删除的范围，而查询重复值需要用到duplicated函数。

duplicated的返回值是布尔值，返回True和False，默认情况下会按照一行的所有内容进行查重。

主要参数：

subset：如果不按照全部内容查重，那么需要指定按照哪些列进行查重。比如按照姓名进行查重subset=['name']，那么具有相同名字的人就只会保留一个，但很可能只是重名的原因，而并非真正同一个人，所以可以按照姓名和出生日期两列查重，subset=['name','birthday']，同理还可以再添加列，这样就可以基本保证去重效果了。
keep：用来确定要标记的重复值，可以设置为first、last、False。
- first：除第一次出现的重复值，其他都标记为True
- last：除最后一次出现的重复值，其他都标记为True
- False：所有重复值都标记为True

实例：

import pandas as pd
import numpy as np

data = {
    'user' : ['zszxz','zszxz','rose'],
    'price' : [100, 200, -300],
    'hobby' : ['reading','reading','hiking']
}
frame  = pd.DataFrame(data)
print(frame)
------------------------
    user  price    hobby
0  zszxz    100  reading
1  zszxz    200  reading
2   rose   -300   hiking
------------------------

frame.duplicated()
----------
0    False
1    False
2    False
dtype: bool
-----------

上面提到duplicated返回布尔值，所以如果要想输出这些重复值，还需要和查询的方法配合使用df[df.duplicated()]，比如：

# 1、按user变量筛选重复值
frame[frame.duplicated(subset=['user'])]
-------------------
  user price hobby
1 zszxz 200 reading
-------------------

上面按user一个变量进行查重，但没有设置keep参数，所以默认筛选出除了第一个以外的其它重复值。

# 2、按user变量筛选重复值,保留全部重复值
frame[frame.duplicated(subset=['user'], keep=False)]
-------------------
  user price hobby
0 zszxz 100 reading
1 zszxz 200 reading
-------------------

上面按user一个变量进行查重，并设置keep参数为False，所以保留了全部的重复值。

# 3、按user和hobby变量筛选重复值,筛选出除最后一个重复值以外的其它重复值
frame[frame.duplicated(subset=['user','hobby'], keep='last')]
-------------------
  user price hobby
0 zszxz 100 reading
-------------------

上面按user和hobby两个变量进行查重，并设置keep参数为last，所以筛选出了除最后一个重复值以外的其它重复值。

通过两个参数的设置就可以查看自己想要的重复值了，以此判断要删除哪个，保留哪个。

删除重复值

当确定好需要删除的重复值后，就进行进行删除的操作了。

删除重复值会用到drop_duplicates函数。

和duplicated()函数参数类似，主要有3个参数：

subset：同duplicated()，设置去重的字段
keep: 这里稍有不同，duplicated()中是将除设置值以外重复值都返回True，而这里是保留的意思。同样可以设置first、last、False
- first：保留第一次出现的重复行，删除其他重复行
- last：保留最后一次出现的重复行，删除其他重复行
- False：删除所有重复行
inplace：布尔值，默认为False，是否直接在原数据上删除重复项或删除重复项后返回副本。

实例：

1、全部去重

# 按全部字段删除，在原数据frame上生效
frame.drop_duplicates(inplace=True)
print(frame)
------------------------
    user  price    hobby
0  zszxz    100  reading
1  zszxz    200  reading
2   rose   -300   hiking
------------------------

因为上面数据中没有全部重复的，因此没有可删除行。

2、指定列去重

# 按user字段删除，在原数据frame上生效
frame.drop_duplicates(subset=['user'],inplace=True)
print(frame)
------------------------
    user  price    hobby
0  zszxz    100  reading
2   rose   -300   hiking
------------------------

上面按user字段删除重复行，保留第一个重复行，因此第二行被删除了。但这里大家注意下，执行删除重复行操作后，表的索引也会被删掉。

如需要重置可以加上reset_index()，设置drop=True，用索引替代被打乱的索引。

frame.drop_duplicates(subset=['user'],inplace=True)
frame.reset_index(drop=True)
------------------------
    user  price    hobby
0  zszxz    100  reading
1   rose   -300   hiking
------------------------

keep默认为first，下面手动设置为last，只保留最后一个重复行。

# 按全部字段删除，在原数据frame上生效
frame.drop_duplicates(subset=['user','hobby'],keep='last',inplace=True)
print(frame)
------------------------
    user  price    hobby
1  zszxz    200  reading
2   rose   -300   hiking
------------------------

keep手动设置为False，全部删除，这种一般很少用。

# 按全部字段删除，在原数据frame上生效
frame.drop_duplicates(subset=['user','hobby'],keep=False,inplace=True)
print(frame)
------------------------
    user  price    hobby
2   rose   -300   hiking
------------------------

以上就是重复值相关的所有操作。

注意事项

在删除重复值时，要注意下删除的逻辑。

因为很多时候我们需要把这些离线的清洗操作在线上复现。

如果我们随机地删除重复行，没有明确的逻辑，那么对于这种随机性线上是无法复现的，即无法保证清洗后的数据一致性。

所以我们在删除重复行前，可以把删除判断字段进行排序处理。

比如上面例子中，如果要对user和price去重，那么比较严谨的做法是按照user和price进行排序。

frame.sort_values(by=['user','price'],ascending=True).reset_index(drop=True)
--------------------
  user price hobby
0 rose -300 hiking
1 zszxz 100 reading
2 zszxz 200 reading
--------------------

因为有了排序性，只要按这个逻辑它的顺序是固定的，而不是随机的。所以无论我们设置keep为first还是last，都没有任何影响。

以上。

●适婚农村青年找对象有多难？
●品牌知名度分析

点击这里，发现更多数据干货！

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

全家桶集齐！Qwen3.5四款小模型上线魔乐社区，附昇腾全套实践教程

魔乐社区

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r