klib,一个加速数据清洗的神器!
今天给大家分享一个klib库。klib提供了一系列非常易于应用的函数,具有合理的默认值,几乎可以用在任何DataFrame上,用于评估数据质量、获得灵感、执行数据清洗和可视化,从而更轻便、更高效的处理Python Pandas DataFrame数据。klib可视化数据-klib.cat_plot(df)#展示分类特征数量和频率-klib.corr_mat(df)#相关性矩阵-kl...
·
今天给大家分享一个klib库。
klib提供了一系列非常易于应用的函数,具有合理的默认值,几乎可以用在任何DataFrame上,用于评估数据质量、获得灵感、执行数据清洗和可视化,从而更轻便、更高效的处理Python Pandas DataFrame数据。
klib可视化数据
-klib.cat_plot(df) # 展示分类特征数量和频率
-klib.corr_mat(df) # 相关性矩阵
-klib.corr_plot(df) # 热力图,适用于展示相关性
-klib.corr_interactive_plot(df, split="neg").show() # 交互式相关性图表
-klib.dist_plot(df) # 每个数值特征的分布
-klib.missingval_plot(df) # 缺失值信息图
例如,cat_plot,
import klib
import plotly
import pandas as pd
df = pd.read_csv("./NFL_DATASET.csv").iloc[:, 10:]
df_cleaned = klib.data_cleaning(df) #清洗
klib.cat_plot(df_cleaned.iloc[:, 10:28], figsize=(24, 15)) #cat_plot可视化
例如,展示缺省值,
klib.missingval_plot(df_cleaned)

再例如,corr_interactive_plot基于plotly构建交互式相关性图表,
klib.corr_interactive_plot(df, annot=False, figsize=(20,17))
klib清洗数据
主要包含如下函数,
-klib.data_cleaning(df) # 执行数据清洗(删除重复项和空行/列,调整数据类型等)
-klib.clean_column_names(df) # 清理和标准化列名,也在 data_cleaning() 中调用
-klib.convert_datatypes(df) # 将现有数据转换为更高效的数据类型,也在 data_cleaning() 中调用
-klib.drop_missing(df) # 删除缺失值,也在 data_cleaning() 中调用
-klib.mv_col_handling(df) # 基于信息内容删除缺失值比率高的特征
-klib.pool_duplicate_subsets(df) # 基于最小信息损失汇总具有重复项的列子集
这里只是抛砖引玉,详细内容不一一举例
大家可以结合开源地址:https://github.com/akanz1/klib
做一些尝试~
以上。
魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。
更多推荐

所有评论(0)