Python数据分析（三）—— Pandas数据统计

本文主要介绍Pandas中的数据统计方法，包括value_counts，groupby，pivot_table。

机器学习Zero

5414人浏览 · 2022-01-25 22:37:40

机器学习Zero · 2022-01-25 22:37:40 发布

Pandas数据统计

1 简单统计
2 groupby
3 pivot table

本文主要介绍Pandas中的数据统计方法，部分使用的数据集为MovieLen 1M版本（m1-1m.zip）数据集。

import numpy as np
import pandas as pd

#加载数据集
fpath = r'datasets//'

usercol = ['uid','sex','age','occupation','zip']
ratcol = ['uid','mid','rating','timestamp']
movcol = ['mid','title','genres']

users = pd.read_table(fpath+'users.dat',sep='::',header=None, names=usercol,engine='python')
ratings = pd.read_table(fpath+'ratings.dat',sep='::',header=None, names=ratcol,engine='python')
movies = pd.read_table(fpath+'movies.dat',sep='::',header=None,names=movcol,engine='python')
data = pd.merge(pd.merge(users,ratings),movies)

1 简单统计

unique计算Series中的唯一值数组，按发现的顺序返回。
value_counts返回一个Series，索引为唯一值，值为频率，按计数值降序排列。

data.age.unique()

在这里插入图片描述

data.age.value_counts()

在这里插入图片描述

2 groupby

分组运算的过程被描述为split-apply-combine：数据根据提供的一个或多个键被拆分（split）为多组，拆分操作在对象的特定轴上执行的；然后将一个函数应用（apply）到各个分组并产生一个新值；最后所有函数的执行结果会被合并（combine）到最终的结果对象中。

在这里插入图片描述

import pandas as pd 
import numpy as np
df = pd.DataFrame({'col1':['a','a','b','b','a'],
                   'col2':['one','two','one','two','one'],
                   'data1': np.random.randn(5),
                   'data2': np.random.randn(5)})
df

在这里插入图片描述
groupby方法形成一个Groupby对象，没有进行任何实际计算，只是含有一些有关分组键的中间数据，即该对象已包含接下来对各分组执行运算所需的一切信息。

grouped = df.groupby(['col1','col2'])
grouped.mean()

在这里插入图片描述

3 pivot table

透视表（pivot table）根据一个或多个键对数据进行聚合，并根据行和列上的分组键将数据分配到各个矩形区域中。pivot_table()函数除能为groupby提供便利外，还可以添加分项小计（margins）。

pivot_table(values,index,columns,aggfunc,fill_value)

主要参数如下：

values：数据透视表中的值
index：数据透视表中的行
columns：数据透视表中的列
aggfunc：统计函数（应用到values上）
fill_value：替换NA值

df.pivot_table(index='col1',aggfunc='mean')
#df.groupby(['col1']).mean()

在这里插入图片描述

df.pivot_table('data1',index='col1',aggfunc='mean')
#df.groupby(['col1']).data1.mean()

在这里插入图片描述

df.pivot_table(['data1','data2'],index='col2',columns='col1',aggfunc='mean')
#df.groupby(['col1','col2']).mean().unstack()

在这里插入图片描述

魔乐社区

魔乐社区（Modelers.cn) 是一个中立、公益的人工智能社区，提供人工智能工具、模型、数据的托管、展示与应用协同服务，为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作，由全产业链共同建设、共同运营、共同享有，推动国产AI生态繁荣发展。

更多推荐

Pont - 搭建前后端之桥：高效、灵活的接口管理工具

Pont 是一款强大的数据服务层解决方案，它能够帮助开发者快速搭建前后端之间的桥梁，实现接口的高效管理和代码自动生成。无论是新手还是有经验的开发者，都能通过 Pont 轻松处理接口文档、生成类型安全的 API 代码，从而显著提升开发效率。[![Pont 工具标志](https://raw.gitcode.com/gh_mirrors/po/pont/raw/3f1b7d4bbba3fd2dda

魔乐社区

如何快速上手 hvac：HashiCorp Vault Python 客户端零基础入门指南

**hvac** 是 HashiCorp Vault 的 Python 3.X 客户端库，专为开发者提供简单高效的 Vault 交互方式。无论你是需要管理密钥、配置身份验证，还是实现安全的秘密数据存储，hvac 都能帮助你轻松搞定 Vault 的各项操作。本文将带你零基础快速入门，从安装到基础操作，让你在几分钟内即可上手使用这个强大的工具。[![hvac 客户端 Logo](https://r

魔乐社区

提升Angular2-HN性能的7个实用技巧：让新闻加载速度飞起来

Angular2-HN是一款基于Angular构建的Progressive Hacker News客户端，专为追求高效新闻浏览体验的用户设计。本文将分享7个实用技巧，帮助你优化Angular2-HN的性能，让新闻加载速度显著提升，带来更流畅的阅读体验。## 1. 启用Service Worker缓存关键资源Service Worker是提升Angular应用性能的强大工具，它可以在后台缓存