pandas数据聚合与分组运算的实现
CarveStone 人气:0数据聚合与分组运算
对数据集进行分组并对各组应用一个函数(无论是聚合还是转换),通常是数据分析工作中的重要环节。在将数据集加载、融合、准备好之后,通常就是计算分组统计或生成透视表。pandas提供了一个灵活高效的gruopby功能,它使你能以一种自然的方式对数据集进行切片、切块、摘要等操作。
关系型数据库和SQL(Structured Query Language,结构化查询语言)能够如此流行的原因之一就是其能够方便地对数据进行连接、过滤、转换和聚合。但是,像SQL这样的查询语言所能执行的分组运算的种类很有限。在本章中你将会看到,由于Python和pandas强大的表达能力,我们可以执行复杂得多的分组运算(利用任何可以接受pandas对象或NumPy数组的函数)。
分组与聚合的原理
在Pandas中,分组是指使用特定的条件将原数据划分为多个组,聚合在这里指的是,对每个分组中的数据执行某些操作,最后将计算的结果进行整合。
分组与聚合的过程大概分为以下三步:
通过groupby()方法将数据拆分成组
groupby(by=None, axis=0, level=None, as_index=True, sort=True,group_keys=True, squeeze=False, observed=False, **kwargs)
- by:用于确定进行分组的依据。
- axis:表示分组轴的方向。
- sort:表示是否对分组标签进行排序,接收布尔值,默认为True。
按列名进行分组
# 通过列名进行分组 import pandas as pd df = pd.DataFrame({"key":['c','b','c','a','b','b','a','c','a'], "data":[2,4,6,8,10,1,14,16,19] }) print(df) ''' key data 0 c 2 1 b 4 2 c 6 3 a 8 4 b 10 5 b 1 6 a 14 7 c 16 8 a 19 ''' # 按照key列进行分组 print(df.groupby(by='key')) '''<pandas.core.groupby.generic.DataFrameGroupBy object at 0x0000000008216688> ''' group_obj = df.groupby('key') for i in group_obj: print(i) ''' ('a', key data 3 a 8 6 a 14 8 a 19) ('b', key data 1 b 4 4 b 10 5 b 1) ('c', key data 0 c 2 2 c 6 7 c 16) '''
按Series对象进行分组
如果Series对象与Pandas对象的索引长度不相同时,则只会将具有相同索引的部分数据进行分组
import numpy as np import pandas as pd df = pd.DataFrame({ 'key1':['A','A','B','B','A'], 'key2':['one','two','one','two','one'], 'data1':['2','3','4','6','8'], 'data2':['3','5','6','3','7'] }) print(df) ''' key1 key2 data1 data2 0 A one 2 3 1 A two 3 5 2 B one 4 6 3 B two 6 3 4 A one 8 7 ''' se = pd.Series(['a','b','c','a','b']) print(se) ''' 0 a 1 b 2 c 3 a 4 b dtype: object ''' group_obj = df.groupby(se) # 定义series对象进行分组 for i in group_obj: print(i) ''' ('a', key data 0 c 2 3 a 8) ('b', key data 1 b 4 4 b 10) ('c', key data 2 c 6) '''
按字典进行分组
可以将这个字典传给groupby,来构造数组
# 通过字典进行分组 from pandas import DataFrame,Series num_df = DataFrame({'a':[1,2,3,4,5], 'b':[6,7,8,9,10], 'c':[11,12,13,14,15], 'd':[5,4,3,2,1], 'e':[10,9,8,7,6]}) print(num_df) ''' a b c d e 0 1 6 11 5 10 1 2 7 12 4 9 2 3 8 13 3 8 3 4 9 14 2 7 4 5 10 15 1 6 ''' # 定义分组规则 mapping = {'a':'第一组','b':'第二组','c':'第一组','d':'第三组','e':'第二组'} by_column = num_df.groupby(mapping, axis=1) for i in by_column: print(i) ''' ('第一组', a c 0 1 11 1 2 12 2 3 13 3 4 14 4 5 15) ('第三组', d 0 5 1 4 2 3 3 2 4 1) ('第二组', b e 0 6 10 1 7 9 2 8 8 3 9 7 4 10 6) '''
按函数进行分组
将函数作为分组键会更加灵活,任何一个被当做分组键的函数都会在各个索引值上被调用一次,返回的值会被用作分组名称。
使用内置函数len进行分组 groupby_obj = df.groupby(len)
比起使用字典或Series,使用Python函数是一种更原生的方法定义分组映射。任何被当做分组键的函数都会在各个索引值上被调用一次,其返回值就会被用作分组名称。你可以计算一个字符串长度的数组,更简单的方法是传入len函数:
key_list = ['a', 'a', 'a', 'b', 'b'] num_df.groupby([len, key_list]).min()
加载全部内容