import pandas as pd
import seaborn as sns

df = sns.load_dataset('titanic')


df.head()


df['fare'].agg(['sum', 'mean']) # сумма и среднее по столбцу стоимости билета, здесь передаем список агрегирующих функций

sum     28693.949300
mean       32.204208
Name: fare, dtype: float64


df.agg({'fare': ['sum', 'mean'],
        'sex' : ['count']})


df.agg(fare_sum=('fare', 'sum'),
       fare_mean=('fare', 'mean'),
       sex_count=('sex', 'count'))


agg_func_math = {
    'fare': ['sum', 'mean', 'median', 'min', 'max', 'std', 'var', 'mad', 'prod']
}


df.groupby(['embark_town']).agg(agg_func_math).round(2)


agg_func_describe = {'fare': ['describe']}


df.groupby(['embark_town']).agg(agg_func_describe).round(2)


agg_func_count = {'embark_town': ['count', 'nunique', 'size']}


df.groupby(['deck']).agg(agg_func_count) # статистика по палубам Титаника


agg_func_selection = {'fare': ['first', 'last']}


df.sort_values(by=['fare'], ascending=False).groupby(['embark_town']).agg(agg_func_selection)


agg_func_max_min = {'fare': ['idxmax', 'idxmin']}


df.groupby(['embark_town']).agg(agg_func_max_min)


df.loc[[258, 378]]


df.loc[df.groupby('class')['fare'].idxmax()]


from scipy.stats import skew, mode


agg_func_stats = {'fare': [skew, mode, pd.Series.mode]}


df.groupby(['embark_town']).agg(agg_func_stats)


agg_func_text = {'deck': ['nunique', mode, set]}


df.groupby(['class']).agg(agg_func_text)


from functools import partial


q_25 = partial(pd.Series.quantile, q=0.25) # возвращает обортку над pd.Series.quantile()


q_25.__name__ = '25%' # пойдет в наименование будущего столбца


def percentile_25(x):
    return x.quantile(.25)


lambda_25 = lambda x: x.quantile(.25)


lambda_25.__name__ = 'lambda_25%'


agg_func = {
    'fare': [q_25, percentile_25, lambda_25, lambda x: x.quantile(.25)]
}


df.groupby(['embark_town']).agg(agg_func).round(2)


def count_nulls(s):
    return s.size - s.count()


def unique_nan(s):
    return s.nunique(dropna=False)


agg_func_custom_count = {
    'embark_town': ['count', 'nunique', 'size', unique_nan, count_nulls, set]
}


df.groupby(['deck']).agg(agg_func_custom_count)


def percentile_90(x):
    return x.quantile(.9)


from scipy.stats import trim_mean

def trim_mean_10(x):
    return trim_mean(x, 0.1)


def largest(x):
    return x.nlargest(1)


#!pip3 install sparklines


from sparklines import sparklines


import numpy as np

def sparkline_str(x):
    bins = np.histogram(x)[0]
    sl = ''.join(sparklines(bins))
    return sl


agg_func_largest = {
    'fare': [percentile_90, trim_mean_10, largest, sparkline_str]
}


df.groupby(['class', 'embark_town']).agg(agg_func_largest)


def top_10_sum(x):
    return x.nlargest(10).sum()


def bottom_10_sum(x):
    return x.nsmallest(10).sum()


agg_func_top_bottom_sum = {
    'fare': [top_10_sum, bottom_10_sum]
}


df.groupby('class').agg(agg_func_top_bottom_sum)


def summary(x):
    result = {
        'fare_sum': x['fare'].sum(),
        'fare_mean': x['fare'].mean(),
        'fare_range': x['fare'].max() - x['fare'].min()
    }
    return pd.Series(result).round(0)


df.groupby(['class']).apply(summary)


df.groupby(['embark_town', 'class']).agg({'fare': 'sum'}).assign(pct_total=lambda x: x / x.sum())


pd.crosstab(df['embark_town'],
            df['class'],
            values=df['fare'],
            aggfunc='sum',
            normalize=True)


pd.pivot_table(data=df,
               index=['embark_town'],
               columns=['class'],
               aggfunc=agg_func_top_bottom_sum)


fare_group = df.groupby(['embark_town', 'class']).agg({'fare': 'sum'})
fare_group


fare_group.groupby(level=0).cumsum()


sales = pd.read_excel('https://github.com/chris1610/pbpython/blob/master/data/2018_Sales_Total_v2.xlsx?raw=True')
sales.head()


daily_sales = sales.groupby([pd.Grouper(key='date', freq='D')]).agg(daily_sales=('ext price', 'sum')).reset_index()
daily_sales.head()


daily_sales['quarter_sales'] = daily_sales.groupby(pd.Grouper(key='date', freq='Q')).agg({'daily_sales': 'cumsum'})
daily_sales.head()


# веселый пример :)

sales.groupby(
    [pd.Grouper(key='date',
                freq='D')]).agg(
                             daily_sales=('ext price',
                                          'sum')).groupby(
                                                    pd.Grouper(freq='Q')).agg(
                                                                     {'daily_sales': 'cumsum'}).rename(
                                                                                                 columns={'daily_sales': 'quarterly_sales'})


df.groupby(['embark_town', 'class']).agg({'fare': ['sum', 'mean']}).round()


multi_df = df.groupby(['embark_town', 'class'], as_index=False).agg({'fare': ['sum', 'mean']})
multi_df


multi_df.columns = ['_'.join(col).rstrip('_') for col in multi_df.columns.values]
multi_df.round(2)


#!pip3 install sidetable


import sidetable


df.groupby(['class', 'embark_town', 'sex']).agg({'fare': 'sum'}).stb.subtotal()

	survived	pclass	sex	age	sibsp	fare	embarked	class	who	adult_male	deck	embark_town	alive	alone
0	0	3	male	22.0	1	7.2500	S	Third	man	True	NaN	Southampton	no	False
1	1	1	female	38.0	1	71.2833	C	First	woman	False	C	Cherbourg	yes	False
2	1	3	female	26.0	0	7.9250	S	Third	woman	False	NaN	Southampton	yes	True
3	1	1	female	35.0	1	53.1000	S	First	woman	False	C	Southampton	yes	False
4	0	3	male	35.0	0	8.0500	S	Third	man	True	NaN	Southampton	no	True

	fare
	sum	mean	median	min	max	std	var	mad	prod
embark_town
Cherbourg	10072.30	59.95	29.70	4.01	512.33	83.91	7041.39	53.02	6.193716e+250
Queenstown	1022.25	13.28	7.75	6.75	90.00	14.19	201.30	7.87	6.458671e+78
Southampton	17439.40	27.08	13.00	0.00	263.00	35.89	1287.95	21.30	0.000000e+00

	fare
	describe
	count	mean	std	min	25%	50%	75%	max
embark_town
Cherbourg	168.0	59.95	83.91	4.01	13.70	29.70	78.5	512.33
Queenstown	77.0	13.28	14.19	6.75	7.75	7.75	15.5	90.00
Southampton	644.0	27.08	35.89	0.00	8.05	13.00	27.9	263.00

	embark_town
	count	nunique	size
deck
A	15	2	15
B	45	2	47
C	59	3	59
D	33	2	33
E	32	3	32
F	13	3	13
G	4	1	4

	fare
	first	last
embark_town
Cherbourg	512.3292	4.0125
Queenstown	90.0000	6.7500
Southampton	263.0000	0.0000

Подробное руководство по группировке и агрегированию с помощью pandas¶

Введение¶

Агрегирование¶

Groupby¶

Основы математики¶

Подсчет¶

Первый и последний¶

Другие библиотеки¶

Работа с текстом¶

Пользовательские функции¶

Примеры пользовательских функций¶

Пользовательские функции с несколькими столбцами¶

Работа с групповыми объектами¶

Пример с данными о продажах¶

Сглаживание иерархических индексов столбцов¶

Промежуточные итоги¶

Резюме¶

	fare	sex
fare_sum	28693.949300	NaN
fare_mean	32.204208	NaN
sex_count	NaN	891.0

	fare
	idxmax	idxmin
embark_town
Cherbourg	258	378
Queenstown	245	143
Southampton	27	179

	fare
	skew	mode	mode
embark_town
Cherbourg	3.305112	([7.2292], [15])	7.2292
Queenstown	4.265111	([7.75], [30])	7.7500
Southampton	3.640276	([8.05], [43])	8.0500

	fare
	25%	percentile_25	lambda_25%	<lambda_0>
embark_town
Cherbourg	13.70	13.70	13.70	13.70
Queenstown	7.75	7.75	7.75	7.75
Southampton	8.05	8.05	8.05	8.05

		fare
		percentile_90	trim_mean_10	largest	sparkline_str
class	embark_town
First	Cherbourg	227.5250	85.408335	512.3292	█▇▂▁▃▁▁▁▁▂
	Queenstown	90.0000	90.000000	90.0000	▁▁▁▁▁█▁▁▁▁
	Southampton	152.3150	60.500160	263.0000	▃█▄▃▂▂▁▁▂▂
Second	Cherbourg	41.5792	25.167500	41.5792	█▄▁▁▄▂▄▁▄▅
	Queenstown	12.3500	12.350000	12.3500	▁▁▁▁▁█▁▁▁▁
	Southampton	31.7500	18.202273	73.5000	▂█▂▅▁▂▁▁▁▁
Third	Cherbourg	19.0229	10.677941	22.3583	▁█▃▂▁▄▃▁▂▂
	Queenstown	24.0600	9.670476	29.1250	█▁▁▂▁▁▁▂▁▂
	Southampton	31.2750	11.501469	69.5500	▁█▂▂▂▁▁▁▁▁

	fare
	top_10_sum	bottom_10_sum
class
First	3361.2584	108.3709
Second	622.2376	42.0000
Third	656.3374	36.1291

	fare_sum	fare_mean	fare_range
class
First	18177.0	84.0	512.0
Second	3802.0	21.0	74.0
Third	6715.0	14.0	70.0

class	First	Second	Third
embark_town
Cherbourg	0.311947	0.015108	0.025939
Queenstown	0.006308	0.001298	0.028219
Southampton	0.313183	0.116833	0.181165

	account number	name	sku	quantity	unit price	ext price	date
0	740150	Barton LLC	B1-20000	39	86.69	3380.91	2018-01-01 07:21:51
1	714466	Trantow-Barrows	S2-77896	-1	63.16	-63.16	2018-01-01 10:00:47
2	218895	Kulas Inc	B1-69924	23	90.70	2086.10	2018-01-01 13:24:58
3	307599	Kassulke, Ondricka and Metz	S1-65481	41	21.05	863.05	2018-01-01 15:05:22
4	412290	Jerde-Hilpert	S2-34077	6	83.21	499.26	2018-01-01 23:26:55

	date	daily_sales
0	2018-01-01	6766.16
1	2018-01-02	1551.91
2	2018-01-03	4278.96
3	2018-01-04	6044.10
4	2018-01-05	1971.94

	deck
	nunique	mode	set
class
First	5	([C], [59])	{C, nan, A, B, E, D}
Second	3	([F], [8])	{nan, D, F, E}
Third	3	([F], [5])	{nan, F, E, G}

	embark_town
	count	nunique	size	unique_nan	count_nulls	set
deck
A	15	2	15	2	0	{Cherbourg, Southampton}
B	45	2	47	3	2	{nan, Cherbourg, Southampton}
C	59	3	59	3	0	{Cherbourg, Southampton, Queenstown}
D	33	2	33	2	0	{Cherbourg, Southampton}
E	32	3	32	3	0	{Cherbourg, Southampton, Queenstown}
F	13	3	13	3	0	{Cherbourg, Southampton, Queenstown}
G	4	1	4	1	0	{Southampton}

	quarterly_sales
date
2018-01-01	6766.16
2018-01-02	8318.07
2018-01-03	12597.03
2018-01-04	18641.13
2018-01-05	20613.07
...	...
2018-12-27	480817.47
2018-12-28	484389.92
2018-12-29	489227.01
2018-12-30	494106.67
2018-12-31	496069.30

	embark_town	class	fare_sum	fare_mean
0	Cherbourg	First	8901.07	104.72
1	Cherbourg	Second	431.09	25.36
2	Cherbourg	Third	740.13	11.21
3	Queenstown	First	180.00	90.00
4	Queenstown	Second	37.05	12.35
5	Queenstown	Third	805.20	11.18
6	Southampton	First	8936.34	70.36
7	Southampton	Second	3333.70	20.33
8	Southampton	Third	5169.36	14.64