import pandas as pd
import numpy as np


df = pd.DataFrame(
    {
        "X": ['a', 'a', 'a', 'a', 'b', 'b', 'c', 'c'], 
        "Y": np.arange(8),
        "Z": np.arange(8,16)
    }
)
df


df.groupby('X').agg(np.mean)


df.groupby('X').transform(np.mean)


# Creamos una copia del DataFrame original
df_extended = df.copy()


df_extended[['media_grupo_Y', 'media_grupo_Z']] = df.groupby('X').transform(np.mean)
df_extended


# Creamos una copia del DataFrame original
df_normalizado = df.copy()


df_normalizado.groupby('X').transform(lambda x: (x - x.mean()) / x.std())


df_normalizado[['Y', 'Z']] = df_normalizado.groupby('X').transform(lambda x: (x - x.mean()) / x.std())
df_normalizado


df.loc[[0, 2, 5], 'Y'] = np.NaN
df.loc[6, 'Z'] = np.NaN
df


# Usamos ~ para negar un vector booleano, True se vuelve False y viceversa
df['Y'].where( ~df['Y'].isna(), 1000)

0    1000.0
1       1.0
2    1000.0
3       3.0
4       4.0
5    1000.0
6       6.0
7       7.0
Name: Y, dtype: float64


df.groupby('X').transform(lambda x: x.where(~x.isna(), x.mean()))

	X	Y	Z	media_grupo_Y	media_grupo_Z
0	a	0	8	1.5	9.5
1	a	1	9	1.5	9.5
2	a	2	10	1.5	9.5
3	a	3	11	1.5	9.5
4	b	4	12	4.5	12.5
5	b	5	13	4.5	12.5
6	c	6	14	6.5	14.5
7	c	7	15	6.5	14.5

Usar `transform` sobre `GroupedDataFrame`s¶

Ejemplo de uso: normalización de columnas¶