#!pip3 install pandera


#conda install -c conda-forge pandera


import pandas as pd
import pandera as pa


# создадим фрейм данных:
df = pd.DataFrame({
    "column1": [1, 4, 0, 10, 9],
    "column2": [-1.3, -1.4, -2.9, -10.1, -20.4],
    "column3": ["value_1", "value_2", "value_3", "value_2", "value_1"]
})
df


# определим схему для проверки фрейма данных:
schema = pa.DataFrameSchema({
    "column1": pa.Column(int, checks=pa.Check.le(10)), # Проверим, что значения меньше или равны 10
    "column2": pa.Column(float, checks=pa.Check.lt(-1.2)), # Проверим, что значения ряда строго меньше -1.2
    "column3": pa.Column(str, checks=[
        pa.Check.str_startswith("value_"),
        # определим пользовательские проверки как функции, 
        # которые принимают серию в качестве входных данных        
        pa.Check(lambda s: s.str.split("_", expand=True).shape[1] == 2)
    ]),
})


schema(df)
# ошибок не произошло, значит проверка прошла успешно!


import pandas as pd

dataframe = pd.DataFrame({
    "person_id": [1, 2, 3, 4],
    "height_in_feet": [6.5, 7, 6.1, 5.1],
    "date_of_birth": pd.to_datetime([
    "2005", "2000", "1995", "2000",
    ]),
    "education": [
        "highschool", "undergrad", "grad", "undergrad",
    ],
})


dataframe


import pandas as pd
import pandera as pa
from pandera import Column

typed_schema = pa.DataFrameSchema(
    {
        "person_id": Column(pa.Int),
        # поддерживаются типы данных numpy и pandas
        "height_in_feet": Column("float"),
        "date_of_birth": Column("datetime64[ns]"),
        "education": Column(
            pd.StringDtype(),
            nullable=True
        ),
    },

    # принудительное преобразование к типам данных при проверке фрейма
    coerce=True
)

typed_schema(dataframe)
# возвращается фрейм данных


import pandas as pd
import pandera as pa
from pandera import Column, Check

checked_schema = pa.DataFrameSchema(
    {
        "person_id": Column(
            pa.Int,
            Check.greater_than(0),  # значения ряда строго больше 0
            # https://pandera.readthedocs.io/en/stable/generated/methods/pandera.checks.Check.greater_than.html
            allow_duplicates=False,
        ),
        "height_in_feet": Column(
            "float",
            Check.in_range(0, 10), # все значения ряда находятся в пределах интервала (0, 10)
            # https://pandera.readthedocs.io/en/stable/generated/methods/pandera.checks.Check.in_range.html
        ),
        "date_of_birth": Column(
            "datetime64[ns]",
            Check.less_than_or_equal_to( #  значения меньше или равны pd.Timestamp.now()
                # https://pandera.readthedocs.io/en/stable/generated/methods/pandera.checks.Check.less_than_or_equal_to.html
                pd.Timestamp.now()
            ),
        ),
        "education": Column(
            pd.StringDtype(),
            Check.isin([  # в серии встречаются только допустимые значения из списка
                # https://pandera.readthedocs.io/en/stable/generated/methods/pandera.checks.Check.isin.html
                "highschool",
                "undergrad",
                "grad",
            ]),
            nullable=True,
        ),
    },
    coerce=True
)

checked_schema(dataframe)
# возвращается фрейм данных


import pandas as pd
from pandera import Hypothesis

endurance_study_schema = pa.DataFrameSchema({
    "subject_id": Column(pa.Int),
    "arm": Column(
        pa.String,
        Check.isin(["treatment", "control"])
    ),
    "duration": Column(
        pa.Float, checks=[
            Check.greater_than(0),
            Hypothesis.two_sample_ttest(  # Рассчитайте t-критерий для средних значений двух выборок
                # https://pandera.readthedocs.io/en/stable/generated/methods/pandera.hypotheses.Hypothesis.two_sample_ttest.html
                sample1="treatment",
                relationship="greater_than",
                sample2="control",
                groupby="arm",
                alpha=0.01,
            )
        ]
    )
})


import numpy as np
from scipy import stats

dataframe = pd.DataFrame({
    "x1": np.random.normal(0, 1, size=100),
})

dataframe.head()


schema = pa.DataFrameSchema({
    "x1": Column(
        checks=Hypothesis(
            test=stats.normaltest,
            # нулевая гипотеза: x1 нормально распределено
            relationship=lambda k2, p: p > 0.01
        )
    ),
})

schema(dataframe)


simple_endurance_study_schema = pa.DataFrameSchema({
    "subject_id": Column(pa.Int),
    "arm": Column(
        pa.String,
        Check.isin(["treatment", "control"])
    ),
    "duration": Column(
        pa.Float, checks=[
            Check.greater_than(0),
            Check(
                lambda duration_by_arm: (
                    duration_by_arm["treatment"].mean() > duration_by_arm["control"].mean()
                ),
                groupby="arm"
            )
        ]
    )
})

	x1
0	-1.335490
1	2.402950
2	-1.702813
3	0.085724
4	-0.668640

	x1
0	-1.335490
1	2.402950
2	-1.702813
3	0.085724
4	-0.668640
...	...
95	-0.870995
96	0.037310
97	1.008274
98	-1.372855
99	-1.376724

Проверка статистических данных для pandas с помощью модуля pandera¶

Проверка чекеров¶

Отчеты об ошибках и отладка¶

Расширенные возможности¶

Правила условной проверки¶

Дополнительные материалы:¶

	column1	column2	column3
0	1	-1.3	value_1
1	4	-1.4	value_2
2	0	-2.9	value_3
3	10	-10.1	value_2
4	9	-20.4	value_1

	person_id	height_in_feet	date_of_birth	education
0	1	6.5	2005-01-01	highschool
1	2	7.0	2000-01-01	undergrad
2	3	6.1	1995-01-01	grad
3	4	5.1	2000-01-01	undergrad