Open in Colab

Импортируем модуль pandas:

В основе работы pandas лежит табличное представление данных:

В качестве примера рассмотрим данные о пассажирах Титаника.

Для ряда пассажиров я знаю имя (символы), возраст (целые числа) и пол (мужской / женский).

Полученная структура данных называется DataFrame.

Напоминает обычные таблицы:

Каждый столбец в структуре DataFrame является типом Series:

Выбрать столбец из таблицы:

Внешне очень напоминает питоновский словарь.

Вы также можете создать Series с нуля:

Сделайте что-нибудь с DataFrame или Series

Я хочу узнать максимальный возраст пассажиров, применив функцию max() к столбцу таблицы:

или к типу данных Series:

Помимо поиска максимального в pandas существует большой набор функций.

Если интересует некоторая базовая статистика числовых данных:

describe() метод обеспечивает краткий обзор численных данных в DataFrame.

Так как столбцы Name и Sex состоят из текстовых данных, то они не учитываются в describe().

Многие операции в pandas возвращают DataFrame или Series.