Open in Colab

Проведом анализ данных о пассажирах. Данные доступны в виде файла в формате CSV.

Pandas предоставляет функцию read_csv() для чтения данных, хранящихся в виде CSV-файла, и преобразования их в DataFrame.

Pandas поддерживает множество различных форматов файлов или источников данных (csv, excel, sql, json…), каждый из которых имеет префикс read_*.

В первую очередь, проверяйте данные после прочтения!

При отображении DataFrame по умолчанию отображаются первые и последней 5 строк:

Первые 8 строк DataFrame:

pandas содержит метод tail() для отображения последних N строк.

Например, titanic.tail(10) вернет последние 10 строк таблицы.

С помощью обращения к атрибуту dtypes можно проверить, какие типы данных хранятся в столбцах таблицы:

Типы данных в этом DataFrame - целые числа (int64), числа с плавающей точкой (float63) и строки (object).

При запросе dtypes скобки не используются! dtypes является атрибутом DataFrame и Series. Атрибуты представляют собой характеристику DataFrame / Series, тогда как метод (для которого требуются скобки) что-то делает с DataFrame / Series.

Сохраним данные в виде электронной таблицы:

В то время как read_* функции используются для чтения данных, to_* методы используются для сохранения данных.

to_excel() сохраняет данные в виде файла Excel.

В приведенном примере sheet_name задает имя листа. При настройке index=False индексные метки не сохраняются в электронной таблице.

Эквивалентная функция для чтения read_excel() загрузит данные в DataFrame:

Техническом детали DataFrame:

Метод info() предоставляет техническую информацию о DataFrame, поэтому объясним вывод более подробно: