Дата-грамотность и открытая воспроизводимая наука
Содержание
1. Дата-грамотность и открытая воспроизводимая наука¶
Джордан Морроу, автор книги “Как вытащить из данных максимум. Навыки аналитики для неспециалистов” определяет дата-грамотность, как способность читать данные, работать с ними, анализировать их и общаться на языке данных.
Мы все привыкли, что программирование никак не связано с гуманитарными исследованиями, но в мире довольно много происходит в области цифровой гуманитаристики (Digital Humanities): визуализация исторических данных, анализ и распознавание текстов (компьютерная лингвистика) и т. д. Стимулом к развитию цифровой гуманитаристики являются открытые данные, доступные для свободного скачивания и исследования.
Широкий интерес к дата-грамотности обусловлен в том числе появлением ряда свободных программных продуктов. Наиболее популярные из них - Python, R и Julia. Каждый из них имеет многочисленные библиотеки и отзывчивое сообщество пользователей. Перечисленные программы позволяют организовать весь цикл обработки данных: сбор, предобработку (очистку), анализ и представление результатов.
Дата-грамотность тесно связана с понятием открытой воспроизводимой науки.
Открытая наука предполагает доступность научных методов, данных и результатов. Она включает в себя:
– прозрачность методов сбора, обработки и анализа данных;
– общедоступные данные и связанные с ними методы обработки;
– прозрачное сообщение результатов.
Воспроизводимая наука предполагает, что любой (включая других и автора в будущем) может понять и воспроизвести шаги анализа, примененные к тем же или даже новым данным.
Вместе открытая воспроизводимая наука позволяют делиться работой и сотрудничать с другими исследователями, а также открыто публиковать свои данные и рабочие процессы, чтобы способствовать расширению научных знаний.
1.1. Рекомендации для правильной работы с данными¶
Тут стоит отметить, что важен не только софт, который используется для работы с данными, но и правильная организация сбора, хранения и представления данных.
Приведу несколько рекомендаций, которые смогут сэкономить время исследователя данных.
– Уделяйте внимание именам директорий и файлов, следуйте единому соглашению: отдельно храните код, данные и рисунки.
– Используйте выразительные имена, которые описывают, что содержит директория или файл.
– Избегайте пробелов в именах, вместо них можно использовать символ нижнего подчеркивания или тире.
– Возможность сортировки и поиска файлов обеспечивает нумерация в именах, например, 01-pic.jpg
, 02-pic.jpg
и т. д.
– Используйте имена в нижнем регистре.
– Создайте пронумерованные директории, которые охватывают этапы процесса исследования данных, например:
/student-project
/01-code-scripts
/02-raw-data
/03-processed-data
/04-graphics-outputs
/05-paper
Помните, что одного идеального примера организации директорий не существует.
– Документируйте свой проект на каждом этапе (удобно использовать формат Markdown
).
– Используйте текстовые форматы, не зависящие от операционной системы и программных продуктов, такие как .csv
, .txt
или .json
.