Дата-грамотность и открытая воспроизводимая наука

1. Дата-грамотность и открытая воспроизводимая наука

Джордан Морроу, автор книги “Как вытащить из данных максимум. Навыки аналитики для неспециалистов” определяет дата-грамотность, как способность читать данные, работать с ними, анализировать их и общаться на языке данных.

Мы все привыкли, что программирование никак не связано с гуманитарными исследованиями, но в мире довольно много происходит в области цифровой гуманитаристики (Digital Humanities): визуализация исторических данных, анализ и распознавание текстов (компьютерная лингвистика) и т. д. Стимулом к развитию цифровой гуманитаристики являются открытые данные, доступные для свободного скачивания и исследования.

Широкий интерес к дата-грамотности обусловлен в том числе появлением ряда свободных программных продуктов. Наиболее популярные из них - Python, R и Julia. Каждый из них имеет многочисленные библиотеки и отзывчивое сообщество пользователей. Перечисленные программы позволяют организовать весь цикл обработки данных: сбор, предобработку (очистку), анализ и представление результатов.

Дата-грамотность тесно связана с понятием открытой воспроизводимой науки.

Открытая наука предполагает доступность научных методов, данных и результатов. Она включает в себя:

– прозрачность методов сбора, обработки и анализа данных;

– общедоступные данные и связанные с ними методы обработки;

– прозрачное сообщение результатов.

Воспроизводимая наука предполагает, что любой (включая других и автора в будущем) может понять и воспроизвести шаги анализа, примененные к тем же или даже новым данным.

Вместе открытая воспроизводимая наука позволяют делиться работой и сотрудничать с другими исследователями, а также открыто публиковать свои данные и рабочие процессы, чтобы способствовать расширению научных знаний.

1.1. Рекомендации для правильной работы с данными

Тут стоит отметить, что важен не только софт, который используется для работы с данными, но и правильная организация сбора, хранения и представления данных.

Приведу несколько рекомендаций, которые смогут сэкономить время исследователя данных.

– Уделяйте внимание именам директорий и файлов, следуйте единому соглашению: отдельно храните код, данные и рисунки.

– Используйте выразительные имена, которые описывают, что содержит директория или файл.

– Избегайте пробелов в именах, вместо них можно использовать символ нижнего подчеркивания или тире.

– Возможность сортировки и поиска файлов обеспечивает нумерация в именах, например, 01-pic.jpg, 02-pic.jpg и т. д.

– Используйте имена в нижнем регистре.

– Создайте пронумерованные директории, которые охватывают этапы процесса исследования данных, например:

/student-project
    /01-code-scripts
    /02-raw-data
    /03-processed-data
    /04-graphics-outputs
    /05-paper

Помните, что одного идеального примера организации директорий не существует.

– Документируйте свой проект на каждом этапе (удобно использовать формат Markdown).

– Используйте текстовые форматы, не зависящие от операционной системы и программных продуктов, такие как .csv, .txt или .json.