Inception — Данные о хакатоне данных.
Table Of Content
Вот уже неделю прошло с тех пор, как прошел "Битва данных". Этот хакатон от Итау и Shawee оставил незабываемые впечатления, волнение и желание еще и еще!
Чтобы понять мое волнение, две бессонные ночи в дороге, 30 часов без сна, много головоломок и смеха. Наконец-то я вернулся домой и, конечно же, сразу же взялся за...
НЕТ! Я взял книгу по анализу данных и начал поглощать!!!!
И, конечно же, эта первая хакатон-подобная эксперимент не могла закончиться так просто. Я уже некоторое время пишу общие коды для упрощения использования ботов для парсинга или тестирования веб-сайтов. Кстати, перед поездкой я пытался спарсить личные страницы участников в социальной сети, давайте назовем ее "Dino Connection", так почему бы не продолжить?
Поехали!
Конечно же, "Дино" не так просто отдает свои данные, и как хороший программист я не мог пройти мимо этого вызова. После множества головоломок, фрустрации и изучения ( #$@&%*! ДИНО!) У меня получилось! Аллилуйя! Я спарсил страницы.
Минимальная модель парсинга выглядит так, как показано на диаграмме, сохраняя данные в MongoDB и динамически создавая поля в соответствии с HTML.
Теперь, когда у меня была эта информация, я начал обрабатывать и анализировать данные, и пришел к некоторым "полезным" значениям.
Сначала я сосредоточился на том, сколько людей из каждой профессиональной области было выбрано. После некоторого анализа "набора данных" я пришел к выводу, что могу разделить людей на следующие группы:
Коммуникация\Маркетинг - Редакторы, Digital Media, Маркетинг,...
Дизайн - UX, UI, Дизайнеры...
Данные - Аналитики, Инженеры и Ученые-исследователи данных, BI,...
Образование - Исследователи, Преподаватели, Стипендиаты,...
IT - Разработчики, Системные аналитики,...
Другие - Менеджеры, Основатели, Предприниматели и все остальные
С этими обработанными и классифицированными данными я создал график занятости участников и областей, в которых они работают.
Интересно заметить, что на хакатоне действительно было много людей, работающих с данными.
В нашей группе WhatsApp "Битва" было много разговоров о статьях, магистратуре и академических вопросах. Поэтому я решил изучить данные о образовании участников.
Используя некоторые ключевые слова и приоритезируя более высокие категории (докторат>магистратура>...>другие), я разделил людей на группы в зависимости от уровня их последнего образования и категоризировал ситуацию с этим образованием.
Имея эти данные, я получил следующую диаграмму:
Действительно, у многих людей есть уровень образования выше бакалавриата, особенно поздравляю тех, кто имеет степень доктора!
Теперь перейдем к более конкретному и личному.
Я работаю в области данных менее двух лет, считаю себя новичком. Но после хакатона я вернулся с уверенностью, видя, что смог многое внести в команду и даже стал финалистом. Итак, я решил ответить на вопрос "Являюсь ли я новичком?!" Учитывая только область данных без опыта в IT, я получил эту диаграмму:
И удивление! 50% людей имели менее 3 лет опыта. Несмотря на это небольшое количество времени, мы представили невероятные решения менее чем за 30 часов... Поздравляю!
Однако практика имеет значение, и это видно по тому, что тот человек, который отличался и имел большой опыт, был участником победившей команды на хакатоне.
Хорошо! Много данных, интересные визуализации, так что для завершения, не очень количественная, но забавная визуализация, "облако слов". Я хотел узнать, какие навыки наиболее распространены в области данных, и получил следующее облако:
И, конечно же, классические навыки данных выделяются. SQL, старый друг каждого администратора баз данных и старая школа запросов, Python, этот прекрасный многофункциональный язык, который позволил написать этот пост. Кроме того, появляются и другие теги, но я считаю, что, так как выборка небольшая, нужно более детально проанализировать их важность в каждой конкретной области.
Вот и все, замечательный хакатон, бесконечное желание поехать в Сан-Паулу, новый личный проект для продолжения и мой первый пост на Medium.
Спасибо, Битва, спасибо, Shawee, и спасибо этим четырем ребятам André Caetano Lun, Eduardo Mesquita, Vitor Chein и José Guilherme Oliver и теперь давайте продолжим работать над нашим проектом.
Некоторые детали о посте:
Оценка времени для получения данных:
Некоторая информация о том, как я создал этот пост.
- Извлечение данных - Git-репозиторий скриптов, которые я разработал для извлечения данных из таблицы Google Sheets.
- Обработка данных - Папка со скриптами для обработки данных и правилами агрегации.
- Plotly - Инструмент для построения графиков с интеграцией с Python и Medium, легко редактировать детали и стили в веб-интерфейсе.
- Word Cloud - Модуль для создания облака слов с использованием Python.
- Data Frames: Области, Навыки, Образование, Время данных
- Выберите свою диаграмму
p.s: графики не отображаются в мобильной версии, поэтому я решил опубликовать изображения и добавить ссылку на интерактивную диаграмму в подписи.