Экстракция данных с использованием техники парсинга (на примере самых дорогих игроков Лиги 1 на [transfermarkt.com](https://www.transfermarkt.com/))
Table Of Content
После просмотра горячих матчей Piala Menpora 2021 я пришел к идее применить подход data science к футболу. Чтобы начать, я не буду проводить тактический и глубокий анализ, так как у меня нет тренерской лицензии и я не очень хорошо разбираюсь в тактике. Но я выбрал другой интересный подход, а именно анализ рыночной стоимости футбольных игроков, чтобы измерить, насколько щедрыми являются клубы Лиги 1 в выплате денег за услуги профессионального игрока.
Чтобы получить данные, я использую технику парсинга, то есть просто копирую доступное публично содержимое веб-сайта. Сама техника парсинга находится в серой зоне или, другими словами, еще не регулируется в Индонезии, а веб-сайт, с которого я буду парсить данные, - это transfermarkt.com, веб-сайт, на котором публикуются актуальные и реальные цены на футбольных игроков.
Установка парсера
Для начала парсинга я использую расширение для Chrome под названием webscraper, чтобы упростить процесс извлечения содержимого с веб-сайта transfermarkt. Необходимо помнить, что весь процесс очень простой, даже без использования кодирования, потому что webscraper предоставляет простой интерфейс для выполнения парсинга веб-сайтов.
Начало извлечения содержимого (парсинг)
Чтобы начать, перейдите по ссылке здесь. На открывшейся странице показан список игроков и их цены, указанные на веб-сайте.
После установки парсера откройте инструмент "Инспектор элементов" и выберите парсер:
После открытия создайте новую карту сайта, нажав "Создать карту сайта" в парсере:
Заполните карту сайта следующим образом:
Чтобы извлечь данные, находящиеся на веб-сайте, выполните следующие шаги:
Для удобства выберите селектор из меню:
Чтобы проверить правильность управления парсингом, сначала проверьте созданный график сайта, выбрав график селектора:
Вот график селектора, который был завершен:
Чтобы начать парсинг, выберите режим "Парсинг" и выберите интервал парсинга (в миллисекундах):
Когда парсинг завершен, скачайте данные, экспортируя их в формате CSV.
Вот пример экспортированного файла:
Когда вы закончите, данные можно анализировать с помощью инструментов бизнес-аналитики, таких как Tableau или PowerBI.
Удачи вам!