CoderCastrov logo
CoderCastrov
Научный анализ данных

Экстракция данных с использованием техники парсинга (на примере самых дорогих игроков Лиги 1 на [transfermarkt.com](https://www.transfermarkt.com/))

Экстракция данных с использованием техники парсинга (на примере самых дорогих игроков Лиги 1 на [transfermarkt.com](https://www.transfermarkt.com/))
просмотров
2 мин чтение
#Научный анализ данных
Table Of Content

    После просмотра горячих матчей Piala Menpora 2021 я пришел к идее применить подход data science к футболу. Чтобы начать, я не буду проводить тактический и глубокий анализ, так как у меня нет тренерской лицензии и я не очень хорошо разбираюсь в тактике. Но я выбрал другой интересный подход, а именно анализ рыночной стоимости футбольных игроков, чтобы измерить, насколько щедрыми являются клубы Лиги 1 в выплате денег за услуги профессионального игрока.

    Чтобы получить данные, я использую технику парсинга, то есть просто копирую доступное публично содержимое веб-сайта. Сама техника парсинга находится в серой зоне или, другими словами, еще не регулируется в Индонезии, а веб-сайт, с которого я буду парсить данные, - это transfermarkt.com, веб-сайт, на котором публикуются актуальные и реальные цены на футбольных игроков.

    Установка парсера

    Для начала парсинга я использую расширение для Chrome под названием webscraper, чтобы упростить процесс извлечения содержимого с веб-сайта transfermarkt. Необходимо помнить, что весь процесс очень простой, даже без использования кодирования, потому что webscraper предоставляет простой интерфейс для выполнения парсинга веб-сайтов.

    Начало извлечения содержимого (парсинг)

    Чтобы начать, перейдите по ссылке здесь. На открывшейся странице показан список игроков и их цены, указанные на веб-сайте.

    TOP MARKET VALUES LIGA 1 INDONESIA

    После установки парсера откройте инструмент "Инспектор элементов" и выберите парсер:

    inspect element

    После открытия создайте новую карту сайта, нажав "Создать карту сайта" в парсере:

    create new sitemap

    Заполните карту сайта следующим образом:

    sitemap configuration

    Чтобы извлечь данные, находящиеся на веб-сайте, выполните следующие шаги:

    get value

    Для удобства выберите селектор из меню:

    selector

    Чтобы проверить правильность управления парсингом, сначала проверьте созданный график сайта, выбрав график селектора:

    selector graph

    Вот график селектора, который был завершен:

    selector graph

    Чтобы начать парсинг, выберите режим "Парсинг" и выберите интервал парсинга (в миллисекундах):

    scraper config

    Когда парсинг завершен, скачайте данные, экспортируя их в формате CSV.

    download as csv

    Вот пример экспортированного файла:

    результаты парсинга в формате CSV

    Когда вы закончите, данные можно анализировать с помощью инструментов бизнес-аналитики, таких как Tableau или PowerBI.

    Удачи вам!