Парсер
Парсинг исторической статистики XG с помощью одной строки кода!
Table Of Content
да, вы правильно прочитали!
edit: Я делаю это для нескольких сезонов!
import pandas as pd
df = pd.read_html('https://fbref.com/en/comps/9/2021-2022/schedule/2021-2022-Premier-League-Scores-and-Fixtures',index_col=False)[0]
Эта одна строка с помощью pandas парсит всю таблицу! Есть несколько строк кода для очистки данных, чтобы они были полностью удовлетворительными.
df = df[df['Wk'].notna()]
- Переименуйте столбцы Expected Goals, чтобы они выглядели более приятно для глаз!
df = df.rename(columns={'xG':'xGHome'
,'xG.1':'xGAway'})
- Удалите столбцы с отчетами о матче и заметками, они не добавляют никакой ценности!
df = df.drop(['Match Report','Notes'],axis=1)
Последнее, что было бы полезным, это разделить столбец со счетом на домашний и гостевой! Попробуйте написать код для этого!
EDIT: Я выполню и добавлю циклы for, чтобы получить все сезоны, в которых есть данные XG. Тетрадка приложена как ссылка на GitHub с комментариями в формате markdown!
https://github.com/socrstats/Medium_Football/blob/main/fbref.ipynb