CoderCastrov logo
CoderCastrov
Парсер

Парсинг исторической статистики XG с помощью одной строки кода!

Парсинг исторической статистики XG с помощью одной строки кода!
просмотров
1 мин чтение
#Парсер
Table Of Content

    да, вы правильно прочитали!

    edit: Я делаю это для нескольких сезонов!

    import pandas as pd
    df = pd.read_html('https://fbref.com/en/comps/9/2021-2022/schedule/2021-2022-Premier-League-Scores-and-Fixtures',index_col=False)[0]

    Эта одна строка с помощью pandas парсит всю таблицу! Есть несколько строк кода для очистки данных, чтобы они были полностью удовлетворительными.

    df = df[df['Wk'].notna()]
    1. Переименуйте столбцы Expected Goals, чтобы они выглядели более приятно для глаз!
    df = df.rename(columns={'xG':'xGHome'
                       ,'xG.1':'xGAway'})
    1. Удалите столбцы с отчетами о матче и заметками, они не добавляют никакой ценности!
    df = df.drop(['Match Report','Notes'],axis=1)

    Последнее, что было бы полезным, это разделить столбец со счетом на домашний и гостевой! Попробуйте написать код для этого!

    EDIT: Я выполню и добавлю циклы for, чтобы получить все сезоны, в которых есть данные XG. Тетрадка приложена как ссылка на GitHub с комментариями в формате markdown!

    https://github.com/socrstats/Medium_Football/blob/main/fbref.ipynb