Иногда нам нужно получить данные в виде таблицы с веб-сайта. Мы можем скопировать и вставить данные, но если данных много, они сложные и нуждаются в ежедневном обновлении, то нам нужно использовать "парсинг".

На этот раз я покажу, как получить данные таблицы турнирной таблицы английской лиги на https://www.bbc.com/sport/football/tables

Чтобы спарсить турнирную таблицу английской лиги, нам нужно знать немного о HTML. Процесс парсинга таблицы можно разделить на 2 шага:

1. Идентификация шаблона

Идентификация шаблона выполняется для определения структуры данных в таблице, класса и тега, которые будут использоваться для парсинга. Идентификацию шаблона можно выполнить, используя инструмент "Инспектор элементов".

На основе результатов инспектирования элементов можно сделать следующие выводы:

2. Процесс парсинга

После того, как мы понимаем структуру HTML и ее шаблон, мы можем приступить к процессу парсинга данных из таблицы. Полный процесс парсинга в Jupyter Notebook можно найти здесь.

Чтобы получить данные в нужном нам формате, нам нужно понять логику этого процесса. После того, как мы проанализировали URL с помощью BeautifulSoup, следующим шагом будет...

Парсинг Таблицы Турнирной таблицы Премьер-лиги с помощью BeautifulSoup

1. Идентификация шаблона

2. Процесс парсинга