Как парсить HREF в BeautifulSoup с использованием Python

В этой статье я покажу вам, как парсить или получать значение HREF в BeautifulSoup с использованием Python.

Шаги

В этой статье мы будем парсить веб-сайт "Cari Kode Pos", это веб-сайт, который отображает список почтовых индексов для всех регионов Индонезии. Ссылка.

Вот какой вид вы должны увидеть при посещении:

Затем попробуйте открыть "Инструменты разработчика" (щелкните правой кнопкой мыши) и увидите, что список регионов хранится в таблице. Каждое значение хранится в теге td.

Давайте попробуем получить:

Импортируйте get и BeautifulSoup

from requests import get
from bs4 import BeautifulSoup

Определите базовый URL

_baseurl_ = 'https://carikodepos.com/daerah'

Получите таблицу

page = get(_baseurl_)
soup = BeautifulSoup(page.text, 'lxml')
table = soup.find_all('table')

Вы должны получить результат, похожий на это:

Получите td

for i in table:
  get_td = i.find_all('td')
  print(get_td)

Получите href, который находится внутри тега a

for i in table:
  get_td = i.find_all('td')
  for j in get_td:
    get_ = j.find('a')['href'].strip().split('/')[-2]
    link = "{}/{}".format(_baseurl_, get_)
    print(link)

Вы должны получить результат, похожий на это:

Поздравляю, вы успешно спарсили href в BeautifulSoup с использованием Python.