Питон
Как парсить HREF в BeautifulSoup с использованием Python
Table Of Content
В этой статье я покажу вам, как парсить или получать значение HREF в BeautifulSoup с использованием Python.
Шаги
В этой статье мы будем парсить веб-сайт "Cari Kode Pos", это веб-сайт, который отображает список почтовых индексов для всех регионов Индонезии. Ссылка.
Вот какой вид вы должны увидеть при посещении:
Затем попробуйте открыть "Инструменты разработчика" (щелкните правой кнопкой мыши) и увидите, что список регионов хранится в таблице. Каждое значение хранится в теге td
.
Давайте попробуем получить:
- Импортируйте get и BeautifulSoup
from requests import get
from bs4 import BeautifulSoup
- Определите базовый URL
_baseurl_ = 'https://carikodepos.com/daerah'
- Получите таблицу
page = get(_baseurl_)
soup = BeautifulSoup(page.text, 'lxml')
table = soup.find_all('table')
Вы должны получить результат, похожий на это:
- Получите
td
for i in table:
get_td = i.find_all('td')
print(get_td)
- Получите
href
, который находится внутри тегаa
for i in table:
get_td = i.find_all('td')
for j in get_td:
get_ = j.find('a')['href'].strip().split('/')[-2]
link = "{}/{}".format(_baseurl_, get_)
print(link)
Вы должны получить результат, похожий на это:
Поздравляю, вы успешно спарсили href
в BeautifulSoup с использованием Python.