Парсинг данных с использованием BeautifulSoup и SelectorGadget в Python 3
Table Of Content
Благодаря Beautiful Soup вы можете выполнять парсинг данных в Python всего лишь несколькими строками кода. Используя несколько удобных инструментов, вы сможете стать настоящим мастером парсинга.
Давайте начнем с установки BeautifulSoup и Requests в терминале:
pip install bs4
pip install requests
Затем вам понадобится SelectorGadget. Лучше всего использовать плагин SelectorGadget для Chrome.
В нашем случае мы будем парсить все лучшие фильмы с www.imdb.com Давайте воспользуемся SelectorGadget для поиска наших CSS-селекторов.
- Выберите любое из названий фильмов:
- Любой элемент, выделенный желтым цветом, будет выбран текущим CSS-селектором ("a"), который мы будем парсить. Поскольку нам нужны только названия фильмов, давайте попробуем отменить выбор других элементов (обозначенных красным выделением):
-
В этом примере нам пришлось отменить выбор только одного элемента, чтобы остались только выделенные фильмы. Теперь, когда мы знаем наш CSS-селектор - ".lister-item-header a", мы можем начать создавать наш парсер на Python.
-
Импортируем BeautifulSoup и Requests.
from bs4 import BeautifulSoup
import requests
- Загрузим URL в BeautifulSoup.
url = "https://www.imdb.com/search/title?genres=drama&groups=top_250&sort=user_rating,desc"
res = requests.get(url)
soup = BeautifulSoup(res.text)
- Используем наш CSS-селектор для извлечения списка всех фильмов.
movies = soup.select(".lister-item-header a")print(movies)Output:[<a href="/title/tt0111161/?ref_=adv_li_tt">Побег из Шоушенка</a>, <a href="/title/tt0068646/?ref_=adv_li_tt">Крестный отец</a>, <a href="/title/tt0468569/?ref_=adv_li_tt">Темный рыцарь</a>...]
- Извлекаем названия фильмов и ссылки на фильмы в два отдельных списка с использованием генератора списка.
movies_titles = [title.text for title in movies]
movies_links = ["http://imdb.com"+title["href"] for title in movies]print(movies_titles)
print(movies_links)Output:['Побег из Шоушенка', 'Крестный отец', 'Темный рыцарь', 'Крестный отец 2'...]
['[http://imdb.com/title/tt0111161/?ref_=adv_li_tt'](http://imdb.com/title/tt0111161/?ref_=adv_li_tt%27), '[http://imdb.com/title/tt0068646/?ref_=adv_li_tt'](http://imdb.com/title/tt0068646/?ref_=adv_li_tt%27), '[http://imdb.com/title/tt0468569/?ref_=adv_li_tt'](http://imdb.com/title/tt0468569/?ref_=adv_li_tt%27), '[http://imdb.com/title/tt0071562/?ref_=adv_li_tt'](http://imdb.com/title/tt0071562/?ref_=adv_li_tt%27) ...]
И вот, у вас есть список всех названий фильмов и соответствующих ссылок. Обратите внимание, что мы парсили только названия с первой страницы. Если мы хотим получить остальные, вы можете парсить каждую страницу отдельно или создать цикл for (сообщите мне, если вы хотите увидеть это в будущем учебнике!).
Вы можете найти полный код парсера здесь на github:
Примечание: IMDB может изменить свои CSS-селекторы или макет веб-сайта в будущем, поэтому у вас может быть другой селектор, чем показанный в этой статье.