Парсинг IMDB (250 лучших индийских фильмов)
Table Of Content
Я работаю с Python уже 2-3 месяца и изучил несколько основных библиотек для взаимодействия с веб-сайтами и данными в реальном времени.
Самая интересная библиотека/пакет, с которым я работал до сих пор, это Selenium. Мы можем использовать Beautiful Soup для большей части работы, но я считаю, что Selenium имеет элементы, которые подходят для конкретных частей веб-сайтов. Вам нужно знать различные HTML-теги и классы, так как мы используем их здесь в Selenium.
Мы будем парсить IMDB, список лучших индийских фильмов. Давайте начнем.
Мы импортировали необходимые библиотеки и передали им URL.
Для Selenium я использую драйвер Chrome, и вам нужно убедиться, что вы скачали необходимый драйвер в любое место и указали путь к нему. Можно использовать различные другие браузеры, но мы используем Chrome, так как он широко доступен для всех.
driver.find_elements_by_class_name
будет искать все классы с именем 'titleColumn' и сохранять их в список.
i.text
позволит вам извлечь только текст из класса 'titleColumn'. Мы создали новый список newtitles
для хранения всех заголовков.
Примечание: Имя класса было получено путем инспектирования элементов в Chrome, нажав ctrl+shift+c или щелкнув правой кнопкой мыши на заголовках и выбрав "Инспектировать".
Аналогичным образом были извлечены и сохранены рейтинги в списке ratings
. В этом случае мы использовали driver.find_element_by_xpath
. Вы можете использовать различные другие техники для того же самого.
find_element_by_class_name
для поиска класса
find_element_by_css_selector
для поиска селектора
find_element_by_id
для поиска идентификатора и так далее
Посетите этот сайт** **для получения дополнительной информации.
Я мог бы использовать .text
в том же цикле, но для начинающих лучше идти шаг за шагом.
Мы создали новый список list1
и сохранили все заголовки и рейтинги соответственно.
Наконец, мы использовали функцию input
, чтобы пользователь мог выбрать желаемый рейтинг.
Я открыт для любых отзывов, так как мне еще многое нужно изучить в этой области, и получение отзывов - лучшее, что может быть для новичка, как я.