CoderCastrov logo
CoderCastrov
Парсер

Парсинг IMDB (250 лучших индийских фильмов)

Парсинг IMDB (250 лучших индийских фильмов)
просмотров
2 мин чтение
#Парсер
Table Of Content

    Я работаю с Python уже 2-3 месяца и изучил несколько основных библиотек для взаимодействия с веб-сайтами и данными в реальном времени.

    Самая интересная библиотека/пакет, с которым я работал до сих пор, это Selenium. Мы можем использовать Beautiful Soup для большей части работы, но я считаю, что Selenium имеет элементы, которые подходят для конкретных частей веб-сайтов. Вам нужно знать различные HTML-теги и классы, так как мы используем их здесь в Selenium.

    Мы будем парсить IMDB, список лучших индийских фильмов. Давайте начнем.

    Мы импортировали необходимые библиотеки и передали им URL.

    Для Selenium я использую драйвер Chrome, и вам нужно убедиться, что вы скачали необходимый драйвер в любое место и указали путь к нему. Можно использовать различные другие браузеры, но мы используем Chrome, так как он широко доступен для всех.

    driver.find_elements_by_class_name будет искать все классы с именем 'titleColumn' и сохранять их в список.

    i.text позволит вам извлечь только текст из класса 'titleColumn'. Мы создали новый список newtitles для хранения всех заголовков.

    Примечание: Имя класса было получено путем инспектирования элементов в Chrome, нажав ctrl+shift+c или щелкнув правой кнопкой мыши на заголовках и выбрав "Инспектировать".

    Аналогичным образом были извлечены и сохранены рейтинги в списке ratings. В этом случае мы использовали driver.find_element_by_xpath. Вы можете использовать различные другие техники для того же самого.

    find_element_by_class_name для поиска класса

    find_element_by_css_selector для поиска селектора

    find_element_by_id для поиска идентификатора и так далее

    Посетите этот сайт** **для получения дополнительной информации.

    Я мог бы использовать .text в том же цикле, но для начинающих лучше идти шаг за шагом.

    Мы создали новый список list1 и сохранили все заголовки и рейтинги соответственно.

    Наконец, мы использовали функцию input, чтобы пользователь мог выбрать желаемый рейтинг.

    Я открыт для любых отзывов, так как мне еще многое нужно изучить в этой области, и получение отзывов - лучшее, что может быть для новичка, как я.