Как парсить данные с Myjewels с использованием Python
Добро пожаловать снова….Myjewel предлагает модные подвески-штаны с квадратной цепочкой и многое другое в аксессуарах. Мы будем использовать Python, поэтому, если у вас нет опыта работы с Python, я рекомендую освежить свои знания по этому языку.
Как всегда, перед парсингом данных с веб-сайта нам нужно определить, какие конкретные данные мы хотим получить. После просмотра страницы я автоматически увидел множество различных данных, которые мы можем получить. В этом проекте мы будем парсить название продукта, ссылку на продукт и цену продуктов на Myjewel.
Начнем!
Основное введение, которое вы, вероятно, можете пропустить, я скопировал из своей другой статьи
Прежде всего, нам понадобится установленный Python, убедитесь, что у вас установлен Python и некоторая среда разработки. Selenium pro - это пакет для парсинга веб-сайтов, который позволяет нам имитировать веб-браузер с помощью Python. Возможно, лучше иметь более глубокое понимание парсинга веб-сайтов. Пакет Selenium pro - https://pypi.org/project/selenium-pro/
pip install selenium-pro
Установка расширения
Загрузите Selenium Auto Code Generator из Chrome Web Store, чтобы избежать копирования и вставки xpath. Этот инструмент помогает и упрощает процесс без хлопот с копированием и вставкой. Загрузите его отсюда - https://chrome.google.com/webstore/detail/selenium-auto-code-genera/ocimgcpcnobcnmclomhhmjidgoiekeaf/related
Начнем!
Теперь, когда у нас настроена среда Python, давайте откроем пустой скрипт Python. Импортируем пакет Selenium pro, который вы, надеюсь, предварительно установили в предыдущем пункте (просто выполните pip install selenium-pro). После установки импортируйте следующие пакеты:
from selenium_pro import webdriver
import time
from selenium_pro.webdriver.common.keys import Keys
Мы используем браузер Google Chrome в качестве нашего графического интерфейса, но вы можете использовать другие браузеры внутри Selenium pro, если хотите использовать другой браузер, пожалуйста, используйте его! Убедитесь, что соответствующий браузер установлен на вашем компьютере.
Теперь, внутри Selenium pro, нам нужно определить наш веб-браузер, поэтому давайте сделаем это с помощью следующей строки кода:
driver = webdriver.Start()
Я рекомендую запустить весь ваш код до этой точки и проверить, успешно ли выполняется код. Если да, то вы почти готовы продолжать!
Myjewel PipelineСледующий шаг - это веселая часть. Нажмите на расширение DK, которое мы установили ранее, и нажмите "начать запись". Это определенно не будет сложной задачей, но, к счастью, у вас есть я здесь.
Откройте веб-сайт Myjewel и добавьте задержку в 3 секунды для загрузки веб-сайта, а затем выполните поиск ключевого слова на веб-сайте и нажмите Enter. Чтобы добавить событие ожидания, щелкните правой кнопкой мыши на экране и выберите "ожидание" -> 3. Теперь, если вы щелкнете на расширении, вы увидите код уже там в расширении, как показано ниже.
# открыть URL в браузере
driver.get(‘[https://my-jewels.com/'](https://my-jewels.com/'))
time.sleep(3)
Отлично! Это указывает нашему браузеру Chrome Python на этот конкретный веб-сайт выше, функция "time.sleep(3)" просто говорит Python подождать 3 секунды перед продолжением, это необязательно, но я все равно добавил это.
После этого расширение будет искать идентификатор с помощью driver.find_element_by_pro и выполнит click(), событие click выполнит клик по идентификатору
# нажать на поле ввода
driver.find_element_by_pro(‘mwHICBlm71geIAh’).click()
и send_keys(‘chain’) введет ключевое слово "chain", а send_keys(Keys.ENTER) нажмет Enter
# ввести текст в поле ввода
driver.find_element_by_pro(‘fAwTCsJPYWxkGZz’).send_keys(‘chain’)
# нажать клавишу Enter
driver.switch_to.active_element.send_keys(Keys.ENTER)
Скопируйте код из расширения и протестируйте код до этого момента.
Получение данныхОтлично! Теперь давайте возобновим запись. После ввода ключевого слова на веб-сайте Myjewel наведите указатель мыши на название продукта, затем щелкните правой кнопкой мыши и выберите "скрапить" -> "текст", чтобы получить текст продукта.
Точно так же вы можете получить ссылку. В расширении ваши действия будут имитированы следующим образом:
# получить текст элемента
title = list_element.find_element_by_pro(‘yeqgFsGnK31OYOM’).text
# получить ссылку элемента
link = list_element.find_element_by_pro(‘34oy7OhT5b4KXF8’).get_attribute(‘href’)
Мы закончили здесь.. верьте или нет
Полный кодВ случае, если вы застряли или запутались, вот весь код для этого проекта:
from selenium_pro import webdriver
import time
from selenium_pro.webdriver.common.keys import Keys
driver = webdriver.Start()
# открыть URL в браузере
driver.get(‘[https://my-jewels.com/'](https://my-jewels.com/'))
time.sleep(3)
# нажать на поле ввода
driver.find_element_by_pro(‘mwHICBlm71geIAh’).click()
# ввести текст в поле ввода
driver.find_element_by_pro(‘fAwTCsJPYWxkGZz’).send_keys(‘chain’)
# нажать клавишу Enter
driver.switch_to.active_element.send_keys(Keys.ENTER)
time.sleep(3)
# получить текст элемента
title = list_element.find_element_by_pro(‘yeqgFsGnK31OYOM’).text
# получить ссылку элемента
link = list_element.find_element_by_pro(‘34oy7OhT5b4KXF8’).get_attribute(‘href’)
Запуск этой программыТеперь, чтобы запустить эту программу, скопируйте код из расширения и сохраните его как файл .py > откройте терминал / командную строку и введите следующую команду:
python3 ПУТЬ/К/ВАШЕМУ/ФАЙЛУ.PY
Или, если вы используете среду разработки, такую как Pycharm, просто запустите программу в ней. При запуске этой программы вы увидите, что открывается браузер Chrome, он будет ждать несколько секунд, а затем выведет точки данных в консоль Python!
Поздравляю! Я рекомендую поискать способы улучшить этот проект: можете ли вы добавить интерфейс, где люди могут размещать свои ссылки? Можете ли вы добавить цикл для парсинга всех ссылок и текста со всех страниц? В противном случае, вам следует гордиться собой за то, что вы прошли этот учебник!