CoderCastrov logo
CoderCastrov
Автоматизация

Как парсить данные с HEATONIST с помощью Python

Как парсить данные с HEATONIST с помощью Python
просмотров
4 мин чтение
#Автоматизация

Добро пожаловать снова.... HEATONIST была создана из желания сделать пищу более интересной и ароматной, одной тарелкой за раз! Основываясь на пожизненной страсти к острой пище, основатель Ноа, Мы будем использовать Python, поэтому, если у вас нет опыта работы с Python, я рекомендую освежить свои знания этого языка.

Как всегда, перед парсингом веб-страницы нам нужно определить, какие конкретные данные нам нужно парсить. После просмотра страницы я автоматически увидел множество разных данных, которые мы можем получить. В этом проекте мы будем парсить название продукта, ссылку на продукт и цену продуктов на heatonist.

Давайте начнем!

Основные введение, которое вы, вероятно, можете пропустить, я скопировал из своей другой статьи

Прежде всего, нам понадобится установленный Python, убедитесь, что у вас установлен Python и какая-то среда разработки. Selenium pro - это пакет для парсинга веб-страниц, который позволяет нам имитировать веб-браузер с помощью Python, поэтому лучше иметь представление о парсинге веб-страниц. Пакет Selenium pro - https://pypi.org/project/selenium-pro/

pip install selenium-pro

Установка расширения

Загрузите Selenium Auto Code Generator из Chrome Web Store, вместо копирования и вставки xpath, этот инструмент помогает и упрощает процесс, без необходимости копирования и вставки. Загрузите отсюда - https://chrome.google.com/webstore/detail/selenium-auto-code-genera/ocimgcpcnobcnmclomhhmjidgoiekeaf/related

Начнем!

Теперь, когда мы настроили нашу среду Python, давайте откроем пустой скрипт Python. Давайте импортируем пакет Selenium pro, который вы, надеюсь, установили ранее (просто выполните pip install selenium-pro). После установки импортируйте следующие пакеты:

from selenium_pro import webdriver
import time
from selenium_pro.webdriver.common.keys import Keys

Мы используем браузер Google Chrome в качестве нашего графического интерфейса, но вы можете использовать другие браузеры внутри Selenium pro, если хотите использовать другой браузер, пожалуйста! Убедитесь, что соответствующий браузер установлен на вашем компьютере.

Теперь, внутри Selenium pro, нам нужно определить наш веб-браузер, поэтому давайте сделаем это с помощью следующей строки кода:

driver = webdriver.Start()

Я рекомендую запустить весь ваш код до этого момента и проверить, успешно ли код выполняется, если да, то вы практически готовы продолжать!

Heatonist PipelineСледующий шаг - это веселая часть, щелкните на расширение DK, которое мы установили ранее, и нажмите "начать запись", это определенно не будет сложной задачей, но к счастью у вас есть я здесь.

Откройте веб-сайт heatonist и добавьте задержку в 3 секунды, чтобы веб-сайт загрузился, затем выполните поиск по ключевому слову на веб-сайте и нажмите Enter. Чтобы добавить задержку, щелкните правой кнопкой мыши на экране и выберите "wait" -> 3. Теперь, если вы щелкнете на расширение, вы увидите, что код уже присутствует в расширении, как показано ниже.

# открыть URL в браузере
driver.get('https://heatonist.com/')
time.sleep(3)

Отлично! Это указывает нашему браузеру Chrome Python на этот конкретный веб-сайт, функция "time.sleep(3)" просто указывает Python подождать 3 секунды перед продолжением работы, это необязательно, но я все равно добавил это.

После этого расширение будет искать Id с помощью driver.find_element_by_pro и выполнит click(), событие click() выполнит клик по Id

# выполнить клик по найденному элементу
driver.find_element_by_pro('84BdRf22ZWJ4DIW').click_pro()

а send_keys('sauce') введет ключевое слово "sauce", а send_keys(Keys.ENTER) выполнит нажатие клавиши Enter

# выполнить клик по полю ввода
driver.find_element_by_pro('LvkJjTJYskf2ZGC').click_pro()
# ввести содержимое в поле ввода
driver.find_element_by_pro('h9X9QNQt7VYqDHE').type('sauce')
# нажать клавишу Enter
driver.switch_to.active_element.type('Enter')

Скопируйте код из расширения и протестируйте код до этого момента..

Получение данныхОтлично! Теперь давайте возобновим запись, после ввода ключевого слова на веб-сайте heatonist, наведите курсор на название продукта, затем щелкните правой кнопкой мыши и выберите "scrape" -> "text", чтобы получить текст продукта.

Теперь, аналогичным образом вы можете получить ссылку, описание и цену. В расширении ваши действия будут имитированы следующим образом:

# получить текст элемента
title = list_element.find_element_by_pro('FcS0xyPv8frvePY').text
# получить текст элемента
price = list_element.find_element_by_pro('XDzgAkneqYMPwlB').text
# получить текст элемента
description = list_element.find_element_by_pro('V8vFbaaXXZm2UfJ').text
# получить ссылку элемента
link = list_element.find_element_by_pro('ANcmEmV0rMRgHlY').get_attribute('href')

Мы закончили.. верите или нет

Полный кодВ случае, если вы застряли или запутались, вот весь код для этого проекта:

from selenium_pro import webdriver
import time
from selenium_pro.webdriver.common.keys import Keys
driver = webdriver.Start()
# открыть URL в браузере
driver.get('https://heatonist.com/')
time.sleep(3)
# выполнить клик по найденному элементу
driver.find_element_by_pro('84BdRf22ZWJ4DIW').click_pro()
# выполнить клик по полю ввода
driver.find_element_by_pro('LvkJjTJYskf2ZGC').click_pro()
# ввести содержимое в поле ввода
driver.find_element_by_pro('h9X9QNQt7VYqDHE').type('sauce')
# нажать клавишу Enter
driver.switch_to.active_element.type('Enter')
time.sleep(3)
# получить текст элемента
title = list_element.find_element_by_pro('FcS0xyPv8frvePY').text
# получить текст элемента
price = list_element.find_element_by_pro('XDzgAkneqYMPwlB').text
# получить текст элемента
description = list_element.find_element_by_pro('V8vFbaaXXZm2UfJ').text
# получить ссылку элемента
link = list_element.find_element_by_pro('ANcmEmV0rMRgHlY').get_attribute('href')

Запуск этой программыТеперь, чтобы запустить эту программу, скопируйте код из расширения и сохраните его как файл .py > откройте терминал / командную строку и введите следующую команду:

python3 ПУТЬ/К/ВАШЕМУ/ФАЙЛУ.PY

Или, если вы используете среду разработки, такую как Pycharm, просто запустите программу в ней. При запуске этой программы вы увидите, что открывается браузер Chrome, он будет ждать несколько секунд, а затем выведет данные в консоль Python!

Поздравляю! Я рекомендую поискать способы улучшить этот проект: можете ли вы добавить интерфейс, где люди могут размещать свои ссылки? Можете добавить цикл для парсинга всех ссылок и текста со всех страниц. В противном случае, вам следует гордиться собой за то, что вы прошли через этот учебник!