Как парсить данные с помощью Python с Exportleftovers
Table Of Content
- открыть URL в браузере
- нажать на поле ввода
- ввести текст в поле ввода
- нажать клавишу Enter
- получить текст элемента
- получить ссылку элемента
- получить текст элемента
- получить текст элемента
- получить текст элемента
- получить текст элемента
- получить ссылку элемента
- открыть URL в браузере
- нажать на поле ввода
- ввести текст в поле ввода
- нажать клавишу Enter
- получить текст элемента
- получить ссылку элемента
- получить текст элемента
- получить текст элемента
- получить текст элемента
- получить текст элемента
- получить ссылку элемента
Привет снова! ExportLeftovers.com - это пакистанская история о том, как Facebook и цифровой маркетинг привели к созданию бизнеса по переработке одежды и экспортным остаткам ELO. Мы будем использовать Python, поэтому, если у вас нет опыта работы с Python, рекомендуется освежить свои знания по этому языку.
Как всегда, перед парсингом веб-сайта нам нужно определить, какие конкретные данные нам нужно получить. После просмотра страницы я автоматически увидел множество разных данных, которые мы можем получить. В этом проекте мы будем парсить название продукта, ссылку на продукт и цену продуктов на exportleftovers.
Давайте начнем!
Основное введение, которое можно пропустить, я скопировал из своей другой статьи
Прежде всего, нам понадобится установленный Python, убедитесь, что у вас установлен Python и какая-то среда разработки. Selenium pro - это пакет для парсинга веб-сайтов, который позволяет нам имитировать веб-браузер с помощью Python. Возможно, лучше иметь более глубокое понимание парсинга веб-сайтов. Установите пакет Selenium pro - https://pypi.org/project/selenium-pro/
pip install selenium-pro
Установка расширения
Загрузите Selenium Auto Code Generator из Chrome Web Store. Вместо копирования и вставки xpath, это инструмент поможет и упростит процесс, без необходимости копирования и вставки. Загрузите его отсюда - https://chrome.google.com/webstore/detail/selenium-auto-code-genera/ocimgcpcnobcnmclomhhmjidgoiekeaf/related
Давайте начнем!
Теперь, когда у нас настроена среда Python, давайте откроем пустой скрипт Python. Давайте импортируем пакет Selenium pro, который вы, надеюсь, предварительно установили в предыдущем параграфе (просто pip install selenium-pro). После установки импортируйте следующие пакеты:
from selenium_pro import webdriver
import time
from selenium_pro.webdriver.common.keys import Keys
Мы используем браузер Google Chrome в качестве нашего графического интерфейса, но вы можете использовать другие браузеры внутри Selenium pro, если хотите использовать другой браузер - пожалуйста! Убедитесь, что соответствующий браузер установлен на вашем компьютере.
Теперь, внутри Selenium pro, нам нужно определить наш веб-браузер, поэтому давайте сделаем это с помощью следующей строки кода:
driver = webdriver.Start()
Я рекомендую запустить весь ваш код до этого момента и проверить, успешно ли он выполняется. Если да, то вы практически готовы продолжать!
Этапы парсинга ExportleftoversТеперь самая интересная часть. Нажмите на расширение DK, которое мы установили ранее, и нажмите "начать запись". Это определенно не будет сложной задачей, но, к счастью, у вас есть я здесь.
Откройте веб-сайт exportleftovers и добавьте задержку в 3 секунды для загрузки веб-сайта, а затем выполните поиск ключевого слова на веб-сайте и нажмите Enter. Чтобы добавить задержку, щелкните правой кнопкой мыши на экране и выберите "wait" -> 3. Теперь, если вы нажмете на расширение, вы увидите, что код уже есть в расширении, как показано ниже.
# открыть URL в браузере
driver.get('https://www.exportleftovers.com/')
time.sleep(3)
Отлично! Это указывает нашему браузеру Chrome Python на этот конкретный веб-сайт выше. Функция "time.sleep(3)" просто говорит Python подождать 3 секунды перед продолжением, это необязательно, но я все равно добавил это.
После этого расширение будет искать Id с помощью driver.find_element_by_pro и выполнит click(), событие click выполнит нажатие на Id.
# нажать на поле ввода
driver.find_element_by_pro('VUMU7HPYGh9fwmL').click_pro()
и send_keys('shirt') введет ключевое слово "shirt", а send_keys(Keys.ENTER) нажмет Enter.
# ввести текст в поле ввода
driver.find_element_by_pro('7AiGQVgtRrqLJVf').type('shirt')
# нажать клавишу Enter
driver.switch_to.active_element.type('Enter')
Скопируйте код из расширения и протестируйте код до этого момента.
Получение данныхОтлично! Теперь давайте возобновим запись. После ввода ключевого слова на веб-сайте exportleftovers наведите курсор на заголовок продукта, щелкните правой кнопкой мыши и выберите "scrape" -> "text", чтобы получить текст продукта.
Теперь, таким же образом, вы можете получить ссылку, описание и цену. В расширении ваши действия будут воспроизводиться следующим образом:
# получить текст элемента
title1 = list_element.find_element_by_pro('iWA126FhNt4zynr').text
# получить ссылку элемента
link1 = list_element.find_element_by_pro('UndHBXLLiBuaPSs').get_attribute('href')
# получить текст элемента
price = list_element.find_element_by_pro('OQChYk3lNJ784Bb').text
# получить текст элемента
description = list_element.find_element_by_pro('9Dg25K3GzHQ8BJL').text
# получить текст элемента
description2 = list_element.find_element_by_pro('oDJ2yAl7TCw4vt2').text
# получить текст элемента
title2 = list_element.find_element_by_pro('oveQI04k0N8y4xt').text
# получить ссылку элемента
link2 = list_element.find_element_by_pro('NUusMPpj59DLe7M').get_attribute('href')
Мы закончили! Верите или нет.
Полный кодВ случае, если вы застряли или запутались, вот весь код для этого проекта:
from selenium_pro import webdriver
import time
from selenium_pro.webdriver.common.keys import Keys
driver = webdriver.Start()
# открыть URL в браузере
driver.get('https://www.exportleftovers.com/')
time.sleep(3)
# нажать на поле ввода
driver.find_element_by_pro('VUMU7HPYGh9fwmL').click_pro()
# ввести текст в поле ввода
driver.find_element_by_pro('7AiGQVgtRrqLJVf').type('shirt')
# нажать клавишу Enter
driver.switch_to.active_element.type('Enter')
time.sleep(3)
# получить текст элемента
title1 = list_element.find_element_by_pro('iWA126FhNt4zynr').text
# получить ссылку элемента
link1 = list_element.find_element_by_pro('UndHBXLLiBuaPSs').get_attribute('href')
# получить текст элемента
price = list_element.find_element_by_pro('OQChYk3lNJ784Bb').text
# получить текст элемента
description = list_element.find_element_by_pro('9Dg25K3GzHQ8BJL').text
# получить текст элемента
description2 = list_element.find_element_by_pro('oDJ2yAl7TCw4vt2').text
# получить текст элемента
title2 = list_element.find_element_by_pro('oveQI04k0N8y4xt').text
# получить ссылку элемента
link2 = list_element.find_element_by_pro('NUusMPpj59DLe7M').get_attribute('href')
Запуск этой программыТеперь, чтобы запустить эту программу, скопируйте код из расширения и сохраните его как файл .py > откройте терминал / командную строку и введите следующую команду:
python3 ПУТЬ/К/ВАШЕМУ/ФАЙЛУ.PY
Или, если вы используете среду разработки, такую как Pycharm, просто запустите программу в ней. При запуске этой программы вы увидите, что открывается браузер Chrome, он будет ждать несколько секунд, а затем выведет точки данных в консоль Python!
Поздравляю! Я рекомендую поискать способы улучшить этот проект: можете ли вы добавить интерфейс, где люди могут размещать свои ссылки? Можете ли вы добавить цикл для парсинга всех ссылок и текста со всех страниц? В противном случае, вы должны гордиться собой за то, что вы прошли через этот учебник!