Как парсить данные с Nine West с помощью Python
Table Of Content
- Основное введение, которое можно пропустить, я скопировал из своей другой статьи
- Установка расширения
- Приступим!
- Nine West Pipeline
- открыть URL в браузере
- нажать на поле ввода
- ввести текст в поле ввода
- нажать клавишу Enter
- Получение данных
- для получения текста элемента
- для получения ссылки элемента
- для получения текста элемента
- для получения текста элемента
- открыть URL в браузере
- нажать на поле ввода
- ввести текст в поле ввода
- нажать клавишу Enter
- получить текст элемента
- получить ссылку на элемент
- получить текст элемента
- получить текст элемента
- Запуск этой программы
Добро пожаловать снова... Nine West, также известный как 9 West, был американским онлайн-ритейлером моды, базирующимся в Уайт Плейнс, Нью-Йорк. Его продукция продолжает продаваться в других магазинах. Мы будем использовать Python, поэтому, если у вас нет опыта работы с Python, я рекомендую освежить свои знания этого языка.
Как всегда, перед парсингом мы должны определить конкретные данные, которые нам нужно получить. После просмотра страницы я сразу увидел множество разных данных, которые можно получить. В этом проекте мы будем парсить название продукта, ссылку на продукт и цену.
Давайте начнем!
Основное введение, которое можно пропустить, я скопировал из своей другой статьи
Прежде всего, нам понадобится установить Python, убедитесь, что у вас установлен Python и некоторая среда разработки. Selenium pro - это пакет для парсинга веб-страниц, который позволяет нам имитировать веб-браузер с помощью Python, возможно, лучше иметь больше понимания о парсинге веб-страниц. Пакет Selenium pro - https://pypi.org/project/selenium-pro/
pip install selenium-pro
Установка расширения
Загрузите Selenium Auto Code Generator из Chrome Web Store, вместо копирования и вставки xpath это инструмент помогает и упрощает процесс, без необходимости копирования и вставки. Загрузите отсюда - https://chrome.google.com/webstore/detail/selenium-auto-code-genera/ocimgcpcnobcnmclomhhmjidgoiekeaf/related
Приступим!
Теперь, когда мы настроили наше окружение Python, давайте откроем пустой скрипт Python. Давайте импортируем пакет Selenium pro, который вы, надеюсь, предварительно установили из предыдущего абзаца (просто выполните pip install selenium-pro). После установки импортируйте следующие пакеты:
from selenium_pro import webdriver
import time
from selenium_pro.webdriver.common.keys import Keys
Мы используем браузер Google Chrome в качестве нашего графического интерфейса, но вы можете использовать другие браузеры в Selenium pro, если хотите использовать другой браузер, пожалуйста! Убедитесь, что соответствующий браузер установлен на вашем компьютере.
Теперь, внутри Selenium pro, нам нужно определить наш веб-браузер, давайте сделаем это с помощью следующей строки кода:
driver = webdriver.Start()
Я рекомендую запустить весь ваш код до этой точки и проверить, успешно ли он выполняется, если да, то вы почти готовы продолжать!
Nine West Pipeline
Далее следует интересная часть, нажмите на расширение DK, которое мы установили ранее, и нажмите "начать запись". Это определенно не будет сложной задачей, но к счастью у вас есть я, чтобы помочь.
Откройте веб-сайт Nine West и добавьте ожидание в 3 секунды для загрузки веб-сайта. Затем выполните поиск по ключевому слову на веб-сайте и нажмите Enter. Чтобы добавить ожидание, щелкните правой кнопкой мыши на экране и выберите "ожидание" -> 3. Теперь, если вы нажмете на расширение, вы увидите уже имеющийся код в расширении, как показано ниже.
# открыть URL в браузере
driver.get('https://ninewest.com/')
time.sleep(3)
Отлично! Этот код направит наш браузер Chrome Python на указанный выше веб-сайт, функция "time.sleep(3)" просто говорит Python подождать 3 секунды перед продолжением, это необязательно, но я все равно добавил это.
После этого расширение выполнит поиск по идентификатору с помощью driver.find_element_by_pro и выполнит клик(), событие клика нажмет на идентификатор.
# нажать на поле ввода
driver.find_element_by_pro('4V28ZFcv6zg4FHM').click()
time.sleep(1)
и send_keys('shoe') введет ключевое слово "shoe", а send_keys(Keys.ENTER) нажмет клавишу Enter.
# ввести текст в поле ввода
driver.find_element_by_pro('TW8OyV0w6Mutzzr').send_keys('shoe')
# нажать клавишу Enter
driver.switch_to.active_element.send_keys(Keys.ENTER)
time.sleep(3)
Скопируйте код из расширения и протестируйте код до этого момента...
Получение данных
Отлично! Итак, давайте продолжим запись, после ввода ключевого слова на веб-сайте Passion Planner, наведите курсор на заголовок продукта, щелкните правой кнопкой мыши и выберите "Скопировать текст" для получения текста продукта.
Теперь, аналогичным образом вы можете получить заголовок, ссылку и цену. В расширении ваше действие будет имитировано следующим образом:
# для получения текста элемента
product_name = list_element.find_element_by_pro('wAE6iYHpMfWx0SS').text
# для получения ссылки элемента
product_link = list_element.find_element_by_pro('z2s4Bvb7irnlwF2').get_attribute('href')
# для получения текста элемента
price = list_element.find_element_by_pro('xWAq1pJlQ02gaiE').text
# для получения текста элемента
reviews = list_element.find_element_by_pro('qr4FES3kLZ9gX9K').text
Мы закончили здесь... Поверьте или нет.
from selenium import webdriver
import time
from selenium.webdriver.common.keys import Keys
driver = webdriver.Chrome()
# открыть URL в браузере
driver.get('https://ninewest.com/')
time.sleep(3)
# нажать на поле ввода
driver.find_element_by_id('search').click()
time.sleep(1)
# ввести текст в поле ввода
driver.find_element_by_id('search').send_keys('обувь')
# нажать клавишу Enter
driver.switch_to.active_element.send_keys(Keys.ENTER)
time.sleep(3)
# получить текст элемента
product_name = driver.find_element_by_class_name('product-name').text
# получить ссылку на элемент
product_link = driver.find_element_by_class_name('product-link').get_attribute('href')
# получить текст элемента
price = driver.find_element_by_class_name('product-price').text
# получить текст элемента
reviews = driver.find_element_by_class_name('product-reviews').text
Запуск этой программы
Чтобы запустить эту программу, скопируйте код из расширения и сохраните его как файл .py > откройте терминал / командную строку и введите следующую команду:
python3 ПУТЬ/К/ВАШЕМУ/ФАЙЛУ.PY
Или, если вы используете среду разработки, такую как Pycharm, просто запустите программу в ней. Когда вы запустите эту программу, вы увидите, что открывается браузер Chrome, он будет ждать несколько секунд, а затем выведет точки данных в консоль Python!
Поздравляю! Я рекомендую вам поискать способы улучшить этот проект: можно ли добавить интерфейс, где люди могут размещать свои ссылки? Можно ли добавить цикл для парсинга всех ссылок и текста со всех страниц? В остальном, вам следует гордиться собой за то, что вы прошли этот учебник!