Как парсить данные с помощью Python с сайта Sole Stage
Table Of Content
- Базовое введение, которое можно пропустить, я скопировал из другой статьи
- Установка расширения
- Давайте начнем!
- Одноэтапный конвейер
- открыть URL в браузере
- чтобы нажать на найденный элемент
- чтобы нажать на поле ввода
- чтобы ввести содержимое в поле ввода
- чтобы нажать на найденный элемент (Показать все)
- Получение данных
- для получения текста элемента
- для получения ссылки на элемент
- для получения текста элемента
- открыть URL в браузере
- кликнуть на найденный элемент
- кликнуть на поле ввода
- ввести текст в поле ввода
- нажать клавишу Enter
- кликнуть на найденный элемент (Показать все)
- получить текст элемента
- получить ссылку элемента
- получить текст элемента
- Запуск этой программы
Добро пожаловать снова... Ведущая компания по продаже кроссовок, уличной одежды и коллекционных предметов. Мы будем использовать Python, поэтому, если у вас нет опыта работы с этим языком, рекомендуется освежить свои знания по нему.
Как всегда, перед парсингом данных с веб-страницы, нам нужно определить конкретные данные, которые мы хотим получить. После просмотра страницы я сразу увидел множество различных данных, которые мы можем получить. В этом проекте мы будем парсить название продукта, ссылку на продукт и цену.
Давайте начнем!
Базовое введение, которое можно пропустить, я скопировал из другой статьи
Прежде всего, нам понадобится установить Python, убедитесь, что у вас установлен Python и некоторая среда разработки. Selenium pro - это пакет для парсинга веб-страниц, который позволяет нам имитировать веб-браузер с помощью Python, лучше иметь более глубокое понимание парсинга веб-страниц. Пакет Selenium pro - https://pypi.org/project/selenium-pro/
pip install selenium-pro
Установка расширения
Загрузите Selenium Auto Code Generator из Chrome Web Store, вместо копирования и вставки xpath, это инструмент поможет и упростит процесс, без необходимости копирования и вставки. Загрузить отсюда - https://chrome.google.com/webstore/detail/selenium-auto-code-genera/ocimgcpcnobcnmclomhhmjidgoiekeaf/related
Давайте начнем!
Теперь, когда мы настроили наше окружение Python, давайте откроем пустой скрипт Python. Давайте импортируем пакет Selenium pro, который вы, надеюсь, предварительно установили из предыдущего абзаца (просто выполните pip install selenium-pro). После установки импортируйте следующие пакеты:
from selenium_pro import webdriver
import time
from selenium_pro.webdriver.common.keys import Keys
Мы используем браузер Google Chrome в качестве нашего графического интерфейса, но вы можете использовать другие браузеры в Selenium pro, если хотите использовать другой браузер, пожалуйста, используйте его! Убедитесь, что соответствующий браузер установлен на вашем компьютере.
Теперь, внутри Selenium pro, нам нужно определить наш веб-браузер, поэтому давайте сделаем это с помощью следующей строки кода:
driver = webdriver.Start()
Я рекомендую запустить весь ваш код до этого момента и проверить, успешно ли он выполняется, если да, то вы практически готовы продолжать!
Одноэтапный конвейер
Далее самая интересная часть, нажмите на расширение DK, которое мы установили ранее, и нажмите "начать запись". Эта задача определенно не будет сложной, но к счастью у вас есть я.
Откройте веб-сайт Sole Stage и добавьте задержку в 3 секунды для загрузки веб-сайта, а затем выполните поиск ключевого слова на веб-сайте и нажмите Enter. Чтобы добавить задержку, щелкните правой кнопкой мыши на экране, выберите "wait" -> 3. Теперь, если вы нажмете на расширение, вы увидите следующий код:
# открыть URL в браузере
driver.get('https://www.solestage.com/')
time.sleep(2)
Отлично! Это указывает нашему браузеру Chrome Python на этот конкретный веб-сайт, функция "time.sleep(3)" просто говорит Python подождать 3 секунды перед продолжением, это необязательно, но я все равно добавил это.
После этого расширение будет искать идентификатор с помощью driver.find_element_by_pro и выполнит клик(), событие клика нажмет на идентификатор:
# чтобы нажать на найденный элемент
driver.find_element_by_pro('IxKdduIfK77DiYU').click()
time.sleep(2)
# чтобы нажать на поле ввода
driver.find_element_by_pro('5bB0WzWzLDjyEi1').click()
и send_keys('shoe') введет ключевое слово "shoe", а click() нажмет на выбранный ключ:
# чтобы ввести содержимое в поле ввода
driver.find_element_by_pro('hNACNLpv9nfgMe2').send_keys('shoe')
# чтобы нажать на найденный элемент (Показать все)
driver.find_element_by_pro('wUf3QMc5pJXB6ub').click()
Скопируйте код из расширения и протестируйте код до этого момента.
Получение данных
Отлично! Итак, давайте продолжим запись, после ввода ключевого слова на веб-сайте Passion Planner, наведите курсор на заголовок продукта, щелкните правой кнопкой мыши и выберите "Скопировать" -> "Текст", чтобы получить текст продукта.
Теперь, аналогичным образом вы можете получить заголовок, ссылку, отзыв и цену. В расширении ваше действие будет имитировано следующим образом:
# для получения текста элемента
product_name = list_element.find_element_by_pro(‘4oYhSYHGaNTzAd1’).text
# для получения ссылки на элемент
product_link = list_element.find_element_by_pro(‘aEAUk4Vmzwa43hS’).get_attribute(‘href’)
# для получения текста элемента
price = list_element.find_element_by_pro(‘DCFgyQHtTpqKcC9’).text
Мы закончили... Верьте или нет.
from selenium import webdriver
import time
from selenium.webdriver.common.keys import Keys
driver = webdriver.Chrome()
# открыть URL в браузере
driver.get('https://www.solestage.com/')
time.sleep(2)
# кликнуть на найденный элемент
driver.find_element_by_id('IxKdduIfK77DiYU').click()
time.sleep(2)
# кликнуть на поле ввода
driver.find_element_by_id('5bB0WzWzLDjyEi1').click()
# ввести текст в поле ввода
driver.find_element_by_id('hNACNLpv9nfgMe2').send_keys('sho')
# нажать клавишу Enter
driver.switch_to.active_element.send_keys(Keys.ENTER)
# кликнуть на найденный элемент (Показать все)
driver.find_element_by_id('wUf3QMc5pJXB6ub').click()
time.sleep(3)
# получить текст элемента
product_name = driver.find_element_by_id('4oYhSYHGaNTzAd1').text
# получить ссылку элемента
product_link = driver.find_element_by_id('aEAUk4Vmzwa43hS').get_attribute('href')
# получить текст элемента
price = driver.find_element_by_id('DCFgyQHtTpqKcC9').text
Запуск этой программы
Чтобы запустить эту программу, скопируйте код из расширения и сохраните его как файл .py > откройте терминал / командную строку и введите следующую команду:
python3 ПУТЬ/К/ВАШЕМУ/ФАЙЛУ.PY
Или, если вы используете среду разработки, такую как Pycharm, просто запустите программу в ней. Когда вы запустите эту программу, вы увидите, что открывается браузер Chrome, он будет ждать несколько секунд, а затем выведет точки данных в консоль Python!
Поздравляю! Я рекомендую вам поискать способы улучшить этот проект: можете ли вы добавить интерфейс, где пользователи могут размещать свои ссылки? Можете ли вы добавить цикл для парсинга всех ссылок и текста со всех страниц? В противном случае, вам следует гордиться собой за то, что вы прошли через этот учебник!