ПАРСИНГ ВЕБ-САЙТА (УЧЕБНЫЙ ПРИМЕР С UPWORK)
Table Of Content
Для тех из вас, кто изучает парсинг веб-сайтов, давайте сделаем это вместе. Вот уже есть пример с upwork, как на картинке ниже
В этом примере нам предлагается спарсить веб-сайт. Запрашиваемые данные:
- номер дела
- судья
- стороны
- текст решения
Для вашей информации: я буду делать парсинг веб-сайта на Python с использованием библиотек requests и beautifulsoup4.
Хорошо, приступим
Сначала установите библиотеку requests и beautifulsoup через командную строку или терминал (можно использовать PyCharm).
>>pip install requests
>>pip install beautifulsoup4
После этого импортируйте две библиотеки в проект.
Перед парсингом мы сначала проверяем веб-сайт, который будем парсить.
pict 1
pict 2
С веб-сайта можно выделить 3 части, как показано в коде ниже.
Первая - получение ссылки, это полезно для получения ссылки на каждое дело на картинке 2, или это также можно назвать пагинацией.
Далее идет получение содержимого, которое полезно для получения требуемых данных (картинка 2), таких как номера дел, судей, сторон и текст решения.
Последнее - запуск, это программа, которая запускает две предыдущие программы (комбинация get link и get content).
Следующий шаг - инспектирование элемента, чтобы узнать HTML-теги на веб-сайте. Как инспектировать элемент: щелкните правой кнопкой мыши на веб-сайте, затем выберите "Инспектировать". Веб-сайт будет выглядеть как на изображении ниже.
Отсюда мы можем определить, какие данные нам нужны и какие теги используются. Затем мы парсим их с помощью библиотек requests и beautifulsoup4. Таким образом, код становится следующим:
Результат вывода показан ниже
Надеюсь, эта статья будет полезна для вас.
Спасибо.