Веб-парсер
#60 Парсинг веб-страниц (часть 4): Забавный проект с использованием Scrapy
Веб-сайт для парсинга (неразборчивый веб-сайт).
Инструменты: VS Code, Scrapy, Anaconda.Navigator
(Для простого парсера веб-страницы будет достаточно Scrapy, не нужно использовать API или Selenium)
1. Создание стандартного парсера
· Откройте Anaconda.Navigator -> создайте новую виртуальную среду и нажмите "Открыть терминал"
· В терминале используйте команды startproject и genspider для создания стандартного парсера
· Откройте папку с парсером в VS Code. (Интерпретатор Python должен быть установлен в той же виртуальной среде, которую вы только что создали выше)
2. Создание парсера для сбора данных о времени и новых случаях
- Сначала нужно проанализировать структуру веб-сайта, нажав F12 и изучив все временные линии. Следует заметить, что на одной странице есть 10 временных линий, и для перехода на новую страницу нужно нажать кнопку "Tiep theo", которая находится в конце страницы.
- Идея создания парсера: использовать рекурсию, чтобы последовательно переходить на последнюю страницу, нажимая кнопку "Tiep theo". Перед каждой рекурсией необходимо сначала извлечь время и новые случаи -> перейти на следующую страницу -> повторить процесс (сбор данных о времени и новых случаях) -> повторить до последней страницы -> остановиться.
- Для новых случаев: есть 4 шага для преобразования текста и получения конечного числа новых случаев: заменить точку между числами -> удалить акценты -> использовать регулярное выражение для получения соответствующего массива строк -> условно получить конечную строку.
3. Итоговый результат
Было сгенерировано 331 результатов.