Парсинг веб-страниц (Web Scraping)
Table Of Content
- **Введение**
- **Парсинг (Scraping)**
- Парсинг веб-страниц
- Парсинг веб-страниц, сбор данных или извлечение данных из веб-сайтов - это техника сбора информации с веб-сайтов. Парсинг веб-страниц - это компьютерная техника извлечения информации с веб-сайтов.
- **Jsoup**
- jsoup Java HTML Parser, с лучшими возможностями DOM, CSS и jquery
- jsoup - это библиотека для работы с реальным HTML в Java. Она предоставляет удобный API для извлечения и...
- **Библиотека Jackson**
- Введение в класс ObjectMapper в Jackson | Baeldung
- В этой статье рассматривается класс ObjectMapper в Jackson - и как сериализовать Java-объекты в JSON и...
- Примеры кода на Java com.fasterxml.jackson.databind.ObjectMapper.convertValue
- Примеры кода на Java для использования метода convertValue() из библиотеки Jackson
- **Логика**
- **Пример**
Введение
При работе над веб-проектом иногда возникает ситуация, когда необходимо получить данные из Iframe или веб-страницы и отобразить их на нашем экране. С помощью парсинга веб-страниц (Web Scraping) мы можем легко получить только нужные данные и использовать их.
Iframe может быть загружен как объект URL и преобразован в строку HTML, но это может занять много времени (иногда более 10 секунд). Поэтому в таких случаях рекомендуется использовать планировщик (Scheduler)
, чтобы создать JSON файл, соответствующий особенностям каждого проекта (например, раз в месяц), и затем асинхронно или синхронно считывать этот JSON файл и отображать его.
Парсинг (Scraping)
Парсинг веб-страниц (Web Scraping) - это компьютерная техника извлечения информации с веб-сайтов. Полное название парсинга - Scraping
.
Парсинг веб-страниц
Парсинг веб-страниц, сбор данных или извлечение данных из веб-сайтов - это техника сбора информации с веб-сайтов. Парсинг веб-страниц - это компьютерная техника извлечения информации с веб-сайтов.
en.wikipedia.org
Парсинг веб-страниц - это компьютерная техника извлечения информации с веб-сайтов
Jsoup
Jsoup Library
- это библиотека для парсинга HTML в Java.
jsoup Java HTML Parser, с лучшими возможностями DOM, CSS и jquery
jsoup - это библиотека для работы с реальным HTML в Java. Она предоставляет удобный API для извлечения и...
Зависимость Maven
Библиотека Jackson
В Spring Boot для работы с форматом JSON используется библиотека Jackson Library
. В Spring необходимо добавить зависимость, но в Spring Boot она уже включена по умолчанию.
Введение в класс ObjectMapper в Jackson | Baeldung
В этой статье рассматривается класс ObjectMapper в Jackson - и как сериализовать Java-объекты в JSON и...
Примеры кода на Java com.fasterxml.jackson.databind.ObjectMapper.convertValue
Примеры кода на Java для использования метода convertValue() из библиотеки Jackson
Логика
- Использование библиотеки Jsoup для парсинга HTML
- Создание DTO (объект передачи данных) с необходимыми свойствами
- Извлечение нужных значений с помощью методов select и attr, и сохранение их в DTO
- Сохранение DTO в списке
- Вызов метода convertValue с помощью ObjectMapper
- Вызов метода writeValueAsString с помощью ObjectMapper
- Создание планировщика (scheduler)
- В методе планировщика вызывается создание JSON-файла
- Вызов метода чтения JSON-файла по необходимости