CoderCastrov logo
CoderCastrov
Парсер

Как собирать данные с веб-сайтов? - Использование Web Data Extractor

Как собирать данные с веб-сайтов? - Использование Web Data Extractor
просмотров
3 мин чтение
#Парсер

В этой статье я расскажу вам, как собрать данные пакетно с помощью программы Web Data Extractor с иллюстрациями.

Прежде всего, этот материал предназначен только для информационных целей и предоставляет вам информацию о том, как использовать такие программы. Указывая на то, что мы не несем никакой юридической ответственности за использование этой программы и за использование данных, которые вы собираете, я расскажу вам о том, как использовать программу.

Что такое Web Data Extractor, программное обеспечение для сбора данных из Интернета?

Web Data Extractor Pro - это специальный инструмент для сбора данных путем парсинга (анализа и извлечения данных) различных типов информации. Он может собирать URL-адреса, номера телефонов и факсов, адреса электронной почты, мета-теги и любой текст из тела веб-страницы. Особенностью этой программы является извлечение структурированных данных.

Ниже приведено видео, снятое разработчиком приложения.

Использование Web Data Extractor

Я обычно использовал эту программу, когда работал в медицинской отрасли, чтобы собирать актуальную информацию о врачах, такую как адреса, телефоны, электронные адреса, ФИО, веб-сайты и специализации, чтобы планировать посещения команды на местах. Она очень помогала мне.

ИНТЕРФЕЙС ПРОГРАММЫ

Когда мы нажимаем кнопку "New session", появляется следующее окно. Здесь есть несколько полезных функций.

Если мы хотим только собрать адреса электронной почты, то в программе есть раздел "emails", который нам подойдет. Мы можем указать только один сайт и извлечь данные со всей его структуры, а также можем собирать данные с поисковых систем. Я чаще всего использовал модуль "URL list", который позволяет собирать данные с веб-сайтов, где страницы с деталями имеют фиксированный HTML-код. Если страницы с деталями веб-сайта индексируются по отдельности, то это упрощает задачу. Но также можно собирать данные с категорийных страниц, где врачи перечислены в соответствии с определенными фильтрами. В зависимости от потребностей можно сохранить список URL-адресов в текстовый файл и передать его в программу.

Пример такого списка:

Предположим, у нас есть сайт doktorlarinbulundugusite.com (это вымышленный пример) и мы хотим получить список дерматологов в Стамбуле.

doktorlarinbulundugusite.com/istanbul/dermataloji

Страницы с деталями врачей в этой категории могут выглядеть следующим образом:

doktorlarinbulundugusite.com/istanbul/dermataloji/doktor-b

Если у нас есть такой список, то задача становится проще. Мы можем собирать данные как с индексированных страниц Google.

Для этого достаточно ввести следующий запрос в Google:

site:doktorlarinbulundugusite.com/istanbul/dermataloji/*

Если такого разделения нет, то нам придется сначала извлечь ссылки со страниц категорий, переходя по номерам страниц, а затем собирать данные с детальных страниц.

Например, так:

doktorlarinbulundugusite.com/istanbul/dermataloji/liste1

doktorlarinbulundugusite.com/istanbul/dermataloji/liste2

doktorlarinbulundugusite.com/istanbul/dermataloji/liste3

Когда мы собираем данные с детальных страниц или страниц категорий, нам не нужно переходить на подстраницы, так как мы собираем только одну страницу HTML-данных. Поэтому мы оставляем поле "depth" только с отметкой "One page only". Важной частью является раздел "Custom Data".

Custom Data позволяет нам определить данные, которые мы хотим извлечь. Мы можем назвать каждый набор данных отдельно. Затем в Excel будут созданы столбцы с названиями.

Custom Data Editor - это редактор, позволяющий нам выбрать нужные данные на странице. Он очень удобен в использовании.

Допустим, мы хотим извлечь адрес врача. Мы выбираем адрес с помощью мыши в разделе Visual Builder и нажимаем кнопку "Capture First Selected Text" в левом нижнем углу. Затем мы вводим HTML-код, предшествующий выбранному тексту, и HTML-код, следующий за ним, в соответствующие поля в правой части. Мы определяем уникальные HTML-коды, чтобы извлечь нужный текст. Это можно сделать, изучая HTML-код.

После нажатия кнопки "OK" адрес будет сохранен во вкладке "Data1". Мы можем повторить этот процесс для других данных и, когда нажмем кнопку "Start", программа будет последовательно переходить по ссылкам из списка URL-адресов и собирать данные, сохраняя их в Excel.

НИЖЕ ПРЕДСТАВЛЕН ПРИМЕР СОБРАННЫХ ДАННЫХ

Вы можете скачать данные в формате Excel и других форматах, как показано на следующем экране.

Если вам понравилась статья, не забудьте оставить комментарий, поделиться и поставить лайк.