С таким большим количеством работ, выполняемых в области веб-майнинга, вместе с ростом спроса со стороны бизнеса и все большим количеством контента в сети, становится все более сложным собирать актуальный контент в кратчайшие сроки. Давайте разберемся, как это работает.

Сначала понимаем основы

Веб-сайт против веб-страницы против URL-адреса

Термины веб-сайт и веб-страница часто используются взаимозаменяемо в области интернета и просмотра, но у них есть много различий.

«Веб-страница содержится внутри веб-сайта»

Веб-сайт - это совокупность нескольких веб-страниц, связанных между собой с помощью гиперссылок. Все веб-страницы связаны под одним доменом, чтобы уникально идентифицировать веб-сайт.

Например:

Веб-сайт: https://www.amazon.com/

Веб-страница: https://www.amazon.com/Tracfone-Apple-iPhone-Prepaid-Smartphone/dp/B08CL4CCG2/ref=sr_1_1?dchild=1&keywords=iphone&qid=1611366593&sr=8-1

Эта страница представляет собой страницу конкретного продукта на веб-сайте Amazon.

URL: Unified Resource Locator (Унифицированный указатель ресурса)

Каждая веб-страница прикреплена к уникальному URL-адресу, используемому для отображения или доступа к этой конкретной странице.

В приведенном выше примере URL веб-страницы:

https://www.amazon.com/Tracfone-Apple-iPhone-Prepaid-Smartphone/dp/B08CL4CCG2/ref=sr_1_1?dchild=1&keywords=iphone&qid=1611366593&sr=8-1

Веб-страница - это один документ или файл, отображаемый веб-браузером с использованием определенного URL-адреса.

Веб-сайт - это совокупность одной или нескольких веб-страниц. Веб-браузеры используются для доступа к таким веб-страницам с использованием определенных URL-адресов, прикрепленных к веб-сайту.

Доменное имя:

URL - это строка информации, предоставляющая полный адрес веб-страницы в Интернете. В то же время доменное имя является частью URL-адреса, которая представляет собой удобочитаемую форму IP-адреса. Мы используем URL для идентификации конкретной веб-страницы.

«Доменное имя содержится внутри данного URL»

Веб-страница - это отдельный документ в Интернете под уникальным URL. В отличие от этого, веб-сайт - это совокупность нескольких веб-страниц, в которых информация по связанной теме или другой теме связана под доменным адресом.

Например, www.amazon.com - это доменное имя.

URL: страница входа в Amazon с URL-адресом: https://www.amazon.com/ap/signin?openid.pape.max_auth_age=0&openid.return_to=https%3A%2F%2Fwww.amazon.com%2F%3Fref_%3Dnav_signin&openid.identity=http%3A%2F%2Fspecs.openid.net%2Fauth%2F2.0%2Fidentifier_select&openid.assoc_handle=usflex&openid.mode=checkid_setup&openid.claimed_id=http%3A%2F%2Fspecs.openid.net%2Fauth%2F2.0%2Fidentifier_select&openid.ns=http%3A%2F%2Fspecs.openid.net%2Fauth%2F2.0&

Имеет то же доменное имя «www.amazon.com» как часть URL.

Парсинг веба против обхода веба против веб-майнинга

Парсинг веба в основном заключается в извлечении данных с веб-сайтов автоматическим образом с использованием ботов для скрапинга информации или контента с веб-сайтов.

Это также включает форматирование этих данных в более удобный формат, такой как таблица Excel.

Он включает в себя поиск данных и их извлечение. Он не копирует и не вставляет, а сразу получает данные точным и точным образом.

Концепция скрапинга не ограничивается вебом, а означает скрапинг любого конкретного вида информации из любого заданного набора документов с помощью автоматических процессов.

Например, для анализа ценовой политики необходимо извлечь цену различных/конкретных продуктов с Amazon или любого другого электронного коммерческого сайта.

Скрапинг веба в основном нацелен на конкретные веб-сайты для получения конкретных данных, например, для данных о фондовом рынке, бизнес-лидов, скрапинга продуктов поставщика.

Хопы: хоп в терминологии обхода означает переход с одной страницы на другую через гиперссылки, указанные на исходной странице.

Обход веба

Обход веба - это процесс перехода с текущей веб-страницы на другую веб-страницу с использованием подсказок ссылок на текущей веб-странице. Если при обходе веб-страницы веб-скрепер выбирает извлечение контента или данных с этой страницы, то происходит скрапинг веба вместе с обходом веба. Процесс обхода веба начинается с предоставления начального URL-адреса(ов) веб-скреперу. Веб-скреперу также предоставляются подсказки о том, когда остановиться. Например, когда количество просмотренных страниц достигает некоторого предела или когда скрепер закончил переходить по некоторому фиксированному количеству хопов, начиная с начальных URL-адресов.

«Обход веба может включать или не включать скрапинг веба»

Например, обход веба обычно выполняется Google, Yahoo, Bing и т. д., ищущими любую информацию.

Веб-майнинг:

Data mining против web mining

«Когда data mining выполняется над данными, извлеченными из веба, это называется веб-майнингом»

Мы можем сказать, что для веб-майнинга необходимо использовать инструменты обхода веба, чтобы сначала перейти на веб-страницы, затем использовать скрапинг веба для извлечения и сбора данных с целевых страниц, а затем техники data mining для анализа данных, собранных наборов данных, которые позволяют обнаружить новую информацию, скрытые шаблоны и поведение.

В отличие от поисковых систем, которые отправляют агентов для обхода веба в поисках ключевых слов, агенты WM гораздо более интеллектуальны.

Фокусированный обход:

Фокусированный обход - это веб-обходчик, который собирает веб-страницы, которые удовлетворяют некоторому конкретному свойству.

Он работает на основе некоторого вида интеллекта, который настраивается в соответствии с конкретным деловым случаем и выбранным инструментом.

Например, «обход страниц о covid»

Интеллект внутри фокусированного обходчика способен предсказывать, нужно ли продолжать обход последующих URL на определенной странице или нет, на основе многих факторов, таких как содержание страницы, якорные ссылки, структура URL и т. д.

Количество хопов определяет глубину, на которую обходчик или паук способен переходить на данной входной странице.

Фокусированные обходчики - это шаг к возможности выполнения специализированного обхода для удовлетворения конкретной потребности, например, сбора контента по конкретной теме или домену.

Недостатком фокусированных обходчиков является то, что они не выходят за рамки страниц, указанных в исходном списке URL-адресов пользователем.

Хотя они могут обнаруживать больше URL-адресов в процессе обхода, эти новообнаруженные URL-адреса являются частями страниц, встроенных в исходные страницы, отображаемые из списка входных URL-адресов.

Это означает, что входной список каким-то образом контролирует ширину собираемых связанных данных, открывая только страницы, упомянутые в них в гиперссылках на разных уровнях глубины в самих этих страницах.

Фокусированный обходчик не может обнаружить никакой веб-контент, который является совершенно новым и актуальным и не связан ни с одним из входных URL-адресов на любом уровне глубины.

Что нам нужно сейчас?

В то время как фокусированные парсеры в значительной степени помогают в сборе информации из интернета по определенной теме или предмету, по-прежнему существует огромный разрыв между результатами, полученными с помощью фокусированных парсеров, и тем, что фактически требуется и необходимо для выполнения хорошей работы по сбору информации из интернета, чтобы удовлетворить потребности промышленности.

Вот почему весь процесс все еще в высокой степени зависит от человеческого опыта и, в некотором смысле, ограничен им.

Следите за этим местом для получения дополнительной информации!!

История веб-майнинга и его потребности

Сначала понимаем основы

Что нам нужно сейчас?

Следите за этим местом для получения дополнительной информации!!