История веб-майнинга и его потребности
С таким большим количеством работ, выполняемых в области веб-майнинга, вместе с ростом спроса со стороны бизнеса и все большим количеством контента в сети, становится все более сложным собирать актуальный контент в кратчайшие сроки. Давайте разберемся, как это работает.
Сначала понимаем основы
Веб-сайт против веб-страницы против URL-адреса
Термины веб-сайт и веб-страница часто используются взаимозаменяемо в области интернета и просмотра, но у них есть много различий.
«Веб-страница содержится внутри веб-сайта»
Веб-сайт - это совокупность нескольких веб-страниц, связанных между собой с помощью гиперссылок. Все веб-страницы связаны под одним доменом, чтобы уникально идентифицировать веб-сайт.
Например:
Веб-сайт: https://www.amazon.com/
Эта страница представляет собой страницу конкретного продукта на веб-сайте Amazon.
URL: Unified Resource Locator (Унифицированный указатель ресурса)
Каждая веб-страница прикреплена к уникальному URL-адресу, используемому для отображения или доступа к этой конкретной странице.
В приведенном выше примере URL веб-страницы:
Веб-страница - это один документ или файл, отображаемый веб-браузером с использованием определенного URL-адреса.
Веб-сайт - это совокупность одной или нескольких веб-страниц. Веб-браузеры используются для доступа к таким веб-страницам с использованием определенных URL-адресов, прикрепленных к веб-сайту.
Доменное имя:
URL - это строка информации, предоставляющая полный адрес веб-страницы в Интернете. В то же время доменное имя является частью URL-адреса, которая представляет собой удобочитаемую форму IP-адреса. Мы используем URL для идентификации конкретной веб-страницы.
«Доменное имя содержится внутри данного URL»
Веб-страница - это отдельный документ в Интернете под уникальным URL. В отличие от этого, веб-сайт - это совокупность нескольких веб-страниц, в которых информация по связанной теме или другой теме связана под доменным адресом.
Например, www.amazon.com - это доменное имя.
URL: страница входа в Amazon с URL-адресом: https://www.amazon.com/ap/signin?openid.pape.max_auth_age=0&openid.return_to=https%3A%2F%2Fwww.amazon.com%2F%3Fref_%3Dnav_signin&openid.identity=http%3A%2F%2Fspecs.openid.net%2Fauth%2F2.0%2Fidentifier_select&openid.assoc_handle=usflex&openid.mode=checkid_setup&openid.claimed_id=http%3A%2F%2Fspecs.openid.net%2Fauth%2F2.0%2Fidentifier_select&openid.ns=http%3A%2F%2Fspecs.openid.net%2Fauth%2F2.0&
Имеет то же доменное имя «www.amazon.com» как часть URL.
Парсинг веба против обхода веба против веб-майнинга
Парсинг веба в основном заключается в извлечении данных с веб-сайтов автоматическим образом с использованием ботов для скрапинга информации или контента с веб-сайтов.
Это также включает форматирование этих данных в более удобный формат, такой как таблица Excel.
Он включает в себя поиск данных и их извлечение. Он не копирует и не вставляет, а сразу получает данные точным и точным образом.
Концепция скрапинга не ограничивается вебом, а означает скрапинг любого конкретного вида информации из любого заданного набора документов с помощью автоматических процессов.
Например, для анализа ценовой политики необходимо извлечь цену различных/конкретных продуктов с Amazon или любого другого электронного коммерческого сайта.
Скрапинг веба в основном нацелен на конкретные веб-сайты для получения конкретных данных, например, для данных о фондовом рынке, бизнес-лидов, скрапинга продуктов поставщика.
Хопы: хоп в терминологии обхода означает переход с одной страницы на другую через гиперссылки, указанные на исходной странице.
Обход веба
Обход веба - это процесс перехода с текущей веб-страницы на другую веб-страницу с использованием подсказок ссылок на текущей веб-странице. Если при обходе веб-страницы веб-скрепер выбирает извлечение контента или данных с этой страницы, то происходит скрапинг веба вместе с обходом веба. Процесс обхода веба начинается с предоставления начального URL-адреса(ов) веб-скреперу. Веб-скреперу также предоставляются подсказки о том, когда остановиться. Например, когда количество просмотренных страниц достигает некоторого предела или когда скрепер закончил переходить по некоторому фиксированному количеству хопов, начиная с начальных URL-адресов.
«Обход веба может включать или не включать скрапинг веба»
Например, обход веба обычно выполняется Google, Yahoo, Bing и т. д., ищущими любую информацию.
Веб-майнинг:
Data mining против web mining
«Когда data mining выполняется над данными, извлеченными из веба, это называется веб-майнингом»
Мы можем сказать, что для веб-майнинга необходимо использовать инструменты обхода веба, чтобы сначала перейти на веб-страницы, затем использовать скрапинг веба для извлечения и сбора данных с целевых страниц, а затем техники data mining для анализа данных, собранных наборов данных, которые позволяют обнаружить новую информацию, скрытые шаблоны и поведение.
В отличие от поисковых систем, которые отправляют агентов для обхода веба в поисках ключевых слов, агенты WM гораздо более интеллектуальны.
Фокусированный обход:
Фокусированный обход - это веб-обходчик, который собирает веб-страницы, которые удовлетворяют некоторому конкретному свойству.
Он работает на основе некоторого вида интеллекта, который настраивается в соответствии с конкретным деловым случаем и выбранным инструментом.
Например, «обход страниц о covid»
Интеллект внутри фокусированного обходчика способен предсказывать, нужно ли продолжать обход последующих URL на определенной странице или нет, на основе многих факторов, таких как содержание страницы, якорные ссылки, структура URL и т. д.
Количество хопов определяет глубину, на которую обходчик или паук способен переходить на данной входной странице.
Фокусированные обходчики - это шаг к возможности выполнения специализированного обхода для удовлетворения конкретной потребности, например, сбора контента по конкретной теме или домену.
Недостатком фокусированных обходчиков является то, что они не выходят за рамки страниц, указанных в исходном списке URL-адресов пользователем.
Хотя они могут обнаруживать больше URL-адресов в процессе обхода, эти новообнаруженные URL-адреса являются частями страниц, встроенных в исходные страницы, отображаемые из списка входных URL-адресов.
Это означает, что входной список каким-то образом контролирует ширину собираемых связанных данных, открывая только страницы, упомянутые в них в гиперссылках на разных уровнях глубины в самих этих страницах.
Фокусированный обходчик не может обнаружить никакой веб-контент, который является совершенно новым и актуальным и не связан ни с одним из входных URL-адресов на любом уровне глубины.
Что нам нужно сейчас?
В то время как фокусированные парсеры в значительной степени помогают в сборе информации из интернета по определенной теме или предмету, по-прежнему существует огромный разрыв между результатами, полученными с помощью фокусированных парсеров, и тем, что фактически требуется и необходимо для выполнения хорошей работы по сбору информации из интернета, чтобы удовлетворить потребности промышленности.
Вот почему весь процесс все еще в высокой степени зависит от человеческого опыта и, в некотором смысле, ограничен им.