Парсинг веб-страниц (1/2)
Table Of Content
Я создал API, который извлекает определенные данные о населении Covid с сайта Worldometer. Он находится по ссылке здесь.
Вышеуказанные данные извлечены из таблицы Worldometers на этой ссылке.
Если сравнить таблицу Worldometers и ссылку на API для США, Индии и Бразилии, они идентичны, так как содержимое извлекается с сайта.
Этот метод называется парсинг веб-страниц.
Что такое парсинг веб-страниц?
В строгом определении: парсинг веб-страниц, сбор данных с веб-страниц или извлечение данных с веб-страниц - это сбор данных с веб-сайтов. Программное обеспечение для парсинга веб-страниц может получать доступ к Всемирной паутине напрямую с использованием протокола передачи гипертекста или через веб-браузер.
Пример парсинга веб-страниц: я хочу скопировать некоторую информацию с главной страницы Википедии, такую как сегодняшний материал или новости. Или я хочу извлечь информацию о своем любимом финансовом активе с финансового сайта.
Необходимая услуга
Парсинг веб-страниц полезен. Он позволяет эффективно и быстро извлекать информацию из разных ресурсов. Эти данные могут быть обработаны и очищены для получения полезных сведений. Они также важны для обучения искусственного интеллекта с использованием этих наборов данных. Без этих данных многие вещи станут гораздо сложнее, и многие модели искусственного интеллекта могут не работать. Кроме того, доступность этих данных, даже если это не приведет к созданию модели данных для искусственного интеллекта, может улучшить автоматизацию.
Является ли парсинг веб-страниц распространенным?
Да, является! Большинство компаний занимаются сбором и анализом данных для сбора информации для своих клиентов или улучшения своей конкурентоспособности. Это очень распространено в сфере B2B, где компании используют пауков для сбора данных из общедоступного домена[1].
Некоторые способы использования парсинга веб-страниц
- Недвижимость
- Финансовые активы
- Электронная почта / Имена / Контактные номера / Адреса / Любые профили людей
- Продукты (любые!) с любых сайтов
- Вакансии
- Новости
- Сбор бизнес-информации
Кто использует их?
Большинство компаний используют какую-либо форму услуг парсинга веб-страниц. Некоторые могут не непосредственно собирать или обходить данные, но они могут использовать услуги, которые это делают. Вас не удивит, что социальные медиа-платформы также используют парсинг веб-страниц, а также многие компании собирают данные с этих платформ.
Топ-5 компаний по парсингу веб-страниц [2]:
- DataHen
- Scraper Chrome Extension
- Octoparse
- Datahut
- PromptCloud
Полезен ли парсинг веб-страниц для отдельных лиц?
Да, полезен. Особенно если вам нужно собрать некоторые данные из множества информации в Интернете. Вы можете дополнительно отфильтровать полезную информацию и получить полезные сведения из этих данных. Многие исследователи делают это, например, подготавливают общедоступные данные из Интернета о раке груди. Это помогает нам принимать более обоснованные решения.
Я считаю, что это один из самых важных навыков.
Является ли парсинг веб-страниц незаконным?
Нет, не является. Даже Google использует парсинг, и большинство компаний тоже. Но вы можете нарушить условия использования (ToS). Вы можете столкнуться с гражданским иском, если повлияете на работу сервисов, которые вы парсите.
Пока это общедоступные данные, само по себе это не является незаконным (насколько я понимаю). Но это не означает, что вы должны начинать копировать данные. Проверьте, есть ли предоставленный API-сервис. Если его нет, посмотрите ToS или robots.txt.
Однако, если вы парсите сайт и превращаете его в коммерческое API, это обычно вызывает негативную реакцию. Поэтому важно получить разрешение, особенно для коммерческих субъектов.
Наслаждайтесь извлечением данных и автоматизацией своих задач с помощью этих данных!
Оригинальная статья опубликована на моей странице в Linkedin:
Создано: 18 ноября 2020
Ссылки