Парсинг веб-страниц с использованием Python и BeautifulSoup
Table Of Content
- Что такое парсинг веб-страниц?
- Beautiful Soup
- Установка библиотеки Beautiful Soup
- Использование менеджера пакетов Linux
- Использование easy_install или pip
- Парсинг веб-страницы
- Документация Beautiful Soup - Beautiful Soup 4.9.0 документация
- Beautiful Soup - это библиотека Python для извлечения данных из HTML и XML файлов. Она работает с вашим любимым парсером для...
автор: Ахмад Рифаи
Задание UAS Big Data Analytic
выполняется самостоятельно, так как группу невозможно связаться😀
#STIMIKAKAKMOYOGYAKARTA #AKAKOM
Что такое парсинг веб-страниц?
Парсинг веб-страницы - это один из методов, которые мы можем использовать для сбора данных из Интернета. Мы выполняем парсинг, если хотим извлечь информацию с веб-сайта напрямую, используя протокол HTTP.
Парсинг веб-страниц может быть решением для получения информации с веб-сайта, если этот сайт не предоставляет API для получения информации.
Beautiful Soup
Beautiful Soup является библиотекой Python, которая позволяет легко и быстро выполнять парсинг веб-страниц. Преимущества Beautiful Soup включают:
Установка библиотеки Beautiful Soup
Согласно официальной документации Beautiful Soup 1, установка может быть выполнена несколькими способами:
Использование менеджера пакетов Linux
Если вы используете операционную систему Ubuntu или другой дистрибутив на базе Debian, вы можете установить Beautiful Soup с помощью менеджера пакетов:
Использование easy_install или pip
Парсинг веб-страницы
Здесь мы попробуем выполнить парсинг нашего любимого сайта mojok.co, чтобы получить список статей в разделе Редакционный выбор
Перед тем, как выполнять парсинг, нам нужно изучить структуру HTML целевого сайта (MOJOK.co). Мы можем использовать встроенные инструменты Chrome или другого браузера для выполнения инспекции элемента и поиска идентификатора или класса, используемого в HTML-элементе этого сайта. Найдите уникальный идентификатор или класс для этого элемента.
Из инспекции элемента выше мы видим, что статьи редакционного выбора находятся внутри элемента <section id=”cb-section-a” … >
, поэтому первый ключ к выполнению парсинга в этом случае - найти элемент section с идентификатором cb-section-a.
Сначала импортируем библиотеки, которые мы собираемся использовать, и объявляем URL-адрес сайта MOJOK.co
Затем, если мы внимательно рассмотрим структуру сайта, внутри section с идентификатором cb-section-a каждая ссылка на статью находится в теге <article>
с заголовком 2-го уровня (h2). См. изображение ниже:
Затем мы получаем все элементы с тегом <article>
и разбираем их, чтобы получить список заголовков статей.
Запустите приведенный выше код и получите следующий результат:
Ссылка на источник
Документация Beautiful Soup - Beautiful Soup 4.9.0 документация
Beautiful Soup - это библиотека Python для извлечения данных из HTML и XML файлов. Она работает с вашим любимым парсером для...
https://devtrik.com/python/web-scraping-dengan-python-dan-beautifulsoup/