CoderCastrov logo
CoderCastrov
Питон

Парсинг веб-страниц с использованием Python и BeautifulSoup

Парсинг веб-страниц с использованием Python и BeautifulSoup
просмотров
2 мин чтение
#Питон

автор: Ахмад Рифаи

Задание UAS Big Data Analytic

выполняется самостоятельно, так как группу невозможно связаться😀

#STIMIKAKAKMOYOGYAKARTA #AKAKOM

Что такое парсинг веб-страниц?

Парсинг веб-страницы - это один из методов, которые мы можем использовать для сбора данных из Интернета. Мы выполняем парсинг, если хотим извлечь информацию с веб-сайта напрямую, используя протокол HTTP.

Парсинг веб-страниц может быть решением для получения информации с веб-сайта, если этот сайт не предоставляет API для получения информации.

Beautiful Soup

Beautiful Soup является библиотекой Python, которая позволяет легко и быстро выполнять парсинг веб-страниц. Преимущества Beautiful Soup включают:

Установка библиотеки Beautiful Soup

Согласно официальной документации Beautiful Soup 1, установка может быть выполнена несколькими способами:

Использование менеджера пакетов Linux

Если вы используете операционную систему Ubuntu или другой дистрибутив на базе Debian, вы можете установить Beautiful Soup с помощью менеджера пакетов:

Использование easy_install или pip

Парсинг веб-страницы

Здесь мы попробуем выполнить парсинг нашего любимого сайта mojok.co, чтобы получить список статей в разделе Редакционный выбор

Перед тем, как выполнять парсинг, нам нужно изучить структуру HTML целевого сайта (MOJOK.co). Мы можем использовать встроенные инструменты Chrome или другого браузера для выполнения инспекции элемента и поиска идентификатора или класса, используемого в HTML-элементе этого сайта. Найдите уникальный идентификатор или класс для этого элемента.

Из инспекции элемента выше мы видим, что статьи редакционного выбора находятся внутри элемента <section id=”cb-section-a” … >, поэтому первый ключ к выполнению парсинга в этом случае - найти элемент section с идентификатором cb-section-a.

Сначала импортируем библиотеки, которые мы собираемся использовать, и объявляем URL-адрес сайта MOJOK.co

Затем, если мы внимательно рассмотрим структуру сайта, внутри section с идентификатором cb-section-a каждая ссылка на статью находится в теге <article> с заголовком 2-го уровня (h2). См. изображение ниже:

Затем мы получаем все элементы с тегом <article> и разбираем их, чтобы получить список заголовков статей.

Запустите приведенный выше код и получите следующий результат:

Ссылка на источник

Документация Beautiful Soup - Beautiful Soup 4.9.0 документация

Beautiful Soup - это библиотека Python для извлечения данных из HTML и XML файлов. Она работает с вашим любимым парсером для...

www.crummy.com

https://devtrik.com/python/web-scraping-dengan-python-dan-beautifulsoup/