Овладение Python с помощью создания парсера для самых популярных новостей на Kompas.com — Часть 2: Введение в BeautifulSoup и Requests
Table Of Content
- Запросы: HTTP для людей™ - Документация Requests 2.28.2
- Версия v2.28.2. ( Установка ) Requests - это элегантная и простая библиотека HTTP для Python, созданная для людей...
- requests
- Requests - это простая, но элегантная библиотека HTTP. Requests позволяет легко отправлять запросы HTTP/1.1...
- Beautiful Soup
- Загрузка | Документация | Зал славы | Для предприятий | Исходный код | История изменений | Группа обсуждения | Журнал ] Вы не...
- beautifulsoup4
- Beautiful Soup - это библиотека, которая упрощает извлечение информации с веб-страниц. Она работает с HTML или XML...
Доброе утро всем,
В этой статье мы продолжим наше путешествие по овладению Python с помощью создания парсера веб-страниц, который извлекает самые популярные новости с Kompas.com. В этой второй части мы познакомимся с двумя важными модулями, BeautifulSoup и Requests, которые будут необходимы для нашего парсера.
Requests
Requests - это библиотека HTTP для Python, которая упрощает процесс получения данных с веб-страницы. Она поддерживается CERT Gouvernemental — GOVCERT.LU и описывается как "элегантная и простая библиотека HTTP для Python, созданная для людей". С помощью модуля requests мы можем легко получать данные с веб-страницы, не затрагивая сложный код. Это так же просто, как ввод URL-адреса в вашем браузере, и данные просто появляются. Если вы хотите узнать больше о модуле requests, вы можете посетить их домашнюю страницу здесь:
Запросы: HTTP для людей™ - Документация Requests 2.28.2
Версия v2.28.2. ( Установка ) Requests - это элегантная и простая библиотека HTTP для Python, созданная для людей...
docs.python-requests.org
Вы также можете найти модуль requests на PyPi.org.
requests
Requests - это простая, но элегантная библиотека HTTP. Requests позволяет легко отправлять запросы HTTP/1.1...
pypi.org
Чтобы установить модуль requests, просто откройте терминал и введите этот код:
pip install requests
BeautifulSoup4
BeautifulSoup4 - это необходимый инструмент для парсинга веб-страниц, который сэкономил программистам бесчисленные часы работы. Он специально разработан для быстрых проектов, таких как парсинг страниц и предлагает более питоновский подход к разбору HTML и XML документов. Одной из его ключевых особенностей является возможность автоматического кодирования документов. С BeautifulSoup4 вы можете разбирать все, что вы ему даете, от ссылок до заголовков таблиц с жирным текстом. Домашняя страница проекта BeautifulSoup4 может быть найдена здесь:
Beautiful Soup
Загрузка | Документация | Зал славы | Для предприятий | Исходный код | История изменений | Группа обсуждения | Журнал ] Вы не...
И здесь на PyPi:
beautifulsoup4
Beautiful Soup - это библиотека, которая упрощает извлечение информации с веб-страниц. Она работает с HTML или XML...
pypi.org
Чтобы установить модуль BeautifulSoup4, просто откройте терминал и введите этот код:
pip install beautifulsoup4
Модуль Requests позволяет получать веб-данные, а Beautifulsoup4 позволяет извлекать эти данные в выбранном формате. Вместе они образуют идеальную комбинацию для парсинга веб-страниц.
В следующей статье я объясню, как использовать эти два модуля для извлечения данных о самых популярных новостях с сайта kompas.com. Следите за следующей статьей!