CoderCastrov logo
CoderCastrov
Stmik Akakom Йогякарта

Парсинг страницы погоды (forecast.weather.gov) для начинающих - на русском языке.

Парсинг страницы погоды (forecast.weather.gov) для начинающих - на русском языке.
просмотров
3 мин чтение
#Stmik Akakom Йогякарта

Национальная метеорологическая служба

Жаркие и сухие условия с порывистым ветром от холодного фронта приводят к широкому распространению предупреждений о красных флагах и повышенной...

www.weather.gov


В данном учебнике будет представлено небольшое понимание процесса парсинга определенной веб-страницы, подходит для начинающих, которые хотят попробовать что-то простое, в том числе парсинг веб-страницы.

Сосредоточимся на основах и начнем, ребята!

"Есть два типа людей, которые скажут вам, что вы не можете изменить этот мир: те, кто боится попробовать, и те, кто боится, что вы добьетесь успеха." - Рэй Гофорт.

КРАТКАЯ ТЕОРИЯ

При выполнении процесса парсинга веб-страницы, нам, безусловно, следует знать несколько теоретических аспектов, которые поддерживают этот процесс.

Парсинг веб-страницы - это процесс извлечения данных или контента с веб-страницы, написанной на языках разметки, таких как XHTML и HTML, с целью анализа полученных данных или контента. Вкратце, это процесс извлечения данных с веб-страницы.

Наиболее очевидное преимущество парсинга веб-страницы заключается в том, что пользователь может извлекать данные с веб-страницы, а затем сравнивать или анализировать эти данные в соответствии с собственными потребностями. Однако важно помнить, что полученные данные не должны использоваться для негативных целей.


БИБЛИОТЕКА

Ну вот, наконец-то мы переходим к основной части этой страницы. Прежде чем начать процесс парсинга веб-сайта, давайте подготовим необходимые библиотеки. В этом уроке мы будем использовать 4 библиотеки:

После этого мы определяем веб-сайт, с которого мы будем извлекать данные. В этом уроке мы сосредоточимся на веб-сайте http://forecast.weather.gov, на котором содержатся данные о погоде.

УРОК

Вот шаги, которые нужно выполнить в этом уроке:

Первым делом импортируем библиотеки BeautifulSoup и Request в блокнот Jupyter. Библиотека BeautifulSoup используется для преобразования документа в формат UTF-8 и хорошо работает с библиотеками Python lxml и html5lib для парсинга документов, а библиотека Request используется для извлечения URL, который мы будем использовать.

Через библиотеку Request мы можем загрузить веб-страницу, с которой мы будем извлекать данные, включая ее долготу и широту.

После того, как данные на веб-странице получены, мы выполняем парсинг с помощью BeautifulSoup.

Исследуйте веб-страницу и найдите значение тега 'id' и присвойте его переменной.

Затем получите атрибут класса из тега 'id' и присвойте его переменной forecast_items. Функция find_all() используется для получения всех атрибутов класса на веб-странице.

Затем выведите HTML-код и используйте функцию prettify().

Затем мы определяем атрибуты класса для получения дополнительной информации о погоде и создаем 3 переменные: period, short_desc и temp.

Чтобы получить заголовок прогноза погоды, мы можем использовать 'title' из тега 'img'. После получения данных мы используем функцию prettify() для получения структурированных данных и выводим результат.

Мы должны повторить тег периода, чтобы получить название периода на несколько дней вперед.

Затем, используя 'tombstone-container', мы можем извлечь краткое описание, температуру и описание.

Чтобы данные о погоде были легко читаемыми, мы помещаем их в DataFrame Pandas и визуализируем их в виде таблицы.

И, поздравляю! Теперь у вас есть базовое понимание о простом парсинге веб-сайта. Удачи в написании кода!


Спасибо за прочтение этой статьи, если есть какие-либо ошибки, прошу прощения за них.

#STMIKAKAKOMYOGYAKARTA — STMIK Акаком Йогякарта.


Переведи введенный markdown код с английского на русский. Сохрани оригинальную разметку markdown и изображения на своих местах. Вместо слов scraping/scraper используй парсинг/парсер/парсить. Возвращай только markdown код, без дополнительного текста