Парсинг страницы погоды (forecast.weather.gov) для начинающих - на русском языке.
Национальная метеорологическая служба
Жаркие и сухие условия с порывистым ветром от холодного фронта приводят к широкому распространению предупреждений о красных флагах и повышенной...
В данном учебнике будет представлено небольшое понимание процесса парсинга определенной веб-страницы, подходит для начинающих, которые хотят попробовать что-то простое, в том числе парсинг веб-страницы.
Сосредоточимся на основах и начнем, ребята!
"Есть два типа людей, которые скажут вам, что вы не можете изменить этот мир: те, кто боится попробовать, и те, кто боится, что вы добьетесь успеха." - Рэй Гофорт.
КРАТКАЯ ТЕОРИЯ
При выполнении процесса парсинга веб-страницы, нам, безусловно, следует знать несколько теоретических аспектов, которые поддерживают этот процесс.
Парсинг веб-страницы - это процесс извлечения данных или контента с веб-страницы, написанной на языках разметки, таких как XHTML и HTML, с целью анализа полученных данных или контента. Вкратце, это процесс извлечения данных с веб-страницы.
Наиболее очевидное преимущество парсинга веб-страницы заключается в том, что пользователь может извлекать данные с веб-страницы, а затем сравнивать или анализировать эти данные в соответствии с собственными потребностями. Однако важно помнить, что полученные данные не должны использоваться для негативных целей.
БИБЛИОТЕКА
Ну вот, наконец-то мы переходим к основной части этой страницы. Прежде чем начать процесс парсинга веб-сайта, давайте подготовим необходимые библиотеки. В этом уроке мы будем использовать 4 библиотеки:
После этого мы определяем веб-сайт, с которого мы будем извлекать данные. В этом уроке мы сосредоточимся на веб-сайте http://forecast.weather.gov, на котором содержатся данные о погоде.
УРОК
Вот шаги, которые нужно выполнить в этом уроке:
Первым делом импортируем библиотеки BeautifulSoup и Request в блокнот Jupyter. Библиотека BeautifulSoup используется для преобразования документа в формат UTF-8 и хорошо работает с библиотеками Python lxml и html5lib для парсинга документов, а библиотека Request используется для извлечения URL, который мы будем использовать.
Через библиотеку Request мы можем загрузить веб-страницу, с которой мы будем извлекать данные, включая ее долготу и широту.
После того, как данные на веб-странице получены, мы выполняем парсинг с помощью BeautifulSoup.
Исследуйте веб-страницу и найдите значение тега 'id' и присвойте его переменной.
Затем получите атрибут класса из тега 'id' и присвойте его переменной forecast_items. Функция find_all() используется для получения всех атрибутов класса на веб-странице.
Затем выведите HTML-код и используйте функцию prettify().
Затем мы определяем атрибуты класса для получения дополнительной информации о погоде и создаем 3 переменные: period, short_desc и temp.
Чтобы получить заголовок прогноза погоды, мы можем использовать 'title' из тега 'img'. После получения данных мы используем функцию prettify() для получения структурированных данных и выводим результат.
Мы должны повторить тег периода, чтобы получить название периода на несколько дней вперед.
Затем, используя 'tombstone-container', мы можем извлечь краткое описание, температуру и описание.
Чтобы данные о погоде были легко читаемыми, мы помещаем их в DataFrame Pandas и визуализируем их в виде таблицы.
И, поздравляю! Теперь у вас есть базовое понимание о простом парсинге веб-сайта. Удачи в написании кода!
Спасибо за прочтение этой статьи, если есть какие-либо ошибки, прошу прощения за них.
#STMIKAKAKOMYOGYAKARTA — STMIK Акаком Йогякарта.
Переведи введенный markdown код с английского на русский. Сохрани оригинальную разметку markdown и изображения на своих местах. Вместо слов scraping/scraper используй парсинг/парсер/парсить. Возвращай только markdown код, без дополнительного текста