Парсинг веб-сайта с помощью RStudio для определения любимого жанра на веб-сайте IMDb в 2016 году
Table Of Content
Assalamualaikum, друзья!
На этот раз я поделюсь своим опытом извлечения данных из веб-сайта с помощью пакета "rvest" в RStudio.
Мы будем извлекать данные с веб-сайта IMDb (Интернет-база данных фильмов), которые представлены в виде списка, упорядоченного по популярности.
Если вы хотите увидеть список популярных фильмов за 2016 год, вы можете использовать ссылку https://www.imdb.com/search/title/?title_type=feature&release_date=2016-01-01,2016-12-31&count=100&view=advanced, или если вы хотите найти фильмы других годов, просто измените год в ссылке.
Для начала подготовьте пакеты xml2 и rvest в RStudio.
Затем введите ссылку на веб-сайт в следующий синтаксис для данных с этого веб-сайта.
Затем, когда вы будете извлекать данные о доходе и жанре с веб-сайта, используйте RStudio.
Используйте селектор гаджет, который уже скачан.
Затем перейдите на страницу веб-сайта, которую вы хотите использовать. В этот раз мы сначала будем использовать данные о доходе.
Затем используйте RStudio для продолжения.
Затем появится следующий вывод.
Оказывается, что только 92 фильма имеют данные о доходе, поэтому давайте попробуем найти, какой фильм не имеет данные о доходе.
Затем выполните следующую команду.
Тогда результат будет следующим.
Затем для извлечения данных о жанре можно использовать следующий синтаксис.
Это приведет к следующему output:
Затем,
Затем,
Затем,
После завершения соберем данные в виде фрейма данных.
Результат:
Затем мы создадим визуализацию полученных данных с помощью следующей команды.
Результат:
и также
Из визуализации выше видно, что фильмы жанра "Action" получают наибольший доход, а фильмы жанра "Crime" получают наименьший доход.
Это все для парсинга веб-сайтов. Надеюсь, это будет полезно для всех вас, друзья.
Основная ссылка:
Hakim, R. F. (2019, September 25). Web Scraping dengan R. From Medium.com: https://medium.com/@986110101/web-scraping-dengan-r-53d07fb81fc9