Парсинг веб-сайта с помощью RStudio для определения любимого жанра на веб-сайте IMDb в 2016 году

Assalamualaikum, друзья!

На этот раз я поделюсь своим опытом извлечения данных из веб-сайта с помощью пакета "rvest" в RStudio.

Мы будем извлекать данные с веб-сайта IMDb (Интернет-база данных фильмов), которые представлены в виде списка, упорядоченного по популярности.

Если вы хотите увидеть список популярных фильмов за 2016 год, вы можете использовать ссылку https://www.imdb.com/search/title/?title_type=feature&release_date=2016-01-01,2016-12-31&count=100&view=advanced, или если вы хотите найти фильмы других годов, просто измените год в ссылке.

Для начала подготовьте пакеты xml2 и rvest в RStudio.

Затем введите ссылку на веб-сайт в следующий синтаксис для данных с этого веб-сайта.

Затем, когда вы будете извлекать данные о доходе и жанре с веб-сайта, используйте RStudio.

Используйте селектор гаджет, который уже скачан.

Затем перейдите на страницу веб-сайта, которую вы хотите использовать. В этот раз мы сначала будем использовать данные о доходе.

Затем используйте RStudio для продолжения.

Затем появится следующий вывод.

Оказывается, что только 92 фильма имеют данные о доходе, поэтому давайте попробуем найти, какой фильм не имеет данные о доходе.

Затем выполните следующую команду.

Тогда результат будет следующим.

Затем для извлечения данных о жанре можно использовать следующий синтаксис.

Это приведет к следующему output:

Затем,

Затем,

Затем,

После завершения соберем данные в виде фрейма данных.

Результат:

Затем мы создадим визуализацию полученных данных с помощью следующей команды.

Результат:

и также

Из визуализации выше видно, что фильмы жанра "Action" получают наибольший доход, а фильмы жанра "Crime" получают наименьший доход.

Это все для парсинга веб-сайтов. Надеюсь, это будет полезно для всех вас, друзья.

Основная ссылка:

Hakim, R. F. (2019, September 25). Web Scraping dengan R. From Medium.com: https://medium.com/@986110101/web-scraping-dengan-r-53d07fb81fc9