Парсинг веб-сайта IMDB с помощью R Studio
Привет всем!! Ассаламу алейкум ва рахматуллахи ва баракатух..
Ранее я уже поделился с вами инструкцией о том, как парсить веб-сайт аниме-фильмов с помощью R Studio, которую вы можете найти по ссылке здесь. И сегодня я снова буду парсить веб-сайт, а именно IMDB, с фильмами, отсортированными по популярности в период с 2015 по 2019 год.
На этот раз я снова воспользуюсь программным обеспечением R Studio для парсинга веб-сайта. А почему мы используем R Studio? Вот ответ: ручной парсинг займет довольно много времени и часто подвержен ошибкам, а с помощью R Studio парсинг будет быстрее и точнее.
Кстати, вы уже знаете, что такое парсинг веб-сайта? Парсинг веб-сайта - это процесс извлечения или сбора данных с веб-сайта.
Подготовка к парсингу веб-страницы в R Studio
Шаги для выполнения парсинга веб-страницы
- Введите адрес веб-сайта, который вы хотите спарсить. В этом примере мы будем парсить веб-сайт imdb, отсортированный по популярности фильмов в 2015 году.
Результат будет выглядеть следующим образом,
- Извлеките данные из HTML-страницы.
Прежде чем извлекать данные, вам необходимо найти местоположение данных с помощью инструмента SelectorGadget. Инструкции по его установке и использованию можно найти здесь.
a. Длительность фильма
- Введите местоположение данных о длительности фильма, найденное с помощью SelectorGadget (.runtime).
Результат будет выглядеть следующим образом.
- Извлеките данные с веб-страницы в текстовом формате.
Результат будет выглядеть следующим образом,
- Очистите данные с помощью команды "gsub", как показано ниже.
Результат будет выглядеть следующим образом,
- Преобразуйте данные из текстового формата в числовой (в зависимости от типа данных).
Результат будет выглядеть следующим образом,
b. Жанр фильма
Результат будет выглядеть следующим образом,
c. Рейтинг фильма
Результат будет выглядеть следующим образом,
d. Прибыль
Результат будет выглядеть следующим образом,
- Проверьте количество данных для каждой переменной.
Результат будет выглядеть следующим образом,
- Соберите данные в один фрейм данных.
Результат будет выглядеть следующим образом,
- Некоторая визуализация полученных данных.
Результат будет выглядеть следующим образом,
Для выполнения парсинга IMDB в 2016, 2017, 2018 и 2019 годах процедура аналогична парсингу в 2015 году, описанной выше. Единственное отличие заключается в адресе веб-сайта и отсутствии данных о прибыли для каждого года. Ниже приведены соответствующие синтаксические различия.
Синтаксис адреса веб-сайта
Синтаксис отсутствующих данных о прибыли
Визуализация
Некоторые анализы, которые можно сделать на основе веб-парсинга
Из представленной выше визуализации можно сделать следующие выводы: каждый год фильмы жанра "экшн" с высоким рейтингом имеют самый высокий доход (брутто). Это позволяет сделать вывод о том, что предпочтения зрителей в просмотре фильмов не сильно меняются от года к году, и они все еще предпочитают фильмы жанра "экшн". Кроме того, после жанра "экшн" следуют фильмы жанра "анимация".
- Дайте рекомендации производителям фильмов для последующей продукции.
Исходя из анализа в пункте 1, можно рекомендовать производителям фильмов учитывать жанр при создании следующего фильма, поскольку в период с 2015 по 2019 годы жанр "экшн" имел самый высокий доход и достаточно высокий рейтинг. Это означает, что у жанра "экшн" есть больше шансов на самый высокий доход среди других жанров в будущих годах.