Парсинг данных обзоров в приложении Gramedia Digital

Table Of Content
Эта статья рассказывает о том, как собирать данные обзоров в приложении Gramedia, которое предоставляет различные типы чтения, такие как журналы, газеты и книги в цифровом формате, из разных категорий, таких как бизнес, сплетни, дизайн, художественная литература, детская литература и т. д.
Для выполнения парсинга данных я использую Google Colab "https://colab.research.google.com/" для процесса сбора данных.
Первое, что нужно сделать, это зайти на "https://colab.research.google.com/" и создать новую записную книжку.
Второе, установить google play scraper,
!pip install google-play-scraper
Третье, импортировать необходимые библиотеки,
from google_play_scraper import app import pandas as pd import numpy as np
Четвертое, скопировать идентификатор приложения, открыв Play Store в браузере, а затем найти Nusaresearch, как показано на рисунке

com.appsfoundry.scoop
Пятое, чтобы получить все обзоры, доступные в Play Store, используйте следующий скрипт
from google_play_scraper import Sort, reviews_all us_reviews = reviews_all( ‘com.appsfoundry.scoop’, sleep_milliseconds=0, # по умолчанию 0 lang=’id’, # по умолчанию ‘en’ country=’id’, # по умолчанию ‘us’ sort=Sort.NEWEST, # по умолчанию Sort.MOST_RELEVANT )
lang и country могут быть изменены в соответствии с потребностями сбора данных, чтобы загрузить обзоры из разных стран/языков, можно использовать ISO-Code. sort может быть настроен в зависимости от самых новых обзоров (NEWEST), наиболее релевантных (MOST_RELEVANT) или рейтинга (RATING).
Шестое, отображение собранных данных
df_busu = pd.DataFrame(np.array(us_reviews),columns=[‘review’]) df_busu = df_busu.join(pd.DataFrame(df_busu.pop(‘review’).tolist())) df_busu.head()
Седьмое, фильтрация данных, выбирая несколько нужных столбцов данных
df_busu[[‘userName’, ‘score’,’at’, ‘content’]].head()
Восьмое, экспорт результатов парсинга в формате csv или xlsx
my_df.to_csv(“scraping data.csv”, index = False)
для экспорта в формате Excel используйте to_excel и переименуйте формат данных в "Имя файла.xlsx"
Наконец, для сохранения на локальном диске нажмите "Скачать", как показано на рисунке ниже

Источники информации: