Данные везде: Парсинг отзывов пользователей с Google Play Store
Table Of Content
Немного расскажу о своем опыте получения данных, или, как это обычно называется, "парсинг" данных с Google Play Store. Данные, которые мы собираем, - это отзывы пользователей об приложениях. Просто подготовьте программу на Python и давайте начнем!
Первое, что нужно сделать, это, конечно же, открыть программу Python и создать новый ноутбук (я предполагаю, что вы уже знаете, как это сделать). Затем установите пакет Google Play Scraper, введя команду pip install google-play-scraper, это займет некоторое время для завершения установки.
Второй шаг - импортировать несколько необходимых пакетов, убедитесь, что у вас уже установлен пакет pandas!
from google_play_scraper import Sort, reviews_all
import pandas as pd
Хорошо, продолжим... Найдите идентификатор приложения, данные которого вы хотите получить. Например, давайте получим отзывы о приложении Gojek, как найти его идентификатор? Просто откройте Google Play Store через веб-браузер. Затем найдите приложение Gojek, и его внешний вид будет таким:
Идентификатор - это id=com.gojek.app
Очень просто, просто адаптируйте его под свои нужды, если вы хотите получить отзывы о другом приложении.
Теперь перейдем к самому важному этапу - парсингу данных!
scrapreview = reviews_all('com.gojek.app', lang='id', country='id', sort=Sort.MOST_RELEVANT, filter_score_with=1)
lang и country могут быть изменены, чтобы получить больше данных, а также sort можно попробовать с Sort.MOST_RELEVANT или Sort.NEWEST. filter_score_with указывает рейтинг (от 1 до 5), то есть если вы укажете 1, то будут получены только отзывы с рейтингом 1, или вы можете указать None, чтобы получить отзывы для всех рейтингов.
После выполнения этой команды, на экране ничего не появится, хехе. Не волнуйтесь, у нас есть последний шаг, который позволит нам отобразить все полученные данные и даже экспортировать их в MS Excel.
print(scrapreview)
app_reviews_df = pd.DataFrame(scrapreview)
app_reviews_df.to_csv('E:/cobascraping.csv', index=None, header=True)
Просто откройте файл CSV, и вы увидите полученные отзывы вместе с некоторыми дополнительными переменными, такими как имя пользователя, количество лайков (thumbsUpCount), reviewCreatedVersion (версия приложения при написании отзыва) и т. д. Посмотрите и наслаждайтесь.
Очень просто, не так ли? Полученные данные можно использовать для любых нужд, в зависимости от ваших потребностей, главное, чтобы было полезно и не злоупотреблять ими.
В следующем посте я покажу, как я анализирую полученные данные с помощью машинного обучения. Так что оставайтесь на связи!