CoderCastrov logo
CoderCastrov
Отзывы

Данные везде: Парсинг отзывов пользователей с Google Play Store

Данные везде: Парсинг отзывов пользователей с Google Play Store
просмотров
2 мин чтение
#Отзывы
Table Of Content

    Немного расскажу о своем опыте получения данных, или, как это обычно называется, "парсинг" данных с Google Play Store. Данные, которые мы собираем, - это отзывы пользователей об приложениях. Просто подготовьте программу на Python и давайте начнем!

    Первое, что нужно сделать, это, конечно же, открыть программу Python и создать новый ноутбук (я предполагаю, что вы уже знаете, как это сделать). Затем установите пакет Google Play Scraper, введя команду pip install google-play-scraper, это займет некоторое время для завершения установки.

    Второй шаг - импортировать несколько необходимых пакетов, убедитесь, что у вас уже установлен пакет pandas!

    from google_play_scraper import Sort, reviews_all
    import pandas as pd

    Хорошо, продолжим... Найдите идентификатор приложения, данные которого вы хотите получить. Например, давайте получим отзывы о приложении Gojek, как найти его идентификатор? Просто откройте Google Play Store через веб-браузер. Затем найдите приложение Gojek, и его внешний вид будет таким:

    Google Play Store

    Идентификатор - это id=com.gojek.app

    Gojek ID

    Очень просто, просто адаптируйте его под свои нужды, если вы хотите получить отзывы о другом приложении.

    Теперь перейдем к самому важному этапу - парсингу данных!

    scrapreview = reviews_all('com.gojek.app', lang='id', country='id', sort=Sort.MOST_RELEVANT, filter_score_with=1)

    lang и country могут быть изменены, чтобы получить больше данных, а также sort можно попробовать с Sort.MOST_RELEVANT или Sort.NEWEST. filter_score_with указывает рейтинг (от 1 до 5), то есть если вы укажете 1, то будут получены только отзывы с рейтингом 1, или вы можете указать None, чтобы получить отзывы для всех рейтингов.

    После выполнения этой команды, на экране ничего не появится, хехе. Не волнуйтесь, у нас есть последний шаг, который позволит нам отобразить все полученные данные и даже экспортировать их в MS Excel.

    print(scrapreview)
    app_reviews_df = pd.DataFrame(scrapreview)
    app_reviews_df.to_csv('E:/cobascraping.csv', index=None, header=True)

    Просто откройте файл CSV, и вы увидите полученные отзывы вместе с некоторыми дополнительными переменными, такими как имя пользователя, количество лайков (thumbsUpCount), reviewCreatedVersion (версия приложения при написании отзыва) и т. д. Посмотрите и наслаждайтесь.

    Очень просто, не так ли? Полученные данные можно использовать для любых нужд, в зависимости от ваших потребностей, главное, чтобы было полезно и не злоупотреблять ими.

    В следующем посте я покажу, как я анализирую полученные данные с помощью машинного обучения. Так что оставайтесь на связи!