CoderCastrov logo
CoderCastrov
Парсер

Новейший способ парсинга комментариев на YouTube с использованием Python

Новейший способ парсинга комментариев на YouTube с использованием Python
просмотров
3 мин чтение
#Парсер

"Данные! Данные! Данные! - воскликнул он нетерпеливо. Я не могу делать кирпичи без глины." ~ Артур Конан Дойл

Данные сегодня являются неотъемлемыми. Каждый день каждый человек создает сотни или тысячи данных, не осознавая этого. Каждый день трудолюбивые работники и лентяи создают данные. Крупные компании, такие как Microsoft, Google и Apple, а также маленькие компании, о которых мы не знаем, создают данные для улучшения своего продукта.

В среде машинного обучения сбор данных является самым сложным шагом, с которым сталкиваются все специалисты по обработке данных. Почему? Потому что значимые данные дают отличную модель, а плохие данные делают модель плохой. Существует множество способов сбора данных. Мы можем собирать их вручную, заходя на сайт, читая отчеты, наблюдая, парся и т.д.

Парсинг (парсер) - это процесс сбора данных с сайта и их сохранения локально. У каждого сайта есть свои правила для парсинга. В этом руководстве я расскажу вам, как спарсить комментарии с YouTube на вашем компьютере. Используя этот метод, вы получите комментарии, лайки, время, пользователей и ссылки на пользователей.

В других статьях уже было рассказано о той же теме, например, здесь и здесь. Но я проверил и оба из них больше не работают. Хорошо, без лишних вступлений, перейдем к коду.

Подготовка

Фактически, в Python есть библиотека, созданная для этой задачи. Она называется youtube-comment-scraper-python 1.0.0. Эта библиотека была выпущена 12 апреля 2021 года компанией DataKund и используется для получения комментариев с YouTube с помощью автоматизации браузера. Она работает только в Windows. Вы можете прочитать полную документацию здесь. Чтобы установить модуль, просто выполните следующую команду.

pip install youtube-comment-scraper-python

Модуль зависит от двух модулей: requests и bot_studio, оба они будут установлены во время установки скрипта выше. Bot Studio используется для автоматизации браузера. Он открывает браузеры и выполняет задачу по сбору комментариев с видео.

Кодирование

Модули хорошо документированы, они показывают, как собирать данные. Я хочу немного улучшить код, чтобы данные сохранялись в формате CSV и можно было использовать их для исследований в качестве инженера машинного обучения. Вот код, который я создал:

Из скрипта выше, сначала будет предложено ответить на вопросы о ссылках на YouTube и именах выходных файлов. Например, я попробую собрать данные с этой новостной ссылки. Я введу ссылки в ответ на заданный вопрос и заполню имена выходных файлов следующим образом.

Через некоторое время откроется новое окно браузера и начнется сбор данных, не паникуйте. Он будет управлять вашим экраном всего на некоторое время и выполнит задачу по сбору данных.

По умолчанию он будет прокручивать страницу только один раз, поэтому проверьте, успешно ли выполнен сбор данных или нет.

Если вы получаете вывод, как на картинке выше, это означает, что сбор данных прошел успешно.

Если вы хотите получить больше данных, вы можете использовать цикл в вашем коде в части ответа и данных, например:

all_data = []
for i in range(0, 10): # Он будет прокручивать 10 раз
    response = youtube.video_comments()
    data = response['body']
    all_data.extend(data)df = pd.DataFrame(data)
df.to_csv(saved)

Заключение

Наконец, мы подходим к этому разделу. Надеюсь, вы понимаете, как выполнять парсинг комментариев на YouTube и выполнять такие задачи, как анализ тональности и другие. Просто пробуйте и не забывайте писать качественный код. ✌

Вы индонезиец? И ищете группу данных ученых? Присоединяйтесь к Data Folks Indonesia уже сегодня.

Присоединяйтесь к серверу Discord по искусственному интеллекту и исследованиям в Джакарте!

Это сервер Discord по искусственному интеллекту и исследованиям в Джакарте, Индонезия. |…

discord.gg