Парсинг Twitter с использованием Tweepy
Обзор парсинга Twitter для понимания, что это такое? Что такое Tweepy? С примерами
Что такое парсинг Twitter?
Парсинг Twitter - это процесс извлечения или "парсинга" данных (твитов) из Twitter. Эта информация собирается, а затем экспортируется в формат, который более удобен для пользователя. Это может быть таблица или API.
Парсинг Twitter обычно используется для анализа тональности твитов.
Что такое Tweepy?
Tweepy - это пакет на языке Python с открытым исходным кодом, который предоставляет очень удобный способ доступа к API Twitter с помощью Python. Tweepy включает набор классов и методов, которые представляют модели и конечные точки API Twitter, и он прозрачно обрабатывает различные детали реализации, такие как:
- Кодирование и декодирование данных
- HTTP-запросы
- Пагинация результатов
- Аутентификация OAuth
- Ограничения на скорость
- Потоки
Как использовать Tweepy ?
Для доступа к API Twitter необходимо подать заявку на получение учетной записи разработчика Twitter.
https://developer.twitter.com/en/apply-for-access
После одобрения вашей заявки необходимо создать новый проект в вашей учетной записи для использования Tweepy.
https://developer.twitter.com/en/portal/projects-and-apps
Для доступа к API Twitter необходимо сгенерировать следующие 4 ключа:
- consumer key (ключ потребителя)
- consumer secret (секретный ключ потребителя)
- access token (токен доступа)
- access token secret (секретный токен доступа)
Теперь пришло время установить tweepy
pip install tweepy
Для пользователей Anaconda можно использовать
conda install -c conda-forge tweepy
Для полного доступа к API Twitter необходимо использовать 4 сгенерированных ключа.
Давайте изучим некоторые методы Tweepy
Лента домашней страницы
- В этом примере будут загружены твиты с домашней страницы и выведены их детали
Лента пользователя
- В этом примере будут загружены твиты с ленты пользователя и выведены их детали
Курсор
- В этом примере курсор загрузит несколько расширенных твитов, содержащих ключевое слово, и укажет их язык
Потоковая передача твитов
API потоковой передачи Twitter используется для загрузки сообщений Twitter в реальном времени. Он полезен для получения большого объема твитов или для создания живой ленты с использованием потока сайта или потока пользователя.
-
Сначала мы создаем класс с именем MyStreamListener, наследующий от класса StreamListener из tweepy, и переопределяем метод on_status, чтобы вывести некоторые детали твитов (время создания, пользователь и текст твита).
-
Класс StreamListener также переопределяет метод on_error, который используется при возникновении ошибки.
-
Теперь пришло время создать и запустить класс Stream. В Tweepy есть несколько потоков Twitter, мы будем использовать filter, чтобы потоково передавать все твиты, содержащие ключевое слово.
-
Наконец, мы инициализируем конечную точку API с ключами авторизации, слушателем потока и запускаем поток. Мы передаем ключевое слово в качестве параметра, чтобы потоково передавать все твиты, содержащие слово Trump.
- Чтобы увидеть больше примеров, ознакомьтесь с документацией Tweepy
http://docs.tweepy.org/en/latest/
Ресурсы :
Пожалуйста, не забудьте оставить комментарий ниже, если вам понравилась эта статья, и поделитесь ею с друзьями.
Следуйте за мной на Medium**, Twitter, **Instagram **или найдите меня на LinkedIn и GitHub или напишите мне напрямую, чтобы получать больше интересных тем.
Спасибо за чтение.