Питон
Парсинг твитов с использованием Python
Сегодня я покажу вам, как мы можем парсить твиты с помощью одной из библиотек на Python, называемой snscrape.
Результаты
Настройка окружения
Примеры
- Получить все твиты от определенного пользователя.
snscrape twitter-user <twitter_username>
- Получить последние 100 твитов с хэштегом #covid19.
snscrape --max-results 100 twitter-hashtag covid19
- Получить последние 100 твитов с хэштегом #covid19:
snscrape --jsonl --progress --max-results 100 --since 2020-06-01 twitter-hashtag "relax until:2020-07-01" > text-query-tweets.json
Использование
--jsonl
для получения вывода в формате JSONL. Это включает всю информацию, извлеченную с помощью парсера (например, содержимое сообщения, дата и время, изображения; подробности могут отличаться в зависимости от модуля и парсера).--with-entity
для получения информации о сущности, которая парсится, например, о пользователе или канале. Это не поддерживается всеми парсерами. (Вы можете использовать это вместе с--max-results 0
, чтобы получить только информацию о сущности.)--format
для настройки формата вывода.snscrape --help
илиsnscrape <module> --help
предоставляет подробную информацию о доступных опциях.snscrape --help
также перечисляет все доступные модули.
References
Об авторе:
Эта статья написана Ханом Шенгом, техническим руководителем в Arkmind, Малайзия. У него есть страсть к разработке программного обеспечения/архитектуре, компьютерному зрению и также к устройствам Edge. Он создал несколько веб- и мобильных приложений на основе искусственного интеллекта, чтобы помочь клиентам решать реальные проблемы. Не стесняйтесь ознакомиться с его профилем на Github.