Как я могу спарсить все твиты Илона Маска?
Table Of Content
Twitter - одна из самых эффективных социальных сетей, и как сказал Картье Стеннис, Twitter - это то, что происходит. Это место, где люди идут, чтобы увидеть и принять участие в разговоре о практически всем, что происходит во всем мире. Поэтому я думаю, что нам следует быть в курсе того, что происходит на Twitter с помощью анализа данных!
Прежде всего, нам нужны некоторые данные, верно?
Есть много способов спарсить данные с Twitter, и я хочу написать об этом в этой статье:
Twitter API
Сначала я хочу рассказать о том, как получить Twitter API. Все просто: вам нужно перейти сюда, чтобы зарегистрироваться в Twitter API. Но если вы хотите получить API очень быстро, вы можете подтвердить свою учетную запись с помощью номера Соединенных Штатов и выбрать опцию для студентов. Таким образом, вы получите токен API как можно скорее. :)
У Twitter API есть некоторые проблемы с парсингом данных. Во-первых, с помощью базового плана вы можете парсить твиты только за последние семь дней. Поэтому я думаю, что с таким ограничением это не то, что нам нужно делать. Однако, если вы сможете получить академический план, у него нет таких ограничений, и вы сможете парсить все твиты с Twitter.
Twint
Twint - это продвинутый инструмент для парсинга Twitter и OSINT, написанный на Python, который не использует API Twitter, позволяя собирать подписчиков, подписки, твиты и многое другое пользователя, обходя большинство ограничений API. У него также есть некоторые проблемы. Например, модули не работают в вашем коде, и вы должны использовать команды Twint в терминале или использовать команды в блокнотах, таких как jupyter notebook или google colab, и только некоторые команды работают в настоящее время. Кроме того, Twint имеет некоторые проблемы и не работает. Я сделал форк репозитория и исправил его, вы можете использовать мой: https://github.com/MohrezSheikh/twint
Snscrape
Snscrape может парсить другие социальные сети, такие как Telegram, Instagram, Facebook и т.д., но здесь мы будем использовать парсер для Twitter из этой библиотеки.
Snscrape - это лучший инструмент, который я нашел для парсинга твитов. Благодаря JustAnotherArchivist, Snscrape работает очень хорошо, и я покажу вам, как можно парсить твиты с его помощью.
Вы можете прочитать всю документацию здесь.
Сначала нужно установить пакет:
pip3 install snscrape
Версия для разработчиков:
pip3 install git+https://github.com/JustAnotherArchivist/snscrape.git
после этого просто импортируйте библиотеку и используйте ее.
Вот пример:
**import pandas as pd** # инструмент для анализа данных
**import snscrape.modules.twitter as sns** # парсер Snscrape
**import itertools** # итерация по данным**username = input('Введите имя пользователя: ')** # получаем имя пользователя**topic = input('Введите тему, которую хотите парсить: ')** # получаем тему**count_username = itertools.islice(user_tweet, 500)** # здесь вы можете установить ограничение**count_topic = itertools.islice(topic_tweet, 500)****df = pd.DataFrame(count_username)[['url', 'date', 'content', 'id', 'username', 'outlinks']]** # создаем датафрейм с помощью pandas**dfs = pd.DataFrame(count_topic)[['url', 'date', 'content', 'id', 'username', 'outlinks']]****df.to_csv('имяcsvфайла.csv')** # сохраняем данные в csv**dfs.to_csv('имя.csv')**
Вот ссылка на GitHub репозиторий для этой статьи:
GitHub - MohrezSheikh/TwitterScraper: Парсер Twitter без необходимости использования Twitter API!
В данный момент вы не можете выполнить это действие. Вы вошли в другую вкладку или окно. Вы вышли из другой вкладки или...
github.com
Спасибо за чтение этой статьи :)