Как создать модель тематического моделирования / облако слов с использованием метода парсинга данных из Twitter
Table Of Content
- 1. Получение данных твитов с использованием библиотеки Tweepy и Google Colab
- Вам понадобится
- **Установка**
- 2. Создание облака слов / моделирования тематики на основе собранных данных
- Установка
- Университет 17 августа 1945 года Сурабая
- Мы названы в честь дня провозглашения независимости Индонезии, чтобы унаследовать дух свободы нашей нации...
- Информатика Untag Surabaya
- Порядок и стоимость поступления новых студентов на факультет информатики Untag Surabaya
1. Получение данных твитов с использованием библиотеки Tweepy и Google Colab
Вкратце, если вы можете получить данные, соответствующие вашим требованиям, используя расширенный поиск Twitter https://twitter.com/search-advanced,, то вы можете получить все эти данные в формате CSV.
Вам понадобится
Установка
- Импорт библиотеки
- Ввод API-ключа и токена
- Код для авторизации
- Код для начала поиска по ключевому слову
Здесь есть 3 параметра: первый - используемое ключевое слово ('crypto'), затем количество данных для извлечения (count) и используемый язык (lang).
- Код для отображения и обработки результатов парсинга данных и сохранения их в файле в формате CSV
Информация:
После завершения процесса парсинга мы найдем новый файл в этой области с именем файла, которое мы установили в коде ранее, что означает, что процесс парсинга завершен.
Полный скрипт:
2. Создание облака слов / моделирования тематики на основе собранных данных
Визуализация данных (графики, диаграммы, инфографика и т. д.) может передавать важную информацию из набора данных, но что делать, если у вас есть текстовые данные? Если вы хотите создать привлекательную визуализацию для выделения ключевых моментов, то используйте облако слов.
Установка
- Добавьте код для импорта файла из Google Drive.
- Добавьте код для импорта файла в переменную.
- Добавьте код для обработки данных из файла CSV.
- Добавьте код для обработки стоп-слов и создания моделирования тематики на основе обработанных слов.
- Вот конечный результат.
Университет 17 августа 1945 года Сурабая
Мы названы в честь дня провозглашения независимости Индонезии, чтобы унаследовать дух свободы нашей нации...
untag-sby.ac.id
Информатика Untag Surabaya
Порядок и стоимость поступления новых студентов на факультет информатики Untag Surabaya
informatika.untag-sby.ac.id