Картирование данных с использованием Twitter API
Использование платформы Twitter в качестве источника данных Создание облака слов для самых часто употребляемых слов Для руководства перейдите сразу к разделу Давайте начнем
Twitter является одной из популярных социальных сетей в мире. Платформа, созданная Джеком Дорси @jack в 2006 году в США, изначально называлась twttr. Twitter имеет простой и понятный интерфейс. Несмотря на ограничение в 280 символов на каждый пост, у него есть свое место среди пользователей, особенно среди молодежи.
Twitter изначально назывался twttr
Тренды - это функция, которая является основным преимуществом этой платформы. Чтобы удовлетворить потребности пользователей в социальных медиа, эта платформа постоянно добавляет новые функции, такие как Fleets и Space. Fleets - это функция, которая позволяет пользователям добавлять посты, которые исчезнут через 24 часа. А Space - это место для проведения прямых голосовых трансляций, где каждый может быть и спикером, и просто слушателем.
Кроме того, у Twitter есть инструменты разработчика, такие как Twitter API. С помощью этих инструментов разработчик может собирать данные с платформы с помощью предоставленного Twitter API. Пользователю достаточно зарегистрироваться с учетной записью Twitter, и он сможет пользоваться доступными функциями.
Давайте начнем.
Необходимые инструменты
Twitter API Tweepy NLTK Gephi Google Colab
Как зарегистрироваться в Twitter API.
Перейдите по указанной ссылке или нажмите здесь, чтобы зарегистрироваться в Twitter API. Регистрация может быть выполнена с использованием личной учетной записи или альтернативной учетной записи, если вы хотите.
Выберите подходящий вариант. Поскольку этот учебник является заданием для университета, я выбрал Academic > Student.
Убедитесь, что вы хорошо отвечаете на указанные вопросы, чтобы избежать задержки в процессе верификации со стороны Twitter.
После успешной регистрации аккаунта начните создавать приложение, нажав Create Project на странице dashboard
Созданные приложения можно найти в разделе overview
Получение ключа API, секретного ключа API, токена доступа и секретного токена доступа
Чтобы получить их, перейдите на страницу вашего приложения по следующему адресу:
Перейдите в раздел "Keys and tokens" (Ключи и токены), как показано на изображении.
В разделе "Consumer keys" (Ключи потребителя) вы получите следующие ключи, нажав кнопку "Regenerate" (Сгенерировать):
Ключ API Секретный ключ API
А в разделе "Authentication Tokens" (Токены аутентификации) вы получите следующие ключи:
Токен Bearer Токен доступа Секретный токен доступа
Убедитесь, что вы записали эти токены, так как они могут быть открыты только один раз.
Ой, я случайно закрыл окно, не сохранив их. Что делать?
Не волнуйтесь, вы можете сгенерировать новые токены, но имейте в виду, что старые токены будут недействительными и заменены новыми.
Установка плагина
Убедитесь, что у вас установлена программа Gephi.
Перед началом обработки данных установите плагин TwitterStreamingImporter в меню Tools > Plugin
Вид после установки.
Откройте Window > Twitter Streaming Importer, чтобы открыть окно Twitter Streaming Importer.
Появится окно Twitter Streaming Importer.
Начало сбора данных из Twitter
Нажмите на кнопку "Credentials" в меню Twitter Streaming Importer.
Введите ключ API, секрет API, токен доступа и секретный токен доступа.
Добавьте ключевое слово, которое вы хотите найти. Нажмите "Add".
Совет: Используйте популярные ключевые слова, чтобы ускорить получение данных.
После добавления ключевого слова нажмите "Connect", чтобы начать сбор данных из Twitter.
Когда считаете, что данных достаточно, нажмите "Disconnect".
Nodes - это учетные записи Twitter, а Edges - это твиты.
Экспорт в .csv
Нажмите на "Data Laboratory" > "Export table"
Данные, экспортированные в .csv, можно открыть с помощью Microsoft Excel
"Ой, данные выглядят так неряшливо, как их можно прочитать?"
Данные .csv необходимо обработать с помощью скрипта на языке Python, который будет выполняться в Google Colab.
Картирование данных.
Импортируем необходимые библиотеки в Python-скрипт.
import pandas as pd
import numpy as np
import re
import nltk
import matplotlib.pyplot as plt
%matplotlib inline
Загрузим файл .csv в Google Colab.
Добавим следующий код для чтения файла .csv.
dataset = pd.read_csv("scraper irene.csv")
scraper irene.csv - это название моего файла .csv. Вы можете использовать свое собственное название файла.
dataset.head()
label = dataset['Label']
label[:10]
Очистка текста
NLTK
Стоп-слова на английском языке
Удаление пунктуации
Генерация облака слов
Результат