CoderCastrov logo
CoderCastrov
Python

Исследование анализа тональности на Python.

Исследование анализа тональности на Python.
просмотров
2 мин чтение
#Python
Table Of Content

    Введение в исследование анализа тональности на Twitter с использованием Python: парсинг веб-страниц, организация данных и предварительная обработка.

    Уважаемый читатель, во время чтения этой статьи вы познакомитесь с технической и специализированной средой. Будут представлены методы и процессы, применяемые командой YOUTHQUAKE.

    Мы покажем вам путь анализа, начиная с извлечения сырых и грязных данных, чтобы получить новую и полезную информацию.

    Конкретно мы рассмотрим первые шаги исследования анализа тональности твитов, связанных с экологией. Будут показаны небольшие фрагменты кода на Python, используя платформу Google Colab.

    Сначала загружаются необходимые библиотеки для анализа, включая:

    После регистрации на сайте https://developer.twitter.com/ вы получаете свои учетные данные, сгенерированные в разделе "Keys and tokens", включающие: ключ API пользователя, секретный ключ API пользователя, ключ доступа и секретный ключ доступа. Эти ключи необходимы для проверки подлинности учетной записи Twitter и для установления соединения.

    Затем мы ищем твиты, содержащие одно или несколько выбранных нами ключевых слов (например, "экология", "био", "переработка") и сохраняем большое количество твитов, которые будут составлять нашу исходную коллекцию. В предложенном примере наиболее важные переменные, которые мы сохраняем, это: "id", "text", "user_id", "user.location".

    Теперь пришло время перейти к этапу предварительной обработки, и мы очищаем только что созданный фрейм данных от ненужных элементов и мусора.

    Во время этого шага мы приводим тексты твитов к нижнему регистру и удаляем: дубликаты, стоп-слова (наиболее распространенные термины, не несущие значимой информации в тексте, например, союзы), хэштеги, теги, URL-адреса, пунктуацию, эмодзи, другие специальные символы, числа, двойные пробелы и, наконец, пустые отзывы.

    Когда мы достигнем удовлетворительной степени очистки, каждый преобразованный твит будет содержать только основную информацию, и мы сможем продолжить анализ, выполняя типичные задачи анализа тональности в зависимости от нашей цели.

    Среди возможных задач можно выделить наиболее распространенные:

    I. Opinion Finder, который определяет положительную, отрицательную или нейтральную полярность каждого мнения и, при необходимости, указывает на уровень интенсивности.

    II. Анализ настроения, более точная обработка предыдущей задачи, которая предоставляет для каждого текста выраженную эмоцию (радость, грусть, гнев, страх и т. д.).

    Области применения анализа тональности разнообразны и делятся на секторы, такие как:

    i. В политической сфере можно понять общее мнение граждан о политике или законодательной инициативе, а также предсказывать результаты выборов.

    ii. В бизнесе можно узнать репутацию бренда или мнения о его продуктах.

    iii. Анализ отзывов широко распространен в сферах путешествий, книг, отелей, фильмов, ресторанов и т. д.

    Мы, YOUTHQUAKE, работаем с компаниями и профессионалами, чтобы поддерживать их во всех стратегических и операционных деятельностях, связанных с оптимизацией путешествия клиента, цифровым маркетингом, дизайном, UX/UI, аналитикой и технологиями. Чтобы узнать больше, посетите наш сайт или свяжитесь с нами.

    Опубликовано YOUTHQUAKE:

    https://www.youthquake.it/it/blog/uno-studio-di-sentiment-analysis-in-python