CoderCastrov logo
CoderCastrov
Парсер

Знакомство с Tarantulla Facebook

Знакомство с Tarantulla Facebook
просмотров
3 мин чтение
#Парсер

В этом посте мы расскажем о модуле Tarantulla для извлечения данных из Facebook. Oncase разработала этот модуль для извлечения информации, такой как вовлеченность, количество лайков и количество поделиться постами на указанной странице.

Для этого мы используем Graph API, инструмент, предоставленный Facebook, который позволяет нам собирать некоторую общедоступную информацию на страницах социальной сети. Полученные данные предоставляют важные показатели для пользователей.

Затем мы покажем небольшой пример использования Tarantulla Facebook. Мы выбрали 6 самых посещаемых новостных каналов в Бразилии и проанализируем их соответствующие страницы на Facebook. Это G1, Terra, Yahoo Brasil, R7, Uol Notícias и Estadão.

Давайте проанализируем полученную информацию:

График ниже показывает общее количество реакций с февраля по май (24/02/2018 - 24/05/2018):

Кроме того, мы можем наблюдать общее количество взаимодействий каждого из порталов за тот же период, взаимодействия - это сумма реакций, поделиться и комментариев:

Это приводит к общей вовлеченности:

95% G1 70% UOL Notícias 54% Estadão 33% R7 20% Terra Brasil 15% Yahoo Brasil

Как показано на графике ниже:

Если мы проанализируем 13 дней с 10 мая по 23 мая, у нас есть:



Настройка Tarantulla-Facebook

Если вы хотите узнать подробности о развертывании решения, рекомендуется посетить страницу Oncase на Github:

oncase/tarantulla-facebook

tarantulla-facebook - Tarantulla-Facebook: решение для сбора данных Facebook от издателей, которые вас интересуют.

github.com

Давайте следовать нескольким шагам для настройки и развертывания решения. В основном, это 3 шага:

И если вы хотите интегрировать результаты с базой данных, у нас есть два дополнительных шага:

  1. Настройка файлов с информацией о базе данных

  2. Выполнение SQL-скрипта

Следует отметить, что интеграция с базой данных осуществляется через PDI - Pentaho Data Integration - платформу для ускорения создания потоков обработки данных.

Сказав это, давайте объясним каждый шаг:

{
	"temp_output": "../data/",
	"python-command":"python3",
	"dateFrom" : "2017-05-14",
	"dateTo" : "" ,
	"publishers" :
	[
		{
			"userName": "AndroidPIT.br",
			"name": "AndroidPIT BR"
		}
	]	
}

3.** **Настройка файла api-keys.json

У вас должны быть ключи доступа к API, которые будут использоваться Tarantulla-Facebook. Отредактируйте файл api-keys.json, указав свои ключи.

Вам потребуется указать ACSSTKFB, который содержит ключ доступа к API.

  1. Настройка файла config-db.json

Отредактируйте файл config-db.json, указав имя базы данных, имя схемы и таблицы, которые будут использоваться, а также пароль и другие соответствующие характеристики.

  1. Выполнение SQL-скрипта

SQL-скрипт содержит оператор CREATE TABLE, который будет создавать таблицу. Не забудьте изменить этот скрипт в соответствии с именем схемы и таблицы, которую вы хотите использовать.

Запуск Tarantulla-Facebook

Готово! Теперь просто запустите Tarantulla-Facebook, чтобы получить нужные данные.

Если вы хотите запустить с помощью PDI, введите следующую команду:

$ <PDI_HOME>/./kitchen.sh -file="<YOUR TARANTULLA FACEBOOK FOLDER>/etl/main.kjb"

Если вы настроили PDI_HOME на /opt/Pentaho/design-tools/data-integration, достаточно выполнить:

$ <YOUR TARANTULLA FACEBOOK FOLDER>/scripts/etl.sh job ../etl/main.kjb

И без PDI:

$ python3 user_timeline_posts.py

Проблемы:

Мы все еще изучаем новые возможности, но уже думаем о добавлении некоторых, таких как: тип публикации, количество реакций по типу (LOVE, WOW и другие).


Надеюсь, этот пост был полезен для вас. Увидимся в следующий раз!