Парсинг Reddit: Увеличение продаж NBA мерчандайза
Table Of Content
Я являюсь рекламным менеджером компании KobeGreatest INC, и недавно мы были наняты НБА, чтобы правильно нацелить рекламу игрового мерчандайза на фанатов с целью увеличения доли рынка. НФЛ приносит в два раза больше дохода, чем НБА, и мы хотим увеличить продажи мерчандайза в НБА. Мы будем использовать модель классификации для размещения на блогах Espn/Nfl НБА, чтобы нацелить рекламу игроков на фанатов НБА. Мы можем использовать субреддиты НБА и НФЛ для построения предиктивной модели, которая классифицирует фанатов между НБА и НФЛ на основе выбора слов в заголовках. Модели классификации, которые мы будем использовать для классификации фанатов по видам спорта, включают логистическую регрессию, наивный байесовский классификатор, метод ближайших соседей и деревья решений. Метрикой, которую мы будем использовать для выбора лучшей модели, является показатель точности.
В последние годы мы наблюдаем быстрый рост популярности НБА по сравнению с НФЛ, как в плане популярности игроков, так и продаж мерчандайза. Моя команда обнаружила, что совместные субреддиты НБА и НФЛ позволяют отличить фанатов НБА от фанатов НФЛ.
Моя команда недавно разработала модель машинного обучения, которая классифицирует посты Reddit (из НБА и НФЛ) с высокой точностью 89%.
Моя команда с удовольствием будет сотрудничать с НБА для разработки новых маркетинговых стратегий. Во-первых, мы продолжим улучшать нашу модель машинного обучения, чтобы повысить показатель точности. Цель состоит в том, чтобы получить информацию из постов (например, какие игроки НБА популярны) и оценить, какие товары можно рекламировать через различные платформы НБА и НФЛ в зависимости от фаната. Например, если мы видим много постов на Reddit о Леброне Джеймсе, мы можем использовать нашу модель для предсказания на блоге Espn и классифицировать этого фаната как фаната НБА. Затем мы можем разработать стратегию рекламы майек Леброна Джеймса на этой конкретной информационной платформе.
Сначала мы использовали только простой заголовок для классификации субреддитов. Это дало мне показатель точности 0,88, но после того, как я изменил все слова в нижний регистр, мне удалось получить немного лучший показатель. Например, если в заголовке Reddit было слово "Леброн" или "леброн", они использовались как разные признаки, а не как одинаковые. Поэтому использование строчных букв облегчает предсказание на других постах. Для дальнейшего анализа мы хотели бы иметь возможность собрать все субреддиты о спорте и правильно классифицировать все субреддиты о спорте. Мы ограничены населением НФЛ и НБА, и использование блога НБА/НФЛ Espn даст нам некоторое представление о фанатах НБА, но мы хотели бы изучить полный блог о спорте на Espn. Это поможет нам нацелить рекламу на спортивные блоги не только на Espn, но и на все виды медиа.
В заключение, после изучения субреддитов НБА и НФЛ мы обнаружили, что модель логистической регрессии правильно классифицирует заголовки на НБА и НФЛ с точностью 89%. Как видно из нашей матрицы ошибок, мы можем классифицировать истинные значения (НБА и НФЛ) в 89% случаев, при этом только 11% из этих значений классифицируются неправильно. Мы уверены, что эта модель сможет правильно классифицировать блоги НБА/НФЛ на Espn в 90% случаев. Это позволит нам правильно разрабатывать маркетинговые стратегии для фанатов НБА на блогах Espn. При изучении коэффициентов, возможно, стоит удалить слова "НБА" и "НФЛ" из заголовков, чтобы избежать утечки в модели. Хотя я использую модель для предсказания на блогах Espn, я решил оставить эти 2 слова, потому что они часто используются на разных блогах.