CoderCastrov logo
CoderCastrov
Искусственный интеллект

Как запустить ваш бизнес, основанный на данных, с помощью текстовых данных? — Часть 1, Сбор данных и разметка

Как запустить ваш бизнес, основанный на данных, с помощью текстовых данных? — Часть 1, Сбор данных и разметка
просмотров
5 мин чтение
#Искусственный интеллект

Если данные - это новая нефть, то получение и обогащение собственных данных - это как гидроразрыв и переработка, по крайней мере, в случае текстовых данных. В этом посте вы получите общую картину о том, как мыслить о сборе и разметке данных. Вы также получите несколько советов о том, какие бизнес-вопросы следует рассмотреть.

Иерархия потребностей в области науки о данных

В наши дни все больше и больше людей пытаются создать так называемый вертикальный AI-стартап/решение. Эти предприятия стремятся решить проблемы, специфичные для отрасли, путем сочетания искусственного интеллекта и экспертизы в определенной области. Они имеют четыре отличительные особенности: 1) они являются полноценными продуктами 2) они опираются на экспертизу в определенной области 3) они основаны на собственном наборе данных 4) искусственный интеллект создает основную ценность. Наши опыт подсказывает, что третий пункт - получение правильного собственного набора данных - является самым сложным и решающим фактором для каждого проекта, основанного на данных, будь то внутренний или предпринимательский проект.

Большинство людей берут данные как должное. Мы каждый день получаем новости о самых новых алгоритмах глубокого обучения. Мы живем в эпоху больших данных. Мы слышим (по крайней мере, те, кто работает в сфере технологий) о новых стартапах по машинному обучению/искусственному интеллекту каждый день. Так что получение данных должно быть легко!

С одной стороны, да, есть потрясающие репозитории данных, такие как UCI Machine Learning Repository. Правительства становятся открытыми и публикуют свои данные через собственные платформы или используют что-то вроде CKAN. Но имейте в виду, что ваши конкуренты тоже могут получить доступ к этим данным!

С другой стороны, вам нужно получить свой собственный, специфичный для вашей области набор данных и разметить его, чтобы обучить ваши модели! Глубокое обучение и другие модные алгоритмы машинного обучения - это только вершина айсберга. Есть много вещей, которые нужно сделать внизу. Если вы не можете правильно настроить базовые уровни, даже самый современный алгоритм глубокого обучения будет плохо работать на вашей конкретной проблеме. Опять же, вы можете начать с комбинирования открытых наборов данных, но ваши конкуренты делают то же самое. Если вы хотите доставить реальную ценность, отличную от ваших конкурентов (т.е. лучшую или более точную), вам нужно создать и разметить свой собственный набор данных. Пирамида популярной иерархии потребностей в области науки о данных должна выглядеть следующим образом.

Разделите свои задачи

Сбор и аннотация данных - это две отдельные задачи, выполняемые двумя разными группами. Сбор данных часто осуществляется традиционными программистами или командой построения данных. В то время как аннотацию часто ведут (и иногда даже выполняют) данные ученые/аналитики. Хороший менеджер продукта следит за данными и вовлекает всех заинтересованных сторон в процесс. Менеджер продукта всегда должен помнить, что получение и аннотация данных - это процесс, поэтому необходимо постоянно проверять качество и объем ваших исходных и аннотированных данных. Также следует отслеживать производительность модели, построенной с использованием этих данных. Вы можете использовать метрики оценки и даже отзывы пользователей, чтобы планировать дальнейшие задачи по сбору и аннотации данных, что поможет вам создавать еще более качественные модели.

Прежде чем рассматривать различные варианты сбора и маркировки данных, имейте в виду, что вы должны создать свой первоначальный набор данных И конвейер/процесс, который поможет вам тренировать все более качественные модели. Выбор решения на одной фазе не означает, что вы не можете перейти к другому на более поздней фазе. Но обратите внимание, что переход от внешнего сбора и маркировки к внутреннему парсингу и маркировке может быть сложным и очень затратным.

Ваши варианты

В теории у вас есть идея о продукте, и вам нужен специальный набор данных для обучения его волшебной части искусственного интеллекта. Прежде чем обдумывать ваши варианты, вам нужно ответить на несколько вопросов. Какие данные вам нужны для обучения модели? Как можно получить эти данные? Следует ли очищать необработанные данные перед аннотацией? Сколько данных следует аннотировать для первых моделей? Что означает создание представительного набора данных в вашем случае? Вероятно, сначала вы не получите окончательных ответов, но на первом этапе достаточно грубой идеи.

В качестве следующего шага вы должны рассмотреть ваши варианты сбора данных и аннотации, такие как

  • создание внутренней компетенции
  • краудсорсинг
  • аутсорсинг

Ваши ограничения

Вы должны знать о своих ограничениях, таких как

Если вы знаете свои источники данных, проверьте их! Это обычный текст или HTML? Если это веб-сайты, вам нужно войти в систему на этих сайтах? Используются ли на этих сайтах современные фреймворки JavaScript, такие как React? Содержат ли эти сайты/тексты конфиденциальную информацию о людях? Если вам нужно спарсить сайт, проверьте его robots.txt, чтобы узнать, что владельцы позволяют вам парсить! В разных регионах существуют различные законы, регулирующие парсинг и хранение общедоступных данных. Повторное использование данных, полученных при парсинге, часто регулируется законом. Хотя это может быть довольно дорого, сначала проконсультируйтесь с адвокатом!

Имейте в виду, что если что-то является законным, это не обязательно означает, что это этично. Ваш проект должен быть и легальным, и этичным. Трудно определить, что означает этично. Вероятно, ваши коллеги следуют этическим нормам и руководствам, опубликованным профессиональными организациями и правительством вашего региона. Если нет, попросите их сделать это! Кроме того, команда должна согласиться с тем, что цель проекта соответствует этическим нормам ее участников. Парсинг сайтов, требующих входа в систему, является теневой стороной бизнеса. Представьте себе, что ваш коллега считает это фактически кражей данных и нарушением конфиденциальности пользователей этого сайта. Будет ли такой коллега создавать лучший парсер для этой задачи? - Предположительно, нет. Поэтому, даже если у вас ничего против парсинга данных из определенных источников, примите к сведению, что кто-то может считать это неприемлемым, даже если это законно.

Кроме того, получение данных из Интернета не так просто, как кажется. Например, современные технологии JavaScript требуют так называемого предварительного рендеринга, такого как Selenium, чтобы притвориться, что браузер открыл сайт, чтобы показать его содержимое.

И, наконец, у вас также есть ограничения бюджета и времени. Чем более готовое решение, тем дороже оно стоит, но обычно требует меньше времени для получения данных. Внутренние решения требуют найма постоянных и временных сотрудников. Поиск правильных людей занимает время. Вы можете нанять начинающих, которые готовы изучить новую область, но это также занимает время. Если у вас достаточно денег, начните с аутсорсинга задач надежным партнерам. Позже вы сможете создать свои собственные возможности. Если у вас очень мало денег, внедрите парсинг данных внутри компании и организуйте аннотацию с помощью краудсорсинга. В противном случае читайте дальше и рассмотрите инструменты и варианты, которые у вас есть.

Это пока все. Если вы хотите узнать больше о инструментах, используемых для сбора и аннотации данных, оставайтесь на связи. Вторая часть этой серии скоро появится!

Наймите нас

Если у вас возникли проблемы при сборе и аннотации данных, не стесняйтесь связаться с нами по адресу crowintelligence@gmail.com

Подпишитесь на нашу рассылку

Получайте основные моменты о NLP, AI и прикладной когнитивной науке прямо в свою почту.


Опубликовано на https://crowintelligence.org 11 июня 2020 года.