Парсинг китайских электронных коммерческих веб-сайтов в большом масштабе: реальный случай от DataOx
Table Of Content
- Веб-парсинг электронной коммерции
- Наш опыт
- Проект
- Задача
- Идея
- Проблемы
- Результат
- Преимущества парсинга электронной коммерции
- Мониторинг бренда/репутации
- Исследование предпочтений клиентов
- Анализ конкурентов
- Обнаружение мошенничества
- Почему парсинг идеален для извлечения информации о товарах с платформ электронной коммерции?
- Какие данные можно парсить?
- Проблемы при извлечении данных с сайтов электронной коммерции
- Что важно учитывать при парсинге в большом масштабе?
- Заключительные мысли
В нашей современной, все более цифровой реальности каждая отрасль стремится стать все более ориентированной на данные, и анализ больших объемов данных особенно важен для сферы электронной коммерции.
В то время как дифференциация цен раньше была работоспособной стратегией для создания осведомленности о бренде и лояльности, привлечения большего числа клиентов, сегодняшняя ожесточенная конкуренция между онлайн-платформами розничной торговли вышла далеко за рамки ценообразования. Теперь она сосредоточена на данных о продукте, которые влияют на все, начиная от управления запасами и заканчивая маркетинговыми и продажными стратегиями.
Веб-парсинг электронной коммерции
Когда вы собираете данные из различных источников, вы получаете важную информацию о конкурентной среде и потенциал для превзойдения других игроков на рынке в вашей отрасли.
Сегодня вооружиться необходимой информацией просто. Парсинг данных электронной коммерции эффективно выполняет эту задачу, и когда речь идет о получении публично доступной информации с гигантов электронной коммерции, таких как Amazon, наиболее подходящим подходом является парсинг веб-сайтов в большом масштабе. Парсинг веб-сайтов в большом масштабе включает запуск нескольких парсеров параллельно на одном или нескольких веб-сайтах и извлечение огромного объема данных.
Говоря о парсинге веб-сайтов в большом масштабе, у нас есть много случаев, включая очень большой проект для клиента из Шанхая по парсингу отзывов о продуктах.
Наш опыт
Проект
Наш клиент был нанят одним из самых известных брендов в регионе Азии, и ему требовалось собрать отзывы с ведущих платформ электронной коммерции в Китае для эффективной маркетинговой стратегии. Он обратился к специалистам по парсингу веб-сайтов из DataOx, чтобы справиться с этой задачей.
Задача
Задачей команды DataOx было предоставить нашему клиенту данные о продукте и отзывы, которые мы собрали.
Приблизительный объем составлял миллион продуктов, каждый из которых имел в среднем 10 полей и 50 отзывов для парсинга. В итоге это привело к 50 миллионам комментариев.
Идея
Идея заключалась в том, чтобы собрать все эти данные и, с помощью решения на основе искусственного интеллекта, проанализировать их для
- Проведения анализа настроений
- Улучшения продуктов
- Увеличения продаж
- Повышения узнаваемости бренда
- Улучшения удовлетворенности клиентов
Проблемы
Неудивительно, что процесс скрапинга вышеупомянутых китайских интернет-гигантов для такого огромного объема данных был полон сложностей и трудностей, которые мы успешно преодолели.
Чтобы дать вам представление, мы упомянем некоторые из них ниже.
Требования к входу в систему
Для входа на целевые сайты нам понадобился китайский мобильный номер телефона, поэтому нам пришлось получить один и войти на сайты под китайским IP-адресом.
PDD - это платформа только для мобильных устройств, поэтому мы нашли китайского провайдера, чтобы также войти на сайт под китайским IP-адресом.
Скрапинг мобильных приложений
Поскольку PDD работает только на мобильных устройствах, нам пришлось создать обходной путь и скрестили платформу с помощью специально разработанного мобильного приложения.
Капча
Почти на всех сайтах, которые мы скрестили, были различные типы капчи для каждой страницы, большинство из которых были довольно сложными и на китайском языке. Как вы знаете, большинство команды DataOx находится в Украине, но мы нашли специалиста, который знает язык, и самые сложные капчи были решены вручную нашим коллегой, говорящим на китайском языке.
Пагинация
В зависимости от объема и специфики сайта, может использоваться пагинация, но большое количество страниц вызвало проблемы в нашей работе.
На Tmall, например, пагинация проходит по циклическому пути после 10-й страницы. Поэтому нам пришлось скрестили детали по небольшим группам, переходя от одного продукта к другому.
На JD у нас возникли проблемы с сортировкой после 10-й страницы. Нам нужны были только свежие отзывы для скрестили, но из-за этой проблемы мы скрестили все отзывы, а затем отсортировали их, чтобы взять 100-200 свежих комментариев.
Объем данных
Как мы уже упоминали, объем скрестили в сеансе комментариев был оценен в десятки миллионов. Чтобы управлять всеми этими данными, нам понадобилась специальная система. Команда разработки DataOx создала кластер на основе Kubernetes с использованием системы Rancher. Комбинация этих двух технологий привела к быстрой и эффективной системе управления данными.
Изменения дизайна
Несмотря на то, что мы разрабатываем универсальные скреперы для наших проектов и только значительные изменения дизайна могут повлиять на его работу, различное кодирование страниц стало для нас вызовом. В зависимости от ситуации мы использовали либо умный парсер, либо инструмент, работающий с конкретной структурой страницы.
Качество данных
Поддержание качества данных всегда является вызовом для обширных проектов; но когда вы скрестили информацию на китайском языке, все становится еще сложнее. Однако для нашей команды это была еще одна интересная задача, которую мы выполнили: мы интегрировали переводчик в нашу техническую систему пользовательского интерфейса.
Результат
Наш клиент был удовлетворен нашей работой, которая превзошла его первоначальные ожидания для DataOx. Исходные цели проекта были достигнуты, и необходимые оптимизации были внедрены маркетинговой командой нашего клиента.
Как видно, получение доступа, парсинг и обработка этих данных - огромное достижение, но оно предлагает ряд конкретных преимуществ. Давайте немного рассмотрим их.
Преимущества парсинга электронной коммерции
Парсинг веб-данных позволяет предпринимателям быстро и эффективно собирать бизнес-интеллект, предоставляя им общую картину рынка, в котором они работают, включая актуальные деловые условия, текущие тренды, предпочтения клиентов, стратегии конкурентов и проблемы генерации потенциальных клиентов.
Через веб-сайты электронной коммерции, парсинговые компании чаще всего преследуют следующие цели:
Мониторинг бренда/репутации
Огромные платформы электронной коммерции являются идеальным источником для исследования отношения потребителей к выбранному бренду, будь то ваша компания или продукт, который вы собираетесь продавать. Путем парсинга веб-сайтов электронной коммерции вы буквально можете услышать, что говорят и жалуются ваши целевые и реальные клиенты, тем самым выявляя их проблемные моменты и своевременно реагируя на них.
Исследование предпочтений клиентов
Прямое прослушивание ваших клиентов через отзывы и обратную связь позволяет определить ключевые факторы, которые способствуют продажам в вашем сегменте рынка. Путем извлечения и анализа отзывов с правильными целями ваш бизнес может удовлетворить потребности своей целевой аудитории, привлечь больше клиентов и увеличить продажи.
Анализ конкурентов
Проверка репутации вашего бренда и прослушивание мнения клиентов недостаточно. Мониторинг ваших конкурентов позволяет обнаружить недостатки, которые вы ранее не заметили. Парсинг отзывов о продуктах конкурентов может помочь вам определить спрос клиентов на определенную функцию и стать пионером в ее внедрении в ваш продукт или услугу.
Обнаружение мошенничества
Подделанные товары представляют угрозу для брендов, влияя не только на продажи, но и нанося ущерб репутации бренда, когда клиент не осознает, что приобрел подделку. Парсинг электронных коммерческих сайтов для получения отзывов позволяет обнаружить намеки на текущее мошенничество или идентифицировать партнеров/конкурентов, не соблюдающих своих обязательств.
Парсинг веб-данных является идеальным решением для получения доступа к огромному количеству информации о продуктах и отзывах сразу. Давайте выясним, почему.
Почему парсинг идеален для извлечения информации о товарах с платформ электронной коммерции?
Когда вам нужна информация о товаре, который вы собираетесь продвигать, невозможно вручную извлечь все детали и отзывы из-за огромного объема доступных данных. Кроме того, такая работа делает информацию подверженной человеческим ошибкам, в то время как автоматизированное извлечение данных гораздо быстрее, эффективнее и работает в большом масштабе. Посмотрите, как извлечь данные с веб-сайта ниже.
Программное обеспечение способно просматривать тысячи списков товаров и захватывать необходимые детали - цены, количество вариантов, отзывы или что-то еще - за считанные часы.
Кроме того, технология парсинга позволяет извлекать детали, которые невидимы для пользователя или защищены от обычного копирования и вставки.
Еще одно преимущество технологического решения - сохранение данных в удобных для обработки и анализа читаемых и понятных форматах.
Какие данные можно парсить?
Тип данных, которые можно парсить, определяется вашими целями, поэтому для парсинга данных с интернет-магазина и их дальнейшего использования вам необходимо понимать веб-данные и цели, которые вы установили.
Давайте возьмем популярную платформу электронной коммерции, например, Amazon. С нее мы можем парсить:
Однако знание того, какие данные можно парсить, недостаточно; вы должны знать, как эффективно парсить товары с платформ электронной коммерции. Когда вам нужно парсить 20 больших сайтов и данные из 25-30 подкатегорий в одной категории, вы сталкиваетесь с более чем 500 запросами. Кроме того, категории часто обновляются с переменной частотой, ежедневно, раз в два или три дня, еженедельно и т. д. Также может быть до 10 000 отзывов на один товар, что означает более 10 000 запросов для их парсинга. Кроме того, сайты не любят, когда их парсят, поэтому необходимо заранее учитывать анти-парсинговые техники.
Все эти факторы, вместе с конкретными требованиями в отношении соблюдения правовых норм или оптимизации внутренней работы, приводят к сложному процессу, состоящему из нескольких действий и соответствующего бюджета.
Проблемы при извлечении данных с сайтов электронной коммерции
Как уже упоминалось выше, сайты не любят быть разбираемыми; их команды разработчиков и администраторы сайтов делают все возможное, чтобы предотвратить извлечение информации. Однако хороший специалист по парсингу всегда знает, что делать.
Знание общих проблем парсинга данных позволяет автоматизировать и улучшить определенные части процесса с помощью различных цифровых решений, основанных на технологии машинного обучения или искусственного интеллекта.
Общие, хорошо известные преграды для гладкого парсинга включают:
- Изменения в дизайне и структуре веб-страницы
- Использование уникальных элементов
- Использование технологий защиты от парсинга
- Ловушки HoneyPot
- Captcha
Однако, чем масштабнее проект, тем больше трудностей возникает при сборе данных и тем больше усилий следует приложить для обеспечения их качества. Здесь вы столкнетесь с следующими проблемами:
Построение правильного пути обхода и сбор необходимых URL-адресов
При работе с несколькими товарами с сайта электронной коммерции вам необходимо точно построить путь обхода, библиотеку URL-адресов для извлечения данных. Все необходимые URL-адреса должны быть учтены, определены как важные для вашего случая и позже разобраны и извлечены.
Создание эффективного парсера
Здесь главное - выбрать правильный язык и API, а также фреймворк и другой стек технологий. Затем следует учесть управление и поддержку инфраструктуры, а также противодействие отпечаткам и защите сайта.
Хотя вы можете соблазниться разработкой отдельных парсеров для каждого сайта, наша лучшая практика и совет заключается в том, чтобы иметь одного бота, разработанного с учетом всех правил, схем, макетов страниц и особенностей целевых сайтов. Чем более настраиваемым будет ваш инструмент, тем лучше, хотя он может быть сложным, его будет проще настроить и поддерживать в будущем.
Создание масштабируемой архитектуры
Когда речь идет о электронной коммерции, нет сомнения, что количество запросов будет увеличиваться по мере расширения вашего проекта. Ваша инфраструктура обхода также потребует масштабирования. Поэтому вам необходимо разработать архитектуру таким образом, чтобы она могла обрабатывать миллионы запросов в день без снижения производительности.
Как это сделать хорошо?
Прежде всего, вам необходимо убедиться, что ваш инструмент может обнаруживать и извлекать все необходимые страницы товаров в установленное время (часто один день), и для этого вы должны:
Разделить обнаружение товара и извлечение товара
Позвольте отдельным инструментам обнаруживать информацию и извлекать ее. Первый должен переходить на необходимую категорию и сохранять соответствующие URL-адреса в специальную очередь, а второй должен извлекать информацию из этих страниц товаров.
Выделите больше ресурсов для извлечения
Естественно, категория товара содержит до 100 отдельных элементов, поэтому извлечение деталей каждого элемента потребляет больше ресурсов, чем его URL-адрес. Поэтому вы должны не только разделять ботов для обнаружения и извлечения, но также иметь несколько парсеров для определенного количества страниц.
Принятие контрмер против ботов
При парсинге сайтов электронной коммерции вы всегда столкнетесь с сайтами, которые используют контрмеры против ботов. В то время как вы столкнетесь с базовыми контрмерами на меньших сайтах, крупные платформы электронной коммерции предложат вам более сложные решения и, скорее всего, затруднят процесс извлечения данных.
Качество данных
Качество данных является основным аспектом любой задачи по парсингу веб-страниц, и при масштабных проектах особое внимание следует уделять качеству данных. Когда вы извлекаете миллионы точек данных за одну сессию, невозможно вручную проверить их правильность. Однако даже небольшое снижение точности может нарушить ваши усилия по анализу данных и вызвать серьезные проблемы не только для проекта парсинга, но и для всего бизнеса.
Для обеспечения высокого качества извлеченных данных необходимо применять меры контроля качества на всем протяжении процесса обработки данных.
Наиболее распространенные ошибки данных, с которыми мы сталкиваемся в наших проектах, включают:
- Дубликаты
- Ошибки проверки данных
- Несогласованность покрытия
- Ошибки в деталях товара
Сначала вы должны убедиться, что ваши парсеры собирают правильные данные из правильных разделов и полей сайта. Затем извлеченную информацию необходимо проверить с помощью определенных алгоритмов проверки данных на актуальность, согласованность, точность и правильное форматирование. Извлеченная информация должна соответствовать заранее определенным руководствам и проходить тестовые фреймворки вашего проекта.
Кстати, современные передовые технологии машинного обучения и искусственного интеллекта, используемые в проектах парсинга веб-страниц, могут предоставить вам непревзойденное конкурентное преимущество перед конкурентами, а также сэкономить много времени и ресурсов.
Больше о поддержке качества данных можно прочитать здесь.
Что важно учитывать при парсинге в большом масштабе?
При парсинге в большом масштабе следует иметь в виду, что крупные интернет-магазины часто изменяют свою структуру, дизайн и шаблон категорий и подкатегорий. Вам следует назначить ответственного за обслуживание парсера и своевременные корректировки его кода.
Незамеченные изменения в структуре сайта и последующее несвоевременное внесение изменений в парсер могут привести к получению неполных данных или, в худшем случае, к его аварийной остановке. Чтобы гарантировать высокое качество полученных данных, разумно иметь специальный инструмент, который будет обнаруживать изменения в шаблоне сайта и уведомлять техническую команду о них.
Когда речь идет о преодолении мер, направленных на борьбу с парсингом, недостаточно полагаться на ротацию IP-адресов; необходимо иметь человека, способного исследовать и находить нестандартные решения для поддержания работоспособности инструмента.
Как только бизнес-команда добавляет больше категорий или сайтов в проект, вам следует быть готовым масштабировать ваши инструменты парсинга и общую инфраструктуру управления данными соответствующим образом.
При управлении огромными объемами собранных данных вам следует иметь либо надлежащую инфраструктуру хранения данных, разработанную внутри компании, либо надежный облачный инструмент для работы с ними.
Заключительные мысли
Как вы можете видеть из всех вышеупомянутых пунктов, парсинг данных о товарах на электронных коммерческих сайтах в больших масштабах имеет свой набор уникальных проблем. Однако существуют способы справиться с ними. Наша команда обладает достаточным энтузиазмом, опытом и креативными мыслителями, чтобы легко извлекать данные о товарах в больших масштабах.
Качество данных - наш приоритет, и именно это ценят наши клиенты, поскольку оно позволяет им опережать конкурентов с помощью обоснованных маркетинговых решений. Если вы хотите узнать больше, запишитесь на консультацию с нашим экспертом и обсудите свой конкретный проект и вопросы.
Оригинальная публикация на сайте https://data-ox.com от 19 декабря 2020 года.