Парсинг отзывов о продукте на веб-сайте за 3 минуты.
Table Of Content
Самый востребованный парсинг электронной коммерции.
В этом анализе мы сначала парсим информацию о одном из самых продаваемых продуктов, а именно Crocs с Amazon. Набор данных содержит отзывы, оставленные покупателями о Crocs, которые они приобрели, а также другие важные детали. Затем мы используем этот набор данных, чтобы ответить на несколько вопросов о продукте.
Что такое парсинг? Просто говоря, это извлечение данных из интернета/веб-сайтов для различных видов анализа. Мы можем лучше понять это, взяв промышленный пример.
Давайте разделим эту полную задачу анализа на 3 разных файлов .ipynb
для лучшего понимания и более удобной презентации. Вся эта задача, то есть все три файла, будет опубликована в трех отдельных статьях, чтобы можно было следовать отдельным статьям в соответствии с требованиями. В первом файле, то есть в файле Dataset_Creation
, мы парсим следующую информацию со страницы отзывов о продукте - Crocs:
- author_name: Содержит имя клиента, который оставил отзыв.
- title: Показывает заголовок отзыва.
- rating: Показывает рейтинг, присвоенный клиентом продукту в этом отзыве.
- review: Показывает отзыв, оставленный клиентом.
- size: Показывает размер и цвет приобретенных рецензентом Crocs.
- helpfulness: Показывает количество людей, которые нашли отзыв полезным.
- review_date: Показывает дату, когда клиент оставил отзыв.
Шаг 1: Чтобы начать извлечение данных из Amazon, мы импортируем некоторые библиотеки Python, которые будут использоваться для этой задачи.
- BeautifulSoup (https://www.crummy.com/software/BeautifulSoup/bs4/doc/): Эта библиотека помогает извлекать определенный контент и удалять HTML-разметку. Мы будем использовать эту библиотеку, чтобы получить данные, относящиеся к нашему анализу, из HTML-страницы (т.е. страницы отзывов Amazon).
- requests (https://requests.readthedocs.io/en/master/): Эта библиотека помогает отправлять HTTP-запрос и получать в ответ объект ответа, содержащий все данные.
- pandas (https://pandas.pydata.org/pandas-docs/stable/): Это одна из самых важных библиотек Python, используемых для задач анализа данных. Мы будем использовать эту библиотеку для создания фрейма данных и сохранения его в файл .csv.
Шаг 2: В этом шаге мы пишем метод для получения данных с использованием тегов Html. Мы начинаем с передачи url в качестве параметра метода. Это будет использоваться для передачи веб-страницы, с которой мы должны получить данные. Функция содержит несколько входных параметров:
- headers.
- user-agent: Это строка идентификации, которая содержит информацию, такую как версия программного обеспечения, операционная система и т. д.
- soup: Это объект, который содержит контент, выглядящий структурированным благодаря методу beautifulsoup.
В цикле for мы находим все элементы, содержащие тег div. Затем мы фильтруем необходимую информацию, используя теги из Html-страницы для разбора.
Шаг 3: Мы пишем цикл for
, чтобы вызвать url с использованием метода, определенного в шаге 2. Здесь 'i' обозначает номер страницы, с которой извлекаются данные. Это помогает извлекать данные с нескольких страниц, используя тот же метод.
Шаг 4: Теперь мы преобразуем собранные данные в фрейм данных с помощью библиотеки pandas и даем соответствующие имена столбцов в соответствии с категорией данных.
В качестве последнего шага создания данных мы сохраняем набор данных в файл .csv
в локальном хранилище, который мы будем использовать в дальнейшем процессе анализа данных.
Вот как работает парсинг для любой онлайн-платформы. Это действительно просто, когда вы правильно понимаете и следуете вышеуказанному процессу. Изменения в вышеуказанном коде могут помочь получить и другие сегменты информации.
Спасибо за чтение!