Как я использовал GPT-4 для парсинга моего любимого веб-сайта - и потом не сделал этого
Вы можете рассматривать это как некоторое продолжение моей предыдущей серии Что все читают сегодня?, которая была посвящена анализу читательских привычек.
В этой серии я получал данные вручную с веб-сайта ScribbleHub.com, интернет-репозитория веб-романов, подобного Wattpad.
В прошлом году я наблюдал за ним целый месяц, чтобы тщательно получить данные о трафике и объеме текста для проведения анализа, который затем стал основой для вышеупомянутой серии.
Но теперь 2023 год, и я могу просто расслабиться и отдохнуть, позволить GPT-4 сделать всю работу и похвалить себя.
Смогу ли я достичь своей цели сделать то же самое, что и в прошлом году, потратив лишь часть времени и усилий?
Конечно, смогу!
Или по крайней мере, так я подумал.
Вот что я сделал - и что вы можете сделать.
1 — Сначала я получил доступ к своей учетной записи чата GPT-4.
Вы можете сделать то же самое, перейдя по адресу https://chat.openai.com. Если у вас есть подписка хотя бы на уровне GPT Plus, вы можете получить доступ к списку бета-функций и плагинов.
Для этого нажмите на меню в левом нижнем углу экрана:
Нажмите на «Настройки и бета-версии». В панели «Настройки» переключите кнопку «Расширенный анализ данных»:
Это позволит вам получить доступ к версии GPT-4, ранее известной как «Code Interpreter» (недавно переименованной).
Примечание: конечно, этот руководство предоставляется только в иллюстративных целях. Мы все взрослые, давайте быть ответственными с нашими данными ❤
(️Если вы хотите увидеть пример важности ответственного отношения к своим данным, эта моя предыдущая серия дает несколько указаний. Эй, это может спасти ваш следующий отпуск!)
2 — Я выбрал страницу, которую хотел проанализировать
Это приводит нас к сайту Scribblehub. Я часто использую этот сайт для анализа данных, потому что он предоставляет отличную информацию в своем продвинутом исследовании, называемом Series Finder.
Я применил свои обычные фильтры: обновленные за последние два месяца, без фанфиков и содержащие не менее 50 000 слов. Мы хотим увидеть уже установленные серии и как они справляются.
На этом этапе мы визуализируем инструменты разработчика, чтобы проверить код веб-страницы.
В Chrome это будет клавиша F12 или Ctrl+Shift+I.
Результат должен быть похож на скриншот ниже:
Затем я сохранил страницу с именем в виде HTML-файла.
3 — Я вызвал GPT-4
Вот суть дела.
Сначала мы загружаем HTML-страницу, чтобы Интерпретатор кода - или теперь он называется Анализ данных - мог взглянуть:
И теперь давайте попробуем этот промпт. Должно быть достаточно просто, верно?
Но GPT похоже не очень это нравится:
Хм. Вот где вступает в действие обезьянье мозг.
Вернемся к коду веб-страницы и давайте посмотрим на исходную страницу. Если GPT нужны идентификаторы, мы дадим их. Каждый элемент, который нам нужен, должен быть закодирован на странице, и после некоторого раздумья мы начинаем их находить:
Теперь мы просто копируем и вставляем нужные нам примеры кода в промпт, убедившись, что указываем идентификатор на исходной странице, чтобы GPT знал, что искать:
На этот раз GPT-4 кажется еще более готовым помочь. Можно сказать, что бедненький дорогой выглядит просто взволнованным!
Как мило. Давайте теперь проверим этот CSV-файл. Я уверен, что все прошло хорошо.
Успех! Интерпретатор кода выбрал все, что нам нужно.
Вернемся к исходной странице и проверим.
После быстрой проверки все кажется в порядке, за исключением небольшой путаницы в строке 15:
история, у которой в заголовке была запятая, которая была интерпретирована как разделитель (все-таки это значения, разделенные запятыми). Но ничего, что мы не можем исправить.
Итак, как видите, я смог сэкономить много времени и получить почти идеальные результаты.
Я сэкономил себе много набора текста и головной боли, и также не рисковал вводить неправильные значения!
Теперь я могу провести серьезный анализ данных, как только я немного очищу данные: просто нужно избавиться от всех этих строк с «k» и «M» в числовых полях... и, эм, преобразовать числа из сотен и тысяч в однородную шкалу... и, возможно, убедиться, что каждое число, которое мы получили, правильное.
И, конечно же, немного обрезать. И...
Ухм.
Возможно, это окажется немного более трудоемким, чем я думал.
Увидимся в понедельник с продолжением - и почему я не продолжал парсить этот сайт этим методом.
Спасибо за чтение.