Вы можете рассматривать это как некоторое продолжение моей предыдущей серии Что все читают сегодня?, которая была посвящена анализу читательских привычек.

В этой серии я получал данные вручную с веб-сайта ScribbleHub.com, интернет-репозитория веб-романов, подобного Wattpad.

В прошлом году я наблюдал за ним целый месяц, чтобы тщательно получить данные о трафике и объеме текста для проведения анализа, который затем стал основой для вышеупомянутой серии.

Но теперь 2023 год, и я могу просто расслабиться и отдохнуть, позволить GPT-4 сделать всю работу и похвалить себя.

Смогу ли я достичь своей цели сделать то же самое, что и в прошлом году, потратив лишь часть времени и усилий?

Конечно, смогу!

Или по крайней мере, так я подумал.

Вот что я сделал - и что вы можете сделать.

1 — Сначала я получил доступ к своей учетной записи чата GPT-4.

Вы можете сделать то же самое, перейдя по адресу https://chat.openai.com. Если у вас есть подписка хотя бы на уровне GPT Plus, вы можете получить доступ к списку бета-функций и плагинов.

Для этого нажмите на меню в левом нижнем углу экрана:

Нажмите на «Настройки и бета-версии». В панели «Настройки» переключите кнопку «Расширенный анализ данных»:

Это позволит вам получить доступ к версии GPT-4, ранее известной как «Code Interpreter» (недавно переименованной).

Примечание: конечно, этот руководство предоставляется только в иллюстративных целях. Мы все взрослые, давайте быть ответственными с нашими данными ❤

(️Если вы хотите увидеть пример важности ответственного отношения к своим данным, эта моя предыдущая серия дает несколько указаний. Эй, это может спасти ваш следующий отпуск!)

2 — Я выбрал страницу, которую хотел проанализировать

Это приводит нас к сайту Scribblehub. Я часто использую этот сайт для анализа данных, потому что он предоставляет отличную информацию в своем продвинутом исследовании, называемом Series Finder.

Я применил свои обычные фильтры: обновленные за последние два месяца, без фанфиков и содержащие не менее 50 000 слов. Мы хотим увидеть уже установленные серии и как они справляются.

На этом этапе мы визуализируем инструменты разработчика, чтобы проверить код веб-страницы.

В Chrome это будет клавиша F12 или Ctrl+Shift+I.

Результат должен быть похож на скриншот ниже:

Looks terrible enough. I’d say we can go on with extreme confidence.

Затем я сохранил страницу с именем в виде HTML-файла.

3 — Я вызвал GPT-4

Вот суть дела.

Сначала мы загружаем HTML-страницу, чтобы Интерпретатор кода - или теперь он называется Анализ данных - мог взглянуть:

И теперь давайте попробуем этот промпт. Должно быть достаточно просто, верно?

Но GPT похоже не очень это нравится:

Хм. Вот где вступает в действие обезьянье мозг.

Вернемся к коду веб-страницы и давайте посмотрим на исходную страницу. Если GPT нужны идентификаторы, мы дадим их. Каждый элемент, который нам нужен, должен быть закодирован на странице, и после некоторого раздумья мы начинаем их находить:

Теперь мы просто копируем и вставляем нужные нам примеры кода в промпт, убедившись, что указываем идентификатор на исходной странице, чтобы GPT знал, что искать:

Новый и улучшенный промпт. «Спасибо» необязательно, но я бы оставил.

На этот раз GPT-4 кажется еще более готовым помочь. Можно сказать, что бедненький дорогой выглядит просто взволнованным!

Как мило. Давайте теперь проверим этот CSV-файл. Я уверен, что все прошло хорошо.

Успех! Интерпретатор кода выбрал все, что нам нужно.

Вернемся к исходной странице и проверим.

После быстрой проверки все кажется в порядке, за исключением небольшой путаницы в строке 15:

история, у которой в заголовке была запятая, которая была интерпретирована как разделитель (все-таки это значения, разделенные запятыми). Но ничего, что мы не можем исправить.

Итак, как видите, я смог сэкономить много времени и получить почти идеальные результаты.

Я сэкономил себе много набора текста и головной боли, и также не рисковал вводить неправильные значения!

Теперь я могу провести серьезный анализ данных, как только я немного очищу данные: просто нужно избавиться от всех этих строк с «k» и «M» в числовых полях... и, эм, преобразовать числа из сотен и тысяч в однородную шкалу... и, возможно, убедиться, что каждое число, которое мы получили, правильное.

И, конечно же, немного обрезать. И...

Это не выглядит правильным форматом, эм...

Ухм.

Возможно, это окажется немного более трудоемким, чем я думал.

Увидимся в понедельник с продолжением - и почему я не продолжал парсить этот сайт этим методом.

Спасибо за чтение.

Как я использовал GPT-4 для парсинга моего любимого веб-сайта - и потом не сделал этого

1 — Сначала я получил доступ к своей учетной записи чата GPT-4.

2 — Я выбрал страницу, которую хотел проанализировать

3 — Я вызвал GPT-4