Недостатки наших подсказок — Как я не использовал GPT-4 для парсинга моего любимого веб-сайта
Table Of Content
В прошлый раз мы рассмотрели простую процедуру для парсинга данных из сохраненных HTML-страниц.
Мы также столкнулись с несколькими проблемами. После экспорта в Excel или другие программы (я использовал Excel, Power BI и Numbers), данные требовали очистки.
Вот список некоторых проблем, с которыми мы столкнулись:
Неправильный формат Несколько форматов данных в одной ячейке Пробелы Проблемы с обработкой данных
И так далее-
Мой посыл здесь заключается в том, что, хотя этот процесс позволяет получить правильные данные со страницы и демонстрирует отличный потенциал, он не является лучшим для этой конкретной потребности.
Почему? Потому что, если я заполняю свои таблицы очень небольшим количеством данных (примерно сто всего), это то, что я могу сделать самостоятельно.
Короче говоря, количество времени и усилий, необходимых для обработки данных, полученных от GPT, больше, чем если бы я делал это сам.
После нескольких изменений подсказок и запросов помощи у бота, кажется, что он согласен со мной:
И все же.
Метод по-прежнему действителен. Большинство проблем, с которыми мы столкнулись, были связаны с особенностями хранения числовых данных в исходном коде веб-страницы, что затрудняет их обработку. Если бы они были записаны в виде целых чисел, например 6.86M как 6860000, я сомневаюсь, что мы столкнулись бы с такими же проблемами.
Недостаток заключается в наших подсказках.
Я планирую продолжать экспериментировать с этим методом и посмотреть, как я могу научиться лучше его использовать. В следующий раз я хочу создать живую панель управления благодаря некоторым плагинам GPT, и я обновлю эту серию с новым методом, как только получу хорошие результаты.
Скоро увидимся.
Спасибо за чтение.