Парсинг веб-страниц с помощью Python
Table Of Content
Полноценный пример выполнимого кода для начала работы
Хотите быстрый пример выполнимого кода для парсинга веб-страниц с помощью Python? Вот он. Просто скопируйте, вставьте и выполните.
Ниже приведен снимок экрана веб-сайта, используемого в этом примере:
Программа (ниже) парсит веб-сайт и выводит данные о перехватах в американском футболе (NFL). Надеюсь, комментарии в коде достаточно понятны для понимания процесса.
Сложность заключается в HTML-данных, которые представляют собой смесь контекстуальных данных, вкрапленных в HTML-теги и специальные символы (строка xx в коде). Есть и другие пакеты, такие как Beautiful Soup (ссылка), которые помогают извлекать данные. Beautiful Soup - это широко используемый пакет для Python с отличной документацией, который может упростить процесс парсинга веб-страниц. В нашем простом примере мы используем относительные выражения для поиска и извлечения данных.
С помощью этой программы можно получить доступ к практически любому веб-сайту (просто измените URL и извлекаемые данные). Примерами использования могут быть маркетинг, финансы, медицина, экономика и исследования.
В нашем примере извлеченные данные загружаются в объект Pandas dataframe. В реальном приложении можно загрузить данные в объект Pandas dataframe или базу данных SQL для дальнейшего анализа, интеграции с другими данными или использования в машинном обучении. Мы использовали эти данные NFL, вместе с другими подобными данными, для прогнозирования футбольных матчей с использованием различных алгоритмов машинного обучения (статья о прогнозировании NFL с помощью модели машинного обучения).
Надеюсь, этот пример поможет вам начать. Мой партнер Дэвид Фай и я разрабатываем эти примеры для нашего проекта по искусственному интеллекту в игровой индустрии, ai_affinity (решения от игр к промышленности). Мы будем рады вашим комментариям и предложениям (ai_affinity@gmx.com).
Благодарности:
Благодарность Дэвиду Фай (https://github.com/dsfai2020_ ), сотруднику ai_affinity, который внес вклад в содержание статьи и программирование._