ИССЛЕДОВАТЬ Целевой контент
Table Of Content
Просмотрите исходный код перед началом разработки. Многие веб-сайты предлагают более удобные способы извлечения данных, чем селекторы CSS. Стандартным способом предоставления данных являются богатые фрагменты, например, с помощью JSON Schema.org или атрибутов данных itemprop
. Другие используют скрытые поля для внутренних целей (например, идентификаторы, категории, код товара), и вы можете воспользоваться этим. Здесь есть больше, чем просто видно.
Некоторые другие сайты полагаются на XHR-запросы после первой загрузки для получения данных. И они структурированы! Для нас самым простым способом является просмотр сайта с открытой панелью инструментов разработчика и проверка как HTML, так и вкладки "Сеть". Вы получите ясное представление и решите, как извлечь данные всего за несколько минут. Эти трюки не всегда доступны, но они могут сэкономить вам головную боль при использовании их. Метаданные, например, менее изменчивы, чем классы HTML или CSS, что делает их более надежными и поддерживаемыми в долгосрочной перспективе.
Мы написали о исследовании перед кодированием с примерами и кодом на Python; ознакомьтесь для получения дополнительной информации.