CoderCastrov logo
CoderCastrov
Парсер

Парсинг веб-страниц с использованием Nokogiri

Парсинг веб-страниц с использованием Nokogiri
просмотров
1 мин чтение
#Парсер
Table Of Content

    Итак, вы хотите получить данные с веб-сайта, но не хотите делать это вручную?

    Вам повезло! Сегодня я покажу вам, как использовать Nokogiri, фантастический Ruby-гем, чтобы парсить веб-страницы легко и просто.

    Что такое Nokogiri, спросите вы?

    Nokogiri - это Ruby-гем, который помогает вам разбирать, искать и изменять HTML- и XML-документы. (Больше нет необходимости вручную искать данные!)

    Сначала давайте установим гем.

    gem install nokogiri

    Установили? Отлично! Теперь давайте приступим к написанию кода.

    require 'nokogiri'
    require 'open-uri'
    
    url = "https://example.com" # Замените это на веб-сайт, с которого вы хотите получить данные
    doc = Nokogiri::HTML(URI.open(url))

    В приведенном выше фрагменте мы подключаем Nokogiri и open-uri. Затем мы определяем веб-сайт, с которого хотим получить данные, и используем Nokogiri::HTML для разбора HTML-документа. Просто, верно?

    Теперь, когда у нас есть HTML, давайте извлечем некоторые данные.

    doc.css('css_selector_here').each do |element|
      puts element.content
    end

    Вам нужно просто заменить 'css_selector_here' на соответствующий CSS-селектор. Если вы не знакомы с CSS-селекторами, ознакомьтесь с этим удобным руководством: CSS Selector Reference

    Вот и все! С помощью всего нескольких строк кода на Ruby и силы Nokogiri вы можете автоматизировать парсинг веб-страниц как профессионал.

    Однако помните: парсинг веб-страниц может быть двухсторонним мечом. Будьте уважительны к условиям использования веб-сайтов и избегайте перегрузки их серверов запросами. Удачного парсинга!