CoderCastrov logo
CoderCastrov
Питон

Начало работы с парсингом веб-сайтов с использованием Scrapy и Python

Начало работы с парсингом веб-сайтов с использованием Scrapy и Python
просмотров
1 мин чтение
#Питон

Сначала установите Pip

Pip - это менеджер пакетов для Python. Есть несколько странных моментов, первый из которых связан с активным вопросом на stackoverflow, что скрипт установки pip на Mac не работает должным образом, вместо этого вам нужно выполнить:

$ python -m ensurepip --upgrade --user

После этого у вас должна быть доступна команда "pip3". Почему она не называется просто "pip" связано с некоторыми проблемами в сообществе Python, но мы просто примем это.

$ pip3 --version
pip 21.3.1 from /usr/local/lib/python3.9/site-packages/pip (python 3.9)

Установка Scrapy

Теперь, когда у нас есть pip, мы можем использовать его для установки Scrapy:

$ pip3 install Scrapy

Затем мы видим:

$ scrapy --version
Scrapy 2.6.1 - нет активного проектаПрименение:
  scrapy <команда> [опции] [аргументы]Доступные команды:
  bench         Быстрый тест производительности
  commands
  fetch         Получить URL с помощью загрузчика Scrapy
  genspider     Создать новый парсер, используя предопределенные шаблоны
  runspider     Запустить автономный парсер (без создания проекта)
  settings      Получить значения настроек
  shell         Интерактивная консоль для парсинга
  startproject  Создать новый проект
  version       Вывести версию Scrapy
  view          Открыть URL в браузере, как видит его Scrapy[ more ]      Дополнительные команды доступны при запуске из каталога проектаЧтобы узнать больше информации о команде, используйте "scrapy <команда> -h"

Создание проекта

Теперь, когда у нас установлен Scrapy, мы можем следовать инструкциям по началу работы, чтобы создать новый проект.

Это создаст проект под названием "dataharvester":

$ scrapy startproject dataharvester