Питон
Начало работы с парсингом веб-сайтов с использованием Scrapy и Python
Table Of Content
Сначала установите Pip
Pip - это менеджер пакетов для Python. Есть несколько странных моментов, первый из которых связан с активным вопросом на stackoverflow, что скрипт установки pip на Mac не работает должным образом, вместо этого вам нужно выполнить:
$ python -m ensurepip --upgrade --user
После этого у вас должна быть доступна команда "pip3". Почему она не называется просто "pip" связано с некоторыми проблемами в сообществе Python, но мы просто примем это.
$ pip3 --version
pip 21.3.1 from /usr/local/lib/python3.9/site-packages/pip (python 3.9)
Установка Scrapy
Теперь, когда у нас есть pip, мы можем использовать его для установки Scrapy:
$ pip3 install Scrapy
Затем мы видим:
$ scrapy --version
Scrapy 2.6.1 - нет активного проектаПрименение:
scrapy <команда> [опции] [аргументы]Доступные команды:
bench Быстрый тест производительности
commands
fetch Получить URL с помощью загрузчика Scrapy
genspider Создать новый парсер, используя предопределенные шаблоны
runspider Запустить автономный парсер (без создания проекта)
settings Получить значения настроек
shell Интерактивная консоль для парсинга
startproject Создать новый проект
version Вывести версию Scrapy
view Открыть URL в браузере, как видит его Scrapy[ more ] Дополнительные команды доступны при запуске из каталога проектаЧтобы узнать больше информации о команде, используйте "scrapy <команда> -h"
Создание проекта
Теперь, когда у нас установлен Scrapy, мы можем следовать инструкциям по началу работы, чтобы создать новый проект.
Это создаст проект под названием "dataharvester":
$ scrapy startproject dataharvester