Как ежедневно парсить сайт в облаке с помощью Selenium от А до Я? (Часть 1/4)
Введение:
Для выполнения этой задачи нам нужно знать, как выполнить 3 вещи:
Для парсинга сайта мы будем использовать Python.
Для запуска программы в облаке мы будем использовать Google Cloud.
Для запуска нашей программы ежедневно мы будем использовать crontab.
Для хранения наших данных мы будем использовать Google Sheets с помощью его API.
Чтобы научить вас всему этому, мы попытаемся спарсить веб-страницу: https://www.pinnacle.com/fr/baseball/matchups/
Отправляя матчи бейсбола и их информацию (коэффициенты, даты, игроки, турниры) в таблицу Google Sheets, и делать это каждый день с помощью облачного сервера.
Учебник можно разделить на 4 части:
Весь код, используемый в этом учебнике, доступен в моем репозитории Git: https://github.com/ArnaudHureaux/scraping-with-google-cloud
1) Часть 1: Получение личного сервера Google Cloud
Перейдите на эту страницу: https://cloud.google.com/free
Войдите в свою учетную запись Google:
Перейдите в "Compute Engine" -> "VM instances":
Создайте новый экземпляр VM (новый экземпляр виртуальной машины):
Выберите регион, ближайший к вашему месту проживания, и используйте эту конфигурацию:
Хорошо, теперь, когда VM создана, подключитесь к ней, нажав кнопку SSH (красная):
Поздравляю, у вас есть работающий сервер Linux!
Теперь осталось только настроить этот сервер для регулярного парсинга целевого сайта :)
Ссылка на следующую часть: https://medium.com/@hureauxarnaud/comment-scraper-un-site-quotidiennement-en-cloud-avec-selenium-from-a-to-z-partie-2-4-19104a48538
Не стесняйтесь связаться со мной в LinkedIn, если у вас есть вопросы / познакомиться: www.linkedin.com/in/arnaud-hureaux-895421159