Миграция Cloud Storage в BigQuery с помощью Composer - проект GCP [ru]
Table Of Content
Этот проект представляет собой миграцию данных из Cloud Storage в BigQuery с помощью ETL, который загружает данные. Он будет оркестрироваться с помощью Cloud Composer для выполнения. Из BigQuery будет извлекаться информация для создания отчета в Data Studio.
Источником данных, используемых в проекте, являются данные, полученные при парсинге веб-страницы SNIIN (http://www.economia-sniim.gob.mx/Sniim-anANT/e_SelAzu.asp). Код парсинга представлен здесь: https://gitlab.com/vdelapuentea/demo-composer/-/blob/main/Scraping.ipynb
Предлагаемая архитектура выглядит следующим образом:
Предлагаемые службы GCP включают Cloud Storage, Cloud Composer, BigQuery и Data Studio. Архитектура является PaaS и Serverless, так как используемые службы масштабируемы и гибки для создания отчетов и обновления источника данных в облаке. Эта архитектура позволяет компаниям получить первое представление о скорости, гибкости и мощности инструментов GCP с любого устройства с доступом в Интернет.
Для реализации этой демонстрации были загружены данные из парсинга, эти данные сохранены в формате csv, и этот csv-файл сохранен в Cloud Storage.
Для загрузки данных из Data Lake (Cloud Storage) в Data Warehouse (BigQuery) была использована служба Cloud Composer.
Мы входим в созданную среду в Composer, в данном случае она называется Demo. Мы создаем DAG для этой демонстрации с названием "pass_GS_to_BQ".
Затем мы переходим в "OPEN DAGS FOLDER" и открывается новое окно.
Здесь мы загружаем код, который поможет нам выполнить миграцию из Cloud Storage в BigQuery.
https://gitlab.com/vdelapuentea/demo-composer/-/blob/main/lab.py
После загрузки кода нужно подождать несколько секунд, затем мы переходим в "IU DE OPEN AIRFLOW", где доступна платформа Airflow. Нажимаем кнопку "play" и ждем, пока код выполнит свою работу.
Теперь мы переходим в инструмент BigQuery, чтобы проверить, успешно ли произошла миграция.
Затем мы добавляем источник данных BigQuery из этой демонстрации в Data Studio.
Настроим графики для отчета в Data Studio (https://datastudio.google.com/reporting/9481364f-e38a-4002-b896-27dee22fccd3)