CoderCastrov logo
CoderCastrov
GCP

Миграция Cloud Storage в BigQuery с помощью Composer - проект GCP [ru]

Миграция Cloud Storage в BigQuery с помощью Composer - проект GCP [ru]
просмотров
2 мин чтение
#GCP
Table Of Content

    Этот проект представляет собой миграцию данных из Cloud Storage в BigQuery с помощью ETL, который загружает данные. Он будет оркестрироваться с помощью Cloud Composer для выполнения. Из BigQuery будет извлекаться информация для создания отчета в Data Studio.

    Источником данных, используемых в проекте, являются данные, полученные при парсинге веб-страницы SNIIN (http://www.economia-sniim.gob.mx/Sniim-anANT/e_SelAzu.asp). Код парсинга представлен здесь: https://gitlab.com/vdelapuentea/demo-composer/-/blob/main/Scraping.ipynb

    Предлагаемая архитектура выглядит следующим образом:

    Предлагаемые службы GCP включают Cloud Storage, Cloud Composer, BigQuery и Data Studio. Архитектура является PaaS и Serverless, так как используемые службы масштабируемы и гибки для создания отчетов и обновления источника данных в облаке. Эта архитектура позволяет компаниям получить первое представление о скорости, гибкости и мощности инструментов GCP с любого устройства с доступом в Интернет.

    Для реализации этой демонстрации были загружены данные из парсинга, эти данные сохранены в формате csv, и этот csv-файл сохранен в Cloud Storage.

    Файл загружен в Cloud Storage

    Для загрузки данных из Data Lake (Cloud Storage) в Data Warehouse (BigQuery) была использована служба Cloud Composer.

    Создание оркестровочной среды в Composer

    Мы входим в созданную среду в Composer, в данном случае она называется Demo. Мы создаем DAG для этой демонстрации с названием "pass_GS_to_BQ".

    Затем мы переходим в "OPEN DAGS FOLDER" и открывается новое окно.

    Нажмите на OPEN DAGS FOLDER

    Здесь мы загружаем код, который поможет нам выполнить миграцию из Cloud Storage в BigQuery.

    https://gitlab.com/vdelapuentea/demo-composer/-/blob/main/lab.py

    Загружаем код

    После загрузки кода нужно подождать несколько секунд, затем мы переходим в "IU DE OPEN AIRFLOW", где доступна платформа Airflow. Нажимаем кнопку "play" и ждем, пока код выполнит свою работу.

    Просмотр интерфейса Airflow

    Теперь мы переходим в инструмент BigQuery, чтобы проверить, успешно ли произошла миграция.

    Миграция прошла успешно.

    Затем мы добавляем источник данных BigQuery из этой демонстрации в Data Studio.

    Добавляем источник данных в BQ.

    Настроим графики для отчета в Data Studio (https://datastudio.google.com/reporting/9481364f-e38a-4002-b896-27dee22fccd3)

    Data Studio с загруженными данными в BQ.