Создаем простой ETL на Python часть 2.

 Продолжаем поднимать наш ETL. Напишем скрипт для импорта и поставим его на расписание.


Для работы скрипта необходима установка дополнительных библиотек. Нам понадобятся pandas, requests, psycopg2 (коннектор к Postgres) , gspread и oauth2client (для подключения к сервисному аккаунту). Установить можно через pip или менеджер пакетов conda.


После установки пакетов импортируем библиотеки.


Затем обращаемся к таблице-источнику в БД и собираем названия ее столбцов.


Вторая функция создает промежуточные csv-файлы с содержимым таблицы-источника и затем импортирует данные из них в Google Sheets. Здесь нам пригодится тот json-файлик, который мы скачивали в процессе создания сервисного аккаунта. Положите его в папку со скриптом или укажите полный путь.



В конце настроим расписание. Запускаем такой скрипт, который начнет работать сразу же и будет запускать наш ETL по расписанию. Подробнее про настройку времени можно прочитать в документации к модулю.


Поздравляю, теперь вы освоили еще один способ, как можно автоматизировать рутинные задачи с помощью Python.

Полный код скрипта можно посмотреть в моем репозитории на Githab. Ссылка.
















Комментарии

Популярные сообщения из этого блога

Быстрый импорт в базу данных с помощью DBeaver

Jupyter-фишки, которые облегчат жизнь аналитику

Два способа загрузить свой датасет в Python

5 приемов при работе с модулем datetime в Python

Чистка и препроцессинг данных. Готовим датасет для ML.