Сообщения

Снежинка в облаках

Изображение
  Это будет небольшой пост про мое знакомство с облачной MPP-базой Snowflake, с которой мне удалось немного поработать, выполняя лабораторные работы курса DE-101 от сообщества DataLearn . Snowflake - это облачная mpp-база данных, реализованная по модели SaaS (Software as a Service), родом из США.  В России облачные технологии пока не нашли массового принятия в бизнесе, но в Штатах тренд на перенос процессов в облако продолжается уже несколько лет. Бизнес считает затраты и понял, что миграция в облако обходится в конечном счете дешевле он-премис решений. И способствовало этому появление облачных инструментов, в т.ч. баз данных нового поколения, таких как Redshift от Amazon. Redshift появился в 2012 году и по сути, его выпуск стал той точкой, когда началась облачная эра в обработке и хранении данных. Snowflake вышел в 2016 и на тот момент был темной лошадкой, про которую никто не знал, но сейчас многие бизнесы из сферы технологий выбирают эту базу данных. В чем же  преимуще...

Гайд: подключаем Apache Superset к Snowflake

Изображение
В кейсе  Zero to Snowflake  нужно было реализовать end-to end решение от поставки исходных данных их CRM Salesforce до создания визуализации на основе этих данных. Оригинальный пайплайн поставки данных выглядел так: Salesforce data -> Fivetran replication -> Snowflake warehouse -> Tableau dashboards Я решил заменить последний шаг пайплайна на Apache Superset. И вот здесь все пошло не так гладко. В этом небольшом гайде решил описать, с какими трудностями пришлось столкнуться и как я их решал. Для того, чтобы подключить Superset нужно проделать следующие шаги На стороне Snowflake Зайти в раздел Admin/Security на боковой панели и создать сетевую политику (Network Policy) Я на стал заморачиваться с прописыванием своего ip, для тестовых целей просто задал allow для всех адресов.  Не делайте так для своего продакшн окружения! Затем создадим сервисную учетку для Superset. Идем в меню Admin/Users & Roles и добавляем юзера superset Из дополнительных параметров я рек...

Разворачиваем среду для машинного обучения MLflow в облаке MAIL.RU

Изображение
Обещал, что буду понемногу публиковать посты про data engineering и machine learning, и вот как раз появилась возможность поделиться результатами кейса по разворачиванию среды для машинного обучения MLflow. Мой кейс повторяет оригинальную презентацию ребят из Mail.ru, однако я оптимизировал шаги прохождения, плюс обратил внимание на некоторые нюансы, которые могут возникнуть, когда пытаешься его пройти. Оригинальные материалы к кейсу можете найти по ссылке внизу поста. Облачный провайдер Mail.ru любезно предоставил 3000 бонусных рублей на тестирование их продукта, что является отличной возможностью познакомиться с их облаком. Source: https://res.infoq.com/presentations/mlflow-databricks/en/slides Итак, а зачем вообще нам нужен фреймворк для ML? Фреймворк представляет удобный интерфейс к моделям и их параметрам. Ведет историю и сохраняет результаты каждого запуска модели, хранит артефакты для моделей. Легко нужно найти информацию когда, какую модель запускал, какие были результаты, ...

Принципы хорошей дата-аналитики

Изображение
Анализ данных труден. Что делает его трудным, так это его интуитивный аспект - знание направления, в котором вы хотите двигаться, на основе ограниченной информации, которая у вас есть в данный момент. Кроме того, что еще больше усложняет озвучивание результатов и демонстрацию почему ваше исследование правильно - уметь делать это глубоко, масштабно и последовательно. Вот несколько принципов, которые помогут при анализе данных. Знай свой подход Прежде чем приступить к анализу, определите вопросы, на которые вы пытаетесь ответить, и то, что вы пытаетесь понять - не падайте в аналитическую кроличью нору. Кроме того, вы должны знать некоторые основные сведения о ваших источниках данных - какие из них доступны для ответа на вопросы? Как структурированы эти данные? Они содержаться в базе данных? CSV? Или надо подключаться через API? Какие инструменты вы сможете использовать для анализа? Ваш подход, вероятно, изменится, но лучше начать с плана и постепенно уточнять его. Знайте, как были соз...