Сообщения

Сообщения за декабрь, 2020

Принципы хорошей дата-аналитики

Изображение
Анализ данных труден. Что делает его трудным, так это его интуитивный аспект - знание направления, в котором вы хотите двигаться, на основе ограниченной информации, которая у вас есть в данный момент. Кроме того, что еще больше усложняет озвучивание результатов и демонстрацию почему ваше исследование правильно - уметь делать это глубоко, масштабно и последовательно. Вот несколько принципов, которые помогут при анализе данных. Знай свой подход Прежде чем приступить к анализу, определите вопросы, на которые вы пытаетесь ответить, и то, что вы пытаетесь понять - не падайте в аналитическую кроличью нору. Кроме того, вы должны знать некоторые основные сведения о ваших источниках данных - какие из них доступны для ответа на вопросы? Как структурированы эти данные? Они содержаться в базе данных? CSV? Или надо подключаться через API? Какие инструменты вы сможете использовать для анализа? Ваш подход, вероятно, изменится, но лучше начать с плана и постепенно уточнять его. Знайте, как были соз...

Jupyter-фишки, которые облегчат жизнь аналитику

Изображение
Если ты работаешь аналитиком или пока еще изучаешь предмет, наверняка, твой основной рабочий инструмент - Jupyter Notebook. И все дело в том, что аналитики используют Python немного по-другому, в отличие от Python-программистов. Конечно, можно делать исследования и в какой-нибудь навороченной IDE, но работа в Jupyter уже давно стала стандартом для аналитиков. А сегодня посмотрим на фишки Jupyter, которые помогут сделать твою работу еще более продуктивной и интересной. Конечно ты знаешь такие pandas команды для обзора датафрейма, как info и describe . Но что, если можно было бы одной командой узнать гораздо больше информации и причем сразу вывести ее в интерактивном  чарте?  Pandas profiling Эта библиотека позволяет выводить расширенную информацию о датафрейме, которую , кстати, можно сохранить в HTML-файл.  Установка Устанавливать Pandas profiling советую не через pip, а через conda. Причем, лучше сразу указывать последнюю версию. Мне по умолчанию conda поставила версию ...

Разбираем, какой SQL под капотом у Bigquery

Изображение
В последние годы, IT-компании все чаще стремятся перенести свою инфраструктуру от традиционных on-premise решений в облако. Облачные сервисы от Amazon, Google, Microsoft и других произвели революцию в подходах к обработке и хранению данных. Они упростили доступ к данным, аналитике и вычислительной мощности. Они изменили наше представление о расходах, связанных с хранением данных и аналитикой. Экономия затрат, повышение производительности и оптимизация операций - все это весомые выгоды для бизнес-пользователей. Но давайте посмотрим, с чем вам придется столкнуться, если вы дата-инженер или дата-аналитик и ваш топ-менеджмент принял решение - “переезжаем в Bigquery! “ Bigquery - это облачное хранилище ваших данных (очень больших данных!), работающее по serverless технологии, позволяющее супер-быстро выполнять ваши SQL-запросы. В его основе - колоночное хранение, партиционирование и кластеризация. Рассмотрим поближе, чем отличается GBQ SQL от того, который мы привыкли встречать в традицио...

5 приемов при работе с модулем datetime в Python

Изображение
Сегодня посмотрим на Python-библиотеку datetime - незаменимый набор инструментов для обработки данных с датой и временем. Я дам обзор пяти основных приемов этой библиотеки, которые закроют большинство ваших проблем при обработки дат и времени. Поехали! Понимание что такое объект datetime в Python. Прежде чем приступить к разбору самих приемов полезно посмотреть, как устроены дата и время в datetime. Основным строительным блоком является объект datetime. И вполне логично, что это комбинация объекта даты и объекта времени (привет, кэп Очевидность!) Объект даты - это просто набор значений года, месяца, дня плюс набор функций, которые умеют их обрабатывать. Аналогичным образом устроен объект времени. Он включает значения часа, минут, секунд, микросекунд и часового пояса. Любое время может быть представлено соответствующим выбором этих значений. 1. combine() import datetime # (часы, минуты) start_time = datetime.time(20, 0) # (год, месяц, день) # Создаем объект datetimet start_date...

6 секторов экономики, выигравших от внедрения предиктивной аналитики и прогнозирования

Изображение
  Эти шесть секторов экономики смогли улучшить свой клиентский сервис только за счет использования извлекаемой из внутренних процессов информации. 1. Энергетика   Электричество - это то, что большинство людей в развитых странах мира считает само собой разумеющимся. Но когда случаются перебои в работе, как владельцы бизнеса, так и потребители сталкиваются с неудобствами, начиная от испорченной еды и заканчивая потерей производительности. Энергетические компании реализуют прогнозную аналитику, и данные прогнозов помогают им спланировать спрос на электроэнергию и предоставить ее достаточно в распределительную сеть, чтобы предотвратить перегрузку. Более того, такая информация может помочь им оценить производительность своего оборудования и избежать незапланированных простоев. Некоторые компании прикрепляют датчики к самому важному оборудованию, чтобы следить за особенностями его работы. В одном случае энергетическая компания перешла с ручного мониторинга на систему непрерывного мо...

Подключаем Jupyter Notebook к Google Bigquery

Изображение
Сегодня рассмотрим такой интересный кейс, как работу с Bigquery прямо из оболочки Jupyter. Возможно, вы подумаете, а зачем козе баян? Ведь тот же код можно запускать и напрямую в веб-интерфейсе GBQ. Несомненно, веб-интерфейс позволяет отслеживать такие параметры запроса как его объем, скорость выполнения, а также правильность составления самого тела запроса, чего в Jupyter нет. Однако есть и плюсы от такого решения. Данные запроса можно мгновенно загнать в датафрейм Pandas и начать исследовать, в то время как работая в веб-интерфейсе, вам сначала придется выгрузить их в CSV/JSON, а только потом загрузить в Pandas. При этом результаты запроса не должны превышать 16000 строк. Что ж, достаточно для вступления, переходим к технической части. Нам нужен сервисный аккаунт в Google Cloud Подробно про создание сервисного аккаунта я рассказывал в этом посте . Процедура точно такая же, за исключением следующих моментов. Во-первых, на шаге выбора API, к которому мы будем подключаться, надо выбрат...

Чек-лист для аналитика. Как довести проект до конца и не налажать.

Изображение
  Что общего у хирургов, которые не оставляют медицинские принадлежности внутри пациентов, и пилотов самолетов, которые их не разбивают? Ответ: они используют чек-листы. Как аналитик, если вы хотите избежать или свести к минимуму сопоставимые ошибки, используйте приведенный ниже аудит, чтобы проверить свою работу: Спросите себя, в чем проблема проекта? Это описательный, исследовательский, объяснительный или прогнозный проект? Не ждите помощи от клиента или начальника. Он или она, скорее всего, не имеет ни малейшего представления о том, что означают приведенные выше термины. Как аналитик, вы должны переводить не всегда четкие ожидания людей в цель проекта . Выберите подходящие статистические методы.Хотя можно использовать метод наименьших квадратов  для анализа временных рядов, предположения, необходимые для получения значимых результатов, зачастую не принимаются во внимание. Всегда сверяйте выбранный статистический метод с областью его применения и оговоренными допущениями. Оп...