Принципы хорошей дата-аналитики
Анализ данных труден.
Что делает его трудным, так это его интуитивный аспект - знание направления, в котором вы хотите двигаться, на основе ограниченной информации, которая у вас есть в данный момент. Кроме того, что еще больше усложняет озвучивание результатов и демонстрацию почему ваше исследование правильно - уметь делать это глубоко, масштабно и последовательно.
Вот несколько принципов, которые помогут при анализе данных.
Например, предположим, что вы дата-аналитик в условном Wildberries и проводите анализ заказов. Предположим, где-то на сервере Wildberries есть таблица под названием «Orders», в которой хранятся данные о заказах. В этой таблице хранятся незавершенные заказы? Какое воздействие на Wildberries создает новая запись в этой таблице? Если я начну заказ и не завершу процесс оплаты полностью, будет ли сделана запись в эту таблицу? Что именно означает каждое поле в этой таблице?
Вам необходимо знать этот уровень детализации, чтобы быть уверенным в своем анализе - ваша аудитория задаст эти вопросы.
Например, однажды, я готовил данные для начисления зарплаты продавцам отдела продаж. Пофамильный список сейлзов был верным, даты продаж тоже совпадали с календарем. Но как оказалось позже - у одного из сейлзов отсутствовали данные по продажам за несколько дней. Как оказалось позже - их не выгрузили из CRM из-за какого-то мелкого сбоя. Если бы я не заметил это сразу - трудоемкий расчет зарплаты пришлось бы запускать заново.
Профилирование данных на раннем этапе обеспечивает стабильность на протяжении всего анализа. И, если что-то пойдет не так, вы быстрее сможете это заметить
В качестве примера взгляните на приведенную ниже таблицу:
В ней приведены показатели приема мужчин и женщин в аспирантуру в Калифорнийский университет, Беркли, в 1973 году. На основании приведенных выше цифр в 1976 году на Университет был подан иск за предполагаемое предвзятое отношение к женщинам. Однако, при разбивке данных по полу и факультетам оказалось, что женщин на самом деле принимали в аспирантуру многих факультетов даже чаще, чем мужчин.
Это, наверное, самый печально известный случай парадокса Симпсона. Более подробно об этом случаем можно прочитать на wiki.
Исследуя данные, помните о парадоксе Симпсона. Чрезвычайно важно понимать, насколько агрегированные данные могут вводить в заблуждение и почему необходимо рассматривать данные с разных сторон.
Опытные статистики говорят, что отсутствие данных иногда лучше неверных данных.
Корректные данные - это основание для верной аналитики.
Как и хороший адвокат, вам нужно думать наперед, учитывать аудиторию вашего анализа и продумывать вопросы, которые они могут вам задать. Правильная подготовка к презентации повысит доверие к вашей работе. Много раз, бывая на собраниях у руководства, я видел ситуацию, когда начальники отделов терпели крах от одного правильно заданного вопроса, не будучи способными вовремя назвать цифры, которые должны были знать. В это время у меня на руках были мои цифры, которые обеспечивали победу. Ответы “я не знаю”, “я уточню” , “у меня не было данных” автоматически переводит вас на скамейку запасных.
Важную роль в определении ваших предположений играют ваши стейкхолдеры. Вы должны работать с ними и другими экспертами в предметной области, чтобы убедиться, что ваши предположения логичны и беспристрастны.
Я считаю полезным регулярно проверять основную статистику данных (суммы, подсчеты и т. д.) на протяжении всего анализа, чтобы убедиться, что ничего не потеряно и не сбилось.
В конце концов, помните, что анализ данных чаще всего связан с решением проблемы, и у этой проблемы есть свои стейкхолдеры - вы должны работать с ними, чтобы ответить на наиболее важные вопросы. Не обязательно самые интересные. Интересный не всегда означает «ценный».
Что делает его трудным, так это его интуитивный аспект - знание направления, в котором вы хотите двигаться, на основе ограниченной информации, которая у вас есть в данный момент. Кроме того, что еще больше усложняет озвучивание результатов и демонстрацию почему ваше исследование правильно - уметь делать это глубоко, масштабно и последовательно.
Вот несколько принципов, которые помогут при анализе данных.
Знай свой подход
Прежде чем приступить к анализу, определите вопросы, на которые вы пытаетесь ответить, и то, что вы пытаетесь понять - не падайте в аналитическую кроличью нору. Кроме того, вы должны знать некоторые основные сведения о ваших источниках данных - какие из них доступны для ответа на вопросы? Как структурированы эти данные? Они содержаться в базе данных? CSV? Или надо подключаться через API? Какие инструменты вы сможете использовать для анализа? Ваш подход, вероятно, изменится, но лучше начать с плана и постепенно уточнять его.Знайте, как были созданы данные
После того, как вы определились со своим подходом и источниками данных, вам необходимо убедиться, что вы понимаете, как данные были сгенерированы или получены, особенно если вы используете данные своей собственной компании.Например, предположим, что вы дата-аналитик в условном Wildberries и проводите анализ заказов. Предположим, где-то на сервере Wildberries есть таблица под названием «Orders», в которой хранятся данные о заказах. В этой таблице хранятся незавершенные заказы? Какое воздействие на Wildberries создает новая запись в этой таблице? Если я начну заказ и не завершу процесс оплаты полностью, будет ли сделана запись в эту таблицу? Что именно означает каждое поле в этой таблице?
Вам необходимо знать этот уровень детализации, чтобы быть уверенным в своем анализе - ваша аудитория задаст эти вопросы.
Профилируйте свои данные
Как только вы убедились, что нужные вам данные у вас на руках, вам нужно познакомиться с ними. Это не только позволит вам получить общее представление о них, но также позволит вам чувствовать себя более уверенно на более поздних этапах анализа.Например, однажды, я готовил данные для начисления зарплаты продавцам отдела продаж. Пофамильный список сейлзов был верным, даты продаж тоже совпадали с календарем. Но как оказалось позже - у одного из сейлзов отсутствовали данные по продажам за несколько дней. Как оказалось позже - их не выгрузили из CRM из-за какого-то мелкого сбоя. Если бы я не заметил это сразу - трудоемкий расчет зарплаты пришлось бы запускать заново.
Профилирование данных на раннем этапе обеспечивает стабильность на протяжении всего анализа. И, если что-то пойдет не так, вы быстрее сможете это заметить
Смотрите на данные под разными углами
Одной из важных вещей, которая может твориться с вашими данными - это то, что по отдельности они могут вестит себя иначе, чем будучи объединенными вместе. Такая особенность называется парадоксом Симпсона. Почему это важно - в примере ниже.В качестве примера взгляните на приведенную ниже таблицу:
В ней приведены показатели приема мужчин и женщин в аспирантуру в Калифорнийский университет, Беркли, в 1973 году. На основании приведенных выше цифр в 1976 году на Университет был подан иск за предполагаемое предвзятое отношение к женщинам. Однако, при разбивке данных по полу и факультетам оказалось, что женщин на самом деле принимали в аспирантуру многих факультетов даже чаще, чем мужчин.
Это, наверное, самый печально известный случай парадокса Симпсона. Более подробно об этом случаем можно прочитать на wiki.
Исследуя данные, помните о парадоксе Симпсона. Чрезвычайно важно понимать, насколько агрегированные данные могут вводить в заблуждение и почему необходимо рассматривать данные с разных сторон.
Будьте скептичны
В дополнение к профилированию и сегментированию данных вам необходимо скептически относиться к анализу. Если что-то выглядит или кажется неправильным, вероятно, это не так. Посмотрите на данные, чтобы убедиться, что ничего неожиданного не происходит, а если есть что-то неожиданное, убедитесь, что вы понимаете, причину этого, и вас не терзает внутренний дискомфорт от того, что что-то не сходится.Опытные статистики говорят, что отсутствие данных иногда лучше неверных данных.
Корректные данные - это основание для верной аналитики.
Думайте как адвокат
Хороший адвокат готовит речь заранее, а также продумывает, какие возражения может высказать обвинение. И во время самого разбирательства у хорошего адвоката всегда есть заранее заготовленные ответы и тактики вести беседу с судьей и оппонентами при разных сценариях.Как и хороший адвокат, вам нужно думать наперед, учитывать аудиторию вашего анализа и продумывать вопросы, которые они могут вам задать. Правильная подготовка к презентации повысит доверие к вашей работе. Много раз, бывая на собраниях у руководства, я видел ситуацию, когда начальники отделов терпели крах от одного правильно заданного вопроса, не будучи способными вовремя назвать цифры, которые должны были знать. В это время у меня на руках были мои цифры, которые обеспечивали победу. Ответы “я не знаю”, “я уточню” , “у меня не было данных” автоматически переводит вас на скамейку запасных.
Озвучьте свои предположения
Маловероятно, чтобы ваши данные всегда были идеальны, и также маловероятно, что они охватывают все, что вам нужно для проведения тщательного и исчерпывающего анализа. Мы живем не в идеальном мире. Вам нужно будет придерживаться некоторых предположений на протяжении всего вашего исследования. И это необходимо четко указать в вашей презентации.Важную роль в определении ваших предположений играют ваши стейкхолдеры. Вы должны работать с ними и другими экспертами в предметной области, чтобы убедиться, что ваши предположения логичны и беспристрастны.
Проверьте свою работу перед сдачей
Это кажется очевидным, но люди просто иногда не проверяют свою работу. Понятно, что есть сроки, дедлайны и запросы в последнюю минуту; однако могу заверить вас, что ваша аудитория предпочла бы, чтобы ваши результаты были правильными, чем быстрыми.Я считаю полезным регулярно проверять основную статистику данных (суммы, подсчеты и т. д.) на протяжении всего анализа, чтобы убедиться, что ничего не потеряно и не сбилось.
Общение
Наконец, весь процесс должен быть постоянной коммуникацией со стейкхолдерами - не работайте изолированно. Возможно, вашей аудитории совсем не важно количество знаков после запятой. Может быть, они просто хотят понять куда движется тренд.В конце концов, помните, что анализ данных чаще всего связан с решением проблемы, и у этой проблемы есть свои стейкхолдеры - вы должны работать с ними, чтобы ответить на наиболее важные вопросы. Не обязательно самые интересные. Интересный не всегда означает «ценный».
Комментарии
Отправить комментарий