Чек-лист для аналитика. Как довести проект до конца и не налажать.
Что общего у хирургов, которые не оставляют медицинские принадлежности внутри пациентов, и пилотов самолетов, которые их не разбивают? Ответ: они используют чек-листы. Как аналитик, если вы хотите избежать или свести к минимуму сопоставимые ошибки, используйте приведенный ниже аудит, чтобы проверить свою работу:
Спросите себя, в чем проблема проекта? Это описательный, исследовательский, объяснительный или прогнозный проект? Не ждите помощи от клиента или начальника. Он или она, скорее всего, не имеет ни малейшего представления о том, что означают приведенные выше термины. Как аналитик, вы должны переводить не всегда четкие ожидания людей в цель проекта.
Выберите подходящие статистические методы.Хотя можно использовать метод наименьших квадратов для анализа временных рядов, предположения, необходимые для получения значимых результатов, зачастую не принимаются во внимание. Всегда сверяйте выбранный статистический метод с областью его применения и оговоренными допущениями.
Определите соответствующие переменные. Исключение значимых переменных из анализа исказит ваши результаты. Включение бессмысленных переменных увеличивает стандартные ошибки и ослабляет способность аналитика отделять случай от факта. Из этих двух грехов предвзятость еще хуже. Лучше ошибиться в том, что переменных слишком много, чем слишком мало.
Оцените процесс генерации данных. В статистике есть строгие правила, касающиеся правильного создания поперечных, временных рядов, экспериментальных и продольных данных. Поскольку статистические стандарты генерации данных часто нарушаются, аналитики должны осознавать ограничения своих данных. Чтобы быть теоретически правильными, если анализируются неправильно сгенерированные данные, результаты должны быть ограничены исследуемым набором данных.
Очистите свои данные. Сбор данных и их ввод несут в себе угрозу ошибочных результатов. Проверка наборов данных на наличие ошибок имеет решающее значение для успеха аналитического проекта. Недавно одна частная консалтинговая фирма раскритиковала отчет NHTSA (Национального управления безопасности дорожного движения США), в котором подтверждалось заявление Tesla о том, что их автопилот сокращает количество аварий на 40%. Проблемой в данных Tesla было множество пропущенных значений, неправильно обработанных NHTSA. После исправления отсутствующих значений заявление Tesla было опровергнуто. Не относитесь к очистке данных как к вспомогательной деятельности.
Опишите и исследуйте свои данные. Некоторые аналитики рассматривают этот шаг как создание необходимой таблицы, в которой перечислены все переменные с их различными описательными характеристиками. Подходить к описанию и исследованию данных таким образом - ошибка. Исследование данных должно включать в себя изучение данных - это означает, что вы чувствуете ваши данные на кончиках пальцев и, надеюсь, увидите в них что-то неожиданное. Исследуйте свои данные, исследуя свои данные.
Примените соответствующие формы статистического вывода. Несмотря на всю эту чушь, окружающую науку о данных, она основана на математической статистике. Хотя аналитики часто относятся к выбору статистических инструментов «как будто» во время похода в магазин, неправильно выбранные статистические процедуры означают, что ваш анализ будет неверным. Присматривайте статистические процедуры так же, как присматриваете молоток, пилу или отвертку. Попытка распилить дерево отверткой обречена на гибель вашего проекта.
Напишите технический отчет. Если вы не можете сообщить о результатах своей работы, значит ваши усилия были напрасны. Еще лучше, если вы сможете связать свои результаты с конкретным кейсом применения. И если вы можете сообщить все это менеджерам, принимающим решения, ваш авторитет стремительно вырастет. Научитесь писать технический отчет.
Комментарии
Отправить комментарий