Анализ данных в Tableau. Часть1.

 В этом посте я расскажу, как сделать простую аналитику в Tableau. Мы загрузим наш датасет в Tableau, посмотрим базовые инструменты визуализации и попробуем сделать первые выводы.

Для работы возьмем наш датасет из прошлого поста с рейтингом отзывов по производителям раменов.






Загрузка датасета


После загрузки программы выбираем на панели слева тип коннектора - Text File

и создаем Connection c нашим CSV файлом.



Как видим, изначально Tableau не смог правильно определить структуру файла и свалил все данные в один столбец.



Переключимся в режим список и увидим, что на самом деле файл содержит 6 столбцов.



Перейдем в контекстное меню ramen.csv и затем в Text File Properties и выставим параметры как на скриншоте.



После чего Tableau пересчитает структуру верно


Строим первые визы

Для начала, давайте просто попробуем сгруппировать данные в основным разрезам и посмотреть на количество отзывов. У нас есть поле Review ID, которое уникально  для каждого отзыва. Сделаем его дубль, переименуем и назначим для него тип агрегации по умолчанию - COUNT.




Перенесем новую метрику на полку Marks во вкладку Text.



Альтернативное решение - перенести туда же уже готовую метрику Number of records



Теперь перейдем на вкладку ShowMe переключимся на другой вид визуализации - treemap.



Попробуем посмотреть на количество отзывов в разрезе стран и брендов.

Мы видим, что США - это единственная страна из десятки лидеров, которая не только не входит в Азиатский регион, но и занимает второе место по количеству отзывов.

Предположим, что данный результат объясняется довольно большой азиатской диаспорой, проживающей в США.



Теперь посмотрим на бренды. Заменим  CountryOfOrigin на дименшн Brands И видим, что бренд Nissin является лидером по отзывам.



Теперь усложним задачку и посмотрим, а какой бренд является наиболее популярным в Южной Корее? Будет ли это снова Nissin ? Перенесем дименшн CountryOfOrigin на полку Filters и выбираем Юж.Корею.




Как видим нет. Тройка лидеров рамена в этой стране - Paldo, Nongshim, SamyangFoods


Еще в наших данных есть такой атрибут, как Style и ProductName. Сделаем простой чарт, показывающий количество продуктов  в своем формате. Для начала переведем Product в меры, затем построим простую таблицу где в строках будет Style, а в Marks/Label добавим ProductName COUNT Disitnct.



Через панель Show Me поменяем тип виза на Bubble Chart и и добавим фильтр по странам через главное меню.



Теперь мы сможем точно сказать. какие форматы в какой стране наиболее популярны.

И в большинстве стран лидирует Pack, а второе и третье место делят Cup и Bowl.



Резюме


Итак,  мы сделали несколько простейших визуализаций с нашим датасетом. В этом примере мы анализировали только количество отзывов. А в следующем посте посмотрим, как распределяются оценки потребителей и узнаем чей продукт заслужил наивысший рейтинг.































Комментарии

Популярные сообщения из этого блога

Быстрый импорт в базу данных с помощью DBeaver

Jupyter-фишки, которые облегчат жизнь аналитику

Два способа загрузить свой датасет в Python

5 приемов при работе с модулем datetime в Python

Чистка и препроцессинг данных. Готовим датасет для ML.