Два способа загрузить свой датасет в Python

- ноября 13, 2020

Если вы только начинаете осваивать анализ данных, то наверняка задавались вопросом, как загрузить данные в Python, чтобы начать их анализ. В этой статье покажу 2 способа, как это можно сделать.

Способ 1. Загружаем данные с помощью модуля csv

Для примера возьмем датасет с рейтингом отзывов по производителям рамена. Рамен - это популярная еда в Азии, лапша быстрого приготовления с различными вкусами. В дальнейших постах мы будет работать именно с этим датасетом. Посмотрим как он выглядит с помощью редактора Notepad++

Используя следующий код мы получим данные из нашего датасета используя CSV модуль

При таком способе загрузки CSV модуль загружает данные из датасета в список построчно. Каждый элемент списка будет представлять одну строку нашего датасета, которая в свою очередь тоже будет списком с элементами строки. Т.е это будет список списков. Такой способ выглядит довольно громоздко и является малоэффективным для обработки больших датасетов. Поэтому, мы воспользуемся вторым способом для загрузки данных - с помощью библиотеки Pandas

Способ 2. Загружаем данные с помощью библиотеки Pandas

Теперь, мы смогли загрузить данные, используя всего 3 строчки кода!

Pandas - это библиотека Python специально разработанная для анализа больших датасетов с миллионами строк. После загрузки данных из датасета они сохраняются в объект, называемый датафрейм. Датафрейм - это двухмерный массив данных, состоящий из строк и столбцов. Ближайший аналог - это простейшая Excel таблица. Мы видим, что строки датафрейма имеют индекс - автосгенерированный числовой код. Каждая строка обладает уникальным номером индекса. Индексы в Python начинаются с нуля. Датафрейм - это более удобный способ для доступа к данным и работе с ними в среде Python. В следующих постах мы рассмотрим работу с датафреймом более подробно, а также я расскажу о том, с каким трудностями может встретится аналитик еще до того, как данные загрузятся в датафрейм.

Поиск по этому блогу

Lets Analyse it!