Два способа загрузить свой датасет в Python

 Если вы только начинаете осваивать анализ данных, то наверняка задавались вопросом, как загрузить данные в Python, чтобы начать их анализ. В этой статье покажу 2 способа, как это можно сделать.




Способ 1. Загружаем данные с помощью модуля csv

Для примера возьмем датасет с рейтингом отзывов по производителям рамена. Рамен - это популярная еда в Азии, лапша быстрого приготовления с различными вкусами. В дальнейших постах мы будет работать именно с этим датасетом. Посмотрим как он выглядит с помощью редактора Notepad++



Используя следующий код мы получим данные из нашего датасета используя CSV модуль


При таком способе загрузки CSV модуль загружает данные из датасета в список построчно. Каждый элемент списка будет представлять одну строку нашего датасета, которая в свою очередь тоже будет списком с элементами строки. Т.е это будет список списков. Такой способ выглядит довольно громоздко и является малоэффективным для обработки больших датасетов. Поэтому, мы воспользуемся вторым способом для загрузки данных - с помощью библиотеки Pandas


Способ 2. Загружаем данные с помощью библиотеки Pandas

Теперь, мы смогли загрузить данные, используя всего 3 строчки кода!


Pandas - это библиотека Python специально разработанная для анализа больших датасетов с миллионами строк. После загрузки данных из датасета они сохраняются в объект, называемый датафрейм. Датафрейм - это двухмерный массив данных, состоящий из строк и столбцов. Ближайший аналог - это простейшая Excel таблица. Мы видим, что строки датафрейма имеют индекс - автосгенерированный числовой код. Каждая строка обладает уникальным номером индекса. Индексы в Python начинаются с нуля. Датафрейм - это более удобный способ для доступа к данным и работе с ними в среде Python. В следующих постах мы рассмотрим работу с датафреймом более подробно, а также я расскажу о том, с каким трудностями может встретится аналитик еще до того, как данные загрузятся в датафрейм.










Комментарии

Популярные сообщения из этого блога

Быстрый импорт в базу данных с помощью DBeaver

Jupyter-фишки, которые облегчат жизнь аналитику

5 приемов при работе с модулем datetime в Python

Чистка и препроцессинг данных. Готовим датасет для ML.