Два способа загрузить свой датасет в Python
Если вы только начинаете осваивать анализ данных, то наверняка задавались вопросом, как загрузить данные в Python, чтобы начать их анализ. В этой статье покажу 2 способа, как это можно сделать.
Способ 1. Загружаем данные с помощью модуля csv
Для примера возьмем датасет с рейтингом отзывов по производителям рамена. Рамен - это популярная еда в Азии, лапша быстрого приготовления с различными вкусами. В дальнейших постах мы будет работать именно с этим датасетом. Посмотрим как он выглядит с помощью редактора Notepad++
При таком способе загрузки CSV модуль загружает данные из датасета в список построчно. Каждый элемент списка будет представлять одну строку нашего датасета, которая в свою очередь тоже будет списком с элементами строки. Т.е это будет список списков. Такой способ выглядит довольно громоздко и является малоэффективным для обработки больших датасетов. Поэтому, мы воспользуемся вторым способом для загрузки данных - с помощью библиотеки Pandas
Способ 2. Загружаем данные с помощью библиотеки Pandas
Pandas - это библиотека Python специально разработанная для анализа больших датасетов с миллионами строк. После загрузки данных из датасета они сохраняются в объект, называемый датафрейм. Датафрейм - это двухмерный массив данных, состоящий из строк и столбцов. Ближайший аналог - это простейшая Excel таблица. Мы видим, что строки датафрейма имеют индекс - автосгенерированный числовой код. Каждая строка обладает уникальным номером индекса. Индексы в Python начинаются с нуля. Датафрейм - это более удобный способ для доступа к данным и работе с ними в среде Python. В следующих постах мы рассмотрим работу с датафреймом более подробно, а также я расскажу о том, с каким трудностями может встретится аналитик еще до того, как данные загрузятся в датафрейм.
Комментарии
Отправить комментарий