Как развить мышечную память для Data Science с помощью Python

kak razvit myshechnuyu pamyat dlya data science s pomoshhyu python

от Чжэн Лю

Сначала: предварительная обработка данных

Испытываете ли вы разочарование из-за нарушения процесса анализа данных при поиске синтаксиса? Почему ты до сих пор не помнишь его, просмотрев его в третий раз? Это потому, что вы еще недостаточно тренировались, чтобы развить мышечную память.

Теперь представьте, что при кодировании синтаксис и функции Python просто вылетают из ваших пальцев, следуя вашим аналитическим мыслям. Как это здорово! Это руководство поможет вам достичь этого.

Я рекомендую практиковать этот сценарий каждое утро в течение 10 минут и повторять его в течение недели. Это все равно что делать несколько небольших хрустов в день — не для пресса, а для изучающих данные мышц. Постепенно вы заметите улучшение эффективности программирования анализа данных после повторного обучения.

Чтобы начать с моей «тренировки по науке о данных», в этом учебнике мы отработаем самый распространенный синтаксис для предварительная обработка данных как разминка 😉

Contents:
0 . Read, View and Save data1 . Table’s Dimension and Data Types2 . Basic Column Manipulation3 . Null Values: View, Delete and Impute4 . Data Deduplication

0. Чтение, просмотр и хранение данных

Сначала загрузите библиотеки для нашего упражнения:

Теперь мы считываем данные из моего репозитория GitHub. Я скачал данные из Zillow.

А результаты выглядят так:

1*eaM_mFSWaGj89cAvF7Bnsg

Сохранение файла происходит с помощью dataframe.to_csv(). Если вы не хотите, чтобы номер индекса сохранялся, используйте dataframe.to_csv(index = False).

1 . Измерение и типы данных таблицы

1.1 Размер

Сколько строк и столбцов в этих данных?

1.2 Типы данных

Какие типы данных у ваших данных и сколько столбцов являются числовыми?

Вывод типов данных первых нескольких столбцов:

1*JLYBz5WpEUcFGHdCPlXJGg

Если вы хотите уточнить данные, используйте select_dtypes(), чтобы включить или исключить тип данных. Вопрос: если я хочу только просмотреть данные за 2018 год, как мне это получить?

2. Основные манипуляции со столбцами

2.1 Поднабор данных по столбцам

Выберите столбцы по типам данных:

Например, если вам нужны столбцы с плавающей или целочисленной системой:

1*bBq6iH8R-W4g6Cd3HP674g

Выберите и отбросьте столбцы по именам:

1*d795R8XUxwjkwc1nVRUgGQ

2.2 Переименование столбцов

Как переименовать столбцы, если они мне не нравятся? Например, смените ‘State’ на ‘state_’; «Город» к «город_»:

3. Нулевые значения: просмотр, удаление и ввод

3.1 Сколько строк и столбцов имеют нулевые значения?

Результаты isnull.any() против isnull.sum():

1*jyJODeWUJR1k4-GQk7tRrw
isnull.any()
1*fun7aRvU3jjbtKmBZmKsag
isnull.sum()

Выберите данные, которые не являются нулевыми в одном столбце, например, Metro не является нулевым.

1*VqOIxXhSLWhSKxbRNG35-A
Строки со значениями «Metro» N/A

3.2 Выберите строки, которые не являются нулевыми для фиксированного набора столбцов

Выберите подмножество данных, которое не имеет значения null после 2000:

Если вы хотите выбрать данные в июле, вам нужно найти столбцы, содержащие «-07». Чтобы проверить, содержит строку подстроку, вы можете использовать подстроку в строке, и она выведет true или false.

1*3nalUQfXwC_Ywa-r8YsJ0w

3.3 Подмножество строк по нулевым значениям

Выберите строки, в которых мы хотим иметь по меньшей мере 50 значений, которые не являются NA, но не должны быть конкретными по столбцам:

3.4 Отвержение и ввод отсутствующих значений

Заполните NA или введите NA:

Используйте собственное условие для заполнения с помощью функции:

4. Дедупликация данных

Нам следует убедиться, что нет дублированных строк, прежде чем объединить данные или объединить их.

Мы хотим проверить, есть ли какие-либо дублирующие города/регионы. Нам следует решить, какой уникальный идентификатор (город, регион) мы хотим использовать в анализе.

1*GhiZCDmg_I-nE8vowIIGsA
Установите Keep=False, чтобы увидеть все дублированные строки по ‘RegionName’

Сбросьте повторяющиеся значения.

Комбинация «CountyName» и «SizeRank» уже уникальна. Поэтому мы просто используем столбцы, чтобы продемонстрировать синтаксис drop_duplicated.

Вот и все для первой части моей серии о развитии мышечной памяти для науки о данных на Python. Полный сценарий можно найти здесь.

Следите за обновлениями! Мой следующий учебник покажет вам, как свернуть мышцы науки о данных для нарезки и нарезки данных.

Следите за мной и дайте мне несколько хлопков, если вы считаете это полезным 🙂

Пока вы работаете над Python, возможно, вас заинтересует моя предыдущая статья:

Научитесь Spark for Big Data Analytics за 15 минут!
Я гарантирую, что этот краткий учебник сэкономит массу времени от чтения длинной документации. Готов к…todatascience.com

Добавить комментарий

Ваш адрес email не будет опубликован.