
Содержание статьи
от Чжэн Лю
Сначала: предварительная обработка данных
Испытываете ли вы разочарование из-за нарушения процесса анализа данных при поиске синтаксиса? Почему ты до сих пор не помнишь его, просмотрев его в третий раз? Это потому, что вы еще недостаточно тренировались, чтобы развить мышечную память.
Теперь представьте, что при кодировании синтаксис и функции Python просто вылетают из ваших пальцев, следуя вашим аналитическим мыслям. Как это здорово! Это руководство поможет вам достичь этого.
Я рекомендую практиковать этот сценарий каждое утро в течение 10 минут и повторять его в течение недели. Это все равно что делать несколько небольших хрустов в день — не для пресса, а для изучающих данные мышц. Постепенно вы заметите улучшение эффективности программирования анализа данных после повторного обучения.
Чтобы начать с моей «тренировки по науке о данных», в этом учебнике мы отработаем самый распространенный синтаксис для предварительная обработка данных как разминка 😉
Contents:
0 . Read, View and Save data1 . Table’s Dimension and Data Types2 . Basic Column Manipulation3 . Null Values: View, Delete and Impute4 . Data Deduplication
0. Чтение, просмотр и хранение данных
Сначала загрузите библиотеки для нашего упражнения:
Теперь мы считываем данные из моего репозитория GitHub. Я скачал данные из Zillow.
А результаты выглядят так:

Сохранение файла происходит с помощью dataframe.to_csv(). Если вы не хотите, чтобы номер индекса сохранялся, используйте dataframe.to_csv(index = False).
1 . Измерение и типы данных таблицы
1.1 Размер
Сколько строк и столбцов в этих данных?
1.2 Типы данных
Какие типы данных у ваших данных и сколько столбцов являются числовыми?
Вывод типов данных первых нескольких столбцов:

Если вы хотите уточнить данные, используйте select_dtypes(), чтобы включить или исключить тип данных. Вопрос: если я хочу только просмотреть данные за 2018 год, как мне это получить?
2. Основные манипуляции со столбцами
2.1 Поднабор данных по столбцам
Выберите столбцы по типам данных:
Например, если вам нужны столбцы с плавающей или целочисленной системой:

Выберите и отбросьте столбцы по именам:

2.2 Переименование столбцов
Как переименовать столбцы, если они мне не нравятся? Например, смените ‘State’ на ‘state_’; «Город» к «город_»:
3. Нулевые значения: просмотр, удаление и ввод
3.1 Сколько строк и столбцов имеют нулевые значения?
Результаты isnull.any() против isnull.sum():


Выберите данные, которые не являются нулевыми в одном столбце, например, Metro не является нулевым.

3.2 Выберите строки, которые не являются нулевыми для фиксированного набора столбцов
Выберите подмножество данных, которое не имеет значения null после 2000:
Если вы хотите выбрать данные в июле, вам нужно найти столбцы, содержащие «-07». Чтобы проверить, содержит строку подстроку, вы можете использовать подстроку в строке, и она выведет true или false.

3.3 Подмножество строк по нулевым значениям
Выберите строки, в которых мы хотим иметь по меньшей мере 50 значений, которые не являются NA, но не должны быть конкретными по столбцам:
3.4 Отвержение и ввод отсутствующих значений
Заполните NA или введите NA:
Используйте собственное условие для заполнения с помощью функции:
4. Дедупликация данных
Нам следует убедиться, что нет дублированных строк, прежде чем объединить данные или объединить их.
Мы хотим проверить, есть ли какие-либо дублирующие города/регионы. Нам следует решить, какой уникальный идентификатор (город, регион) мы хотим использовать в анализе.

Сбросьте повторяющиеся значения.
Комбинация «CountyName» и «SizeRank» уже уникальна. Поэтому мы просто используем столбцы, чтобы продемонстрировать синтаксис drop_duplicated.
Вот и все для первой части моей серии о развитии мышечной памяти для науки о данных на Python. Полный сценарий можно найти здесь.
Следите за обновлениями! Мой следующий учебник покажет вам, как свернуть мышцы науки о данных для нарезки и нарезки данных.
Следите за мной и дайте мне несколько хлопков, если вы считаете это полезным 🙂
Пока вы работаете над Python, возможно, вас заинтересует моя предыдущая статья:
Научитесь Spark for Big Data Analytics за 15 минут!
Я гарантирую, что этот краткий учебник сэкономит массу времени от чтения длинной документации. Готов к…todatascience.com