Начинающий исследователь данных? Освойте эти основы.

1656678747 nachinayushhij issledovatel dannyh osvojte eti osnovy

Наука о данных — это увлекательная, быстро развивающаяся отрасль. Спрос на талантливых аналитически настроенных людей достаточно. Компании любого размера нанимают специалистов по обработке данных, и эта должность обеспечивает реальную ценность для широкого спектра отраслей и приложений.

Часто люди впервые знакомятся с этой сферой, читая научно-фантастические заглавия, созданные крупными исследовательскими организациями. Недавний прогресс повысил перспективу машинного обучения, которое изменит мир, которым мы его знаем в течение одного поколения.

Однако, кроме научных кругов и исследований, наука о данных – это гораздо больше, кроме главных тем, таких как глубинное обучение и НЛП.

Значительная часть коммерческой ценности специалиста по обработке данных состоит в обеспечении ясности и понимания, которые могут принести огромные объемы данных. Роль может охватывать все, начиная от обработки данных и заканчивая анализом данных и отчетами – возможно, с добавлением некоторого машинного обучения.

Особенно это касается начинающих фирм. Потребности компаний на ранних и средних этапах развития данных обычно далеки от нейронных сетей и компьютерного зрения. (Конечно, если это не основные характеристики продукта/услуги).

Им нужен точный анализ, надежные процессы и возможность быстрого масштабирования.

Таким образом, навыки, необходимые для многих рекламируемых должностей в области науки о данных, широкие и разнообразные. Как и любое другое в жизни, большая часть ценности приходит от овладения основами. Применяется легендарное правило 80:20 – примерно 80% стоимости поступает от 20% набора навыков.

Вот обзор некоторых фундаментальных навыков, которыми должен овладеть любой начинающий исследователь данных.

Начните со статистики

Главная черта, которую специалист по данным привносит в свою компанию, это способность отделять понимание от сложности. Ключ к достижению этого — понимание того, как раскрыть смысл из зашумленных данных.

Таким образом, статистический анализ является важным навыком для овладения. Статистика позволяет:

  • Опишите данные, чтобы предоставить подробную картину заинтересованным сторонам
  • Сравните данные и проверяйте гипотезы, чтобы информировать бизнес-решения
  • Определите тенденции и связи, обеспечивающие реальную прогностическую ценность

Статистика предоставляет массивный набор инструментов для понимания коммерческих и оперативных данных.

Но будьте осторожны! Единственное, что хуже ограниченных представлений – это обманчивые представления. Вот почему жизненно важно понимать основы статистического анализа.

К счастью, есть несколько руководящих принципов, которые вы можете придерживаться.

Оцените свои предположения

Очень важно знать о предположениях, которые вы делаете по поводу своих данных.

Всегда критически относитесь к происхождению и скептически относитесь к результатам. Может ли быть «неинтересное» объяснение каких-либо наблюдаемых тенденций в ваших данных? Насколько действителен выбранный вами статистический тест или методология? Соответствуют ли ваши данные всем основным предположениям?

Знание того, какие находки «интересны» и о которых стоит сообщить, также зависит от ваших предположений. Самый простой случай — это судить о том, целесообразнее ли сообщить среднее значение или медиану набора данных.

Часто важнее, чем знать, какой подход применить, знать, какой нет к. Обычно существует несколько способов анализа определенного набора данных, но избегайте типовых ловушек.

Например, множественные сравнения всегда следует исправлять. Ни в коем случае не пытайтесь подтвердить гипотезу, используя те же данные, которые использовались для ее создания! Вы удивитесь, как легко это делается.

Распространение > Расположение

Каждый раз, когда я говорю о вступительной статистике, я всегда подчеркиваю особый момент: распределение переменной обычно по крайней мере столь же интересный/информативный, как и его расположение. На самом деле, это часто больше.

rik8jxwiorgEeOcSoTlX527aPx4Y2OZ0-hj7
Центральную тенденцию полезно знать, но распределение часто интереснее понять!

Это объясняется тем, что распределение переменной обычно содержит информацию о базовых генеративных (или выборочных) процессах.

Например, данные подсчета часто соответствуют распределению Пуассона, тогда как система, демонстрирующая положительную обратную связь («подкрепление»), будет иметь тенденцию отразить распределение по степенному закону. Никогда не полагайтесь, что данные обычно распространяются без предварительной тщательной проверки.

Во-вторых, понимание распределения данных важно для того, чтобы знать, как с ними работать! Многие статистические тесты и методы основываются на предположениях о том, как распределяются ваши данные.

Как надуманный пример, всегда обязательно обрабатывайте унимодальные и бимодальные данные по-разному. Они могут иметь одинаковое значение, но вы потеряете целую тонну важной информации, если пренебречь их распределением.

Для более интересного примера, иллюстрирующего, почему вы всегда должны проверять свои данные, прежде чем отчитываться об итоговой статистике, посмотрите на квартет Anscombe:

sUOmUXDvexLRATldgB3ve07oyr72lmiWiNrp
Различные данные; но почти одинаковые средние значения, дисперсии и корреляции.

Каждый график выглядит очень характерным, не правда ли? Однако у каждого есть идентичная сводная статистика — включая средние значения, дисперсию и коэффициенты корреляции. Построение графиков некоторых распределений показывает, что они достаточно разные.

WY3C1lBh5ZxbwERNiU7McZyJ24jPVI8HQoaa

Наконец, распределение переменной определяет уверенность, которую вы имеете по поводу ее подлинного значения. «Узкое» распределение обеспечивает большую определенность, тогда как «широкое» распределение позволяет меньше.

Разница относительно среднего значения имеет решающее значение для обеспечения контекста. Очень часто средние значения с очень широкими доверительными интервалами сообщаются наряду со средними очень узкими доверительными интервалами. Это может ввести в заблуждение.

Соответствующая выборка

Реальность такова, что выборка может быть болезненной точкой для коммерчески ориентированных специалистов по обработке данных, особенно для тех, кто имеет опыт исследования или инженерии.

В исследовательской среде можно точно настроить точно разработанные эксперименты со многими различными факторами и уровнями и контрольными методами лечения. Однако «живые» коммерческие условия часто неоптимальны с точки зрения сбора данных. Каждое решение должно быть тщательно взвешено с риском прерывания обычной работы.

Это требует от исследователей данных быть изобретательным, но реалистичным в своем подходе к решению проблем.

A/B-тестирование является каноническим примером подхода, иллюстрирующего, как продукты и платформы можно оптимизировать на детальном уровне, не нанося серьезных сбоев в обычном бизнесе.

z18nGPqOGUaZTqZMmP8dyKlxMzrjokk7LjTJ
A/B тестирование является отраслевым стандартом для сравнения различных версий продуктов с целью их оптимизации.

Байесовские методы могут быть полезны для работы с меньшими наборами данных, если у вас есть достаточно информативный набор предварительных данных, с которыми можно работать.

Любые данные, которые вы собираете, обязательно признайте ограничения.

Данные опросы склонны к предвзятости выборки (часто респонденты с сильнейшими мыслями тратят время, чтобы заполнить опрос). Автокорреляция может оказывать влияние на временные ряды и пространственные данные. И последнее, но не менее важное: всегда следите за мультиколинеарностью при анализе данных из связанных источников.

Инженерия данных

Это нечто вроде клише науки о данных, но реальность состоит в том, что значительная часть рабочего процесса данных тратится на поиск, очищение и хранение необработанных данных, необходимых для более глубокого анализа.

На реализацию алгоритмов с нуля уходит сравнительно мало времени. Действительно, большинство статистических инструментов снабжены внутренней работой, завернутой в аккуратные пакеты R и модули Python.

Процесс «извлечение преобразования загрузки» (ETL) имеет решающее значение для успеха любой команды по обработке данных. В крупных организациях понадобятся специализированные инженеры по обработке данных, отвечающие требованиям сложной инфраструктуры данных, но младшие компании часто будут зависеть от своих ученых по обработке данных, чтобы они обладали сильными, всесторонними навыками разработки данных.

JuAo5-Pczab04lxNo7GwvYmtOKK3FZmBXwHb

Программирование на практике

Наука о данных очень междисциплинарна. Помимо расширенных аналитических навыков и предметных знаний эта роль также требует серьезных навыков программирования.

Нет идеального ответа на то, на каких языках программирования должен научиться пользоваться начинающий ученый из данных. Тем не менее, по крайней мере, один из Python и/или R вам очень хорошо послужит.

BOncv7QP5YTJhE-A0NF3l79W7S7FieIr9znU
Любой (или оба) из этих языков станет прекрасной отправной точкой, если вы хотите работать с данными

Какой бы язык вы ни выбрали, постарайтесь ознакомиться со всеми его особенностями и окружающей экосистемой. Просмотрите различные пакеты и модули, доступные вам, и настройте свою идеальную IDE. Узнайте об API, которые вам нужно будет использовать для доступа к основным платформам и услугам вашей компании.

База данных является неотъемлемой частью любого процесса обработки данных. Обязательно овладите некоторым диалектом SQL. Точный выбор не слишком важен, поскольку переключение между ними является управляемым процессом, когда это необходимо.

Базы данных NoSQL (например, MongoDB) также следует узнать, если ваша компания их использует.

Если вы станете уверенным пользователем командной строки, это значительно повысит вашу повседневную производительность. Даже беглое знакомство с простым сценарием bash даст вам хороший старт, когда дело доходит до автоматизации повторяющихся задач.

Эффективная кодировка

Очень важный навык, которым стремятся овладеть исследователями данных, — это эффективная кодировка. Многократное использование является ключевым. Следует потратить время (если оно доступно) для написания кода на уровне абстракции, который позволяет использовать его несколько раз.

Однако необходимо найти баланс между краткосрочными и долгосрочными приоритетами.

Нет смысла тратить вдвое больше времени на написание специального сценария для повторного использования, если нет никакого шанса, что он снова станет актуальным. Однако каждая минута, потраченная на рефакторинг старого кода для повторного запуска, — это минута, которую можно сэкономить раньше.

Следует развивать лучшие практики разработки программного обеспечения, чтобы писать действительно производительный рабочий код.

Инструменты управления версиями, такие как Git, значительно упрощают развертывание и поддержку кода. Планировщики задач позволяют автоматизировать рутинные процессы. Регулярные проверки кода и согласованные стандарты документации значительно облегчат жизнь вашей команде в будущем.

В любом направлении технологической специализации обычно нет необходимости изобретать колесо. Инженерия данных не является исключением. Такие фреймворки, как Airflow, делают планирование и мониторинг процессов ETL более простым и надежным. Для распределенного хранения и обработки данных есть Apache Spark и Hadoop.

Ev4qhnVU4ozvlxs6U8YjhNVPq-D5L7HaIM-W

Начинающему не обязательно изучать их глубоко. Однако знание окружающей экосистемы и доступных инструментов всегда преимущество.

Четко общайтесь

Наука о данных – это дисциплина полного стека с важным интерфейсом, направленным на заинтересованные стороны: уровень отчетности.

Дело простое – эффективное общение приносит с собой значительную коммерческую ценность. С наукой о данных есть четыре аспекта эффективной отчетности.

  • Точность
    Это важно по понятным причинам. Умение здесь состоит в том, чтобы знать, как интерпретировать результаты, четко понимая любые ограничения или оговорки, которые могут применяться. Важно не преувеличивать и не умалять релевантность какого-либо конкретного результата.
  • Точность
    Это важно, поскольку любая двусмысленность в вашем отчете может привести к неправильному толкованию результатов. Это может иметь отрицательные последствия в будущем.
  • Лаконичный
    Сделайте свой отчет как можно короче, но не короче. Хороший формат может предоставлять определенный контекст для основного вопроса, включать краткое описание имеющихся данных и давать обзор результатов с заголовком и графики. Дополнительные детали можно (и необходимо) включить в приложение.
  • Доступный
    Существует постоянная потребность балансировать между технической точностью отчета и реальностью того, что большинство читателей будут экспертами в своих отраслях, и не обязательно в науке о данных. Здесь нет простого, однозначного ответа. Частое общение и обратная связь помогут установить соответствующее равновесие.

Графическая игра

Мощные визуализации данных помогут эффективно донести сложные результаты до заинтересованных сторон. Хорошо продуманный график или диаграмма может с первого взгляда показать, что для пояснения понадобится несколько абзацев текста.

Существует широкий выбор бесплатных и платных инструментов для визуализации и создания информационных панелей, включая Plotly, Tableau, Chartio, d3.js и многие другие.

Для быстрого создания макетов иногда вы не можете победить старые добрые программы для работы с электронными таблицами, такими как Excel или Google Sheets. Они выполнят работу в соответствии с требованиями, хотя им недостаточно функций специального программного обеспечения визуализации.

При создании информационных панелей и графики следует учитывать ряд руководящих принципов. Главная задача состоит в том, чтобы максимизировать информационную ценность визуализации без ущерба читабельности.

ROM8HBlVkLC8vq-pq-BR0FAFzoAoR9J35Vlj
Как не подавать данные – в общем, сделайте это простым (чтобы узнать больше об этом примере, прочтите эту замечательную публикацию в блоге)

Эффективная визуализация открывает обзор высокого уровня с первого взгляда. Зритель может потребовать немного больше времени для переваривания более сложной графики, поэтому она должна предлагать гораздо больше информации.

Если вы когда-нибудь читали только одну книгу о визуализации данных, то классику Эдварда Тафти Визуальное отображение количественной информации является выдающимся выбором.

Тафт самостоятельно популяризировал и изобрел большую часть сферы визуализации данных. Широко употребляемые термины, такие как «chartjunk» и «data density», обязаны своим происхождением работе Тафти. Его концепция «соотношение данных и чернил» остается влиятельной в течение тридцати лет.

Использование цвета, компоновки и интерактивности часто делает разницу между хорошей визуализацией и высококачественной, профессиональной.

M4erTx4iXd9tA9sl5QsJSf-whYhOGt9977oD
Улучшенная визуализация данных [Source]

В конце концов, создание превосходной визуализации данных касается навыков, чаще связанных с UX и графическим дизайном, чем с наукой о данных. Чтение на эти темы в свободное время – отличный способ развить осознание того, что работает, а что нет.

Обязательно посетите такие сайты, как bl.ocks.org, чтобы получить вдохновение!

Наука о данных требует разнообразных навыков

Есть четыре основных сферы навыков, на развитии которых вы, как начинающий исследователь данных, должны сосредоточиться. Они есть:

  • Статистика, включая как основную теорию, так и реальное применение.
  • Программирование, по крайней мере, на одном из Python или R, а также SQL и с помощью командной строки
  • Лучшие практики разработки данных
  • Эффективная коммуникация вашей работы

Бонус! Учитесь постоянно

Если вы дочитали до этого места и чувствуете себя разочарованными — будьте уверены. Основной навык в такой быстротечной сфере – это научиться учиться и переучиться. Несомненно, в ближайшие годы появятся новые рамки, инструменты и методы.

Точный набор навыков, которые вы изучаете сейчас, может потребоваться полного обновления в течение пяти-десяти лет. Ожидайте этого. Делая это и будучи подготовлены, вы можете опережать игру через постоянное переобучение.

Вы никогда не можете знать всего и правда в том, что никто никогда не знает. Но, если вы овладеете основами, вы сможете подобрать что-нибудь другое на основе необходимости знать.

И это, пожалуй, ключ к успеху в любой быстро развивающейся дисциплине.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *