Как обострить свои инстинкты данных

1656602181 kak obostrit svoi instinkty dannyh

В связи с последними достижениями в области машинного обучения и исследований искусственного интеллекта, регулярно появляющихся в заглавиях газет, неудивительно, что наука о данных стала сферой подлинного всеобщего интереса.

Это, безусловно, прекрасный выбор профессии для аналитически настроенных людей, требующих сочетания твердых навыков программирования и глубоких технических знаний.

Однако за кражами, связанными с нейронными сетями и распределенными вычислениями, стоят некоторые фундаментальные статистические методы, с которыми каждый начинающий ученый из данных должен быть хорошо знаком.

Вы можете ознакомиться с последними фреймворками программирования или достижениями в научной литературе, если это необходимо для конкретного проекта. Но нет быстрых путей получения базовых статистических ноу-хау, которые создают эффективный ученый из данных.

Только практика, терпение и, возможно, лишь немного обучения на трудных путях действительно обострит ваши «инстинкты данных».

Принцип экономии

Во вступительных курсах статистики это повторяется до точки клише, но слова британского статистика Джорджа Бокса сегодня, возможно, более актуальны, чем когда-либо раньше:

«Все модели неправильны, но некоторые полезны»

Что на самом деле означает это утверждение?

Это означает, что, пытаясь смоделировать систему реального мира, вы обязательно должны упрощать и обобщать за счет объяснительной силы.

Реальный мир беспорядочен и шумен, его трудно понять до мельчайших деталей. Таким образом, статистическое моделирование стремится добиться не идеальной прогностической силы, а, скорее, максимальной предполагаемой силы с минимально необходимой моделью.

Эта концепция может показаться противоречивой для тех, кто новичок в мире данных. Почему бы не включить в модель как можно большее время? Безусловно, дополнительные термины могут только придать модели дополнительной объяснительной силы?

Ну да… и нет. Вам нужно только заботиться об условиях, которые приносят с собой. статистически значимым увеличение объяснительной силы.

Рассмотрим разные типы моделей, которые можно подогнать к заданному набору данных.

Простейшая нулевая модель, имеющая лишь один параметр — общее среднее значение переменного ответа (плюс некоторую случайно распределенную ошибку).

Эта модель утверждает, что переменный ответ не зависит от ни одного из объяснительных переменных. Его значения полностью объясняются случайными колебаниями общего среднего значения. Это, разумеется, несколько ограничивает объяснительную силу модели.

Полярная противоположность концепции — насыщенная модель, которая имеет один параметр для каждой отдельной точки данных. Здесь у вас есть идеально подобранная модель, но не имеющая пояснительной силы, если вы бросаете в нее какие-либо новые данные.

Включение одного термина в точку данных также пренебрегает упрощением любым значимым образом. Опять же – не совсем полезно.

k5FqxvwXsEctA2ktSMTfcMYsFHPN93r25OVj
Подгонка нулевой модели, слева и насыщенной модели, справа. Ни одна из моделей не допускает много полезной интерпретации.

Очевидно, что это крайние случаи. Вам следует искать модель где-то посередине – модель, которая хорошо соответствует данным и имеет хорошую объяснительную силу. Вы можете попробовать подогнать максимальную модель. Эта модель включает термины для всех факторов и рассматриваемых терминов взаимодействия.

Например, предположим, что у вас есть переменные ответы y которую нужно смоделировать как функцию объяснительных переменных x и x₂, умноженный на коэффициенты β. Максимальная модель будет выглядеть так:

y = перехват + β₁x₁ + β₂x₂ + β₃(x₁x₂) + ошибка

Надеемся, что эта максимальная модель будет достаточно хорошо соответствовать данным, а также обеспечит хорошую объяснительную силу. Он включает один термин для каждой пояснительной переменной и срок взаимодействия, x₁x₂.

Удаление сроков с модели увеличит общее остаточное отклонение, или доля наблюдаемой вариации, которую прогнозы модели не учитывают.

Однако не все условия равны. Возможно, вы сможете удалить один (или несколько) терминов, не заметив статистически значимого увеличения отклонений.

Такие термины можно считать несущественными и изъять из модели. Вы можете удалить незначительные термины один за другим (не забудьте перечислить остаточное отклонение на каждом шагу). Повторяйте это до тех пор пока все остальные термины не станут статистическими.

Теперь вы подошли к минимально адекватной модели. Оценки коэффициента каждого термина β существенно отличаются от нуля. Используемый здесь поэтапный элиминативный подход известен как «пошаговая» регрессия.

Философский принцип, лежащий в основе этого стремления к простоте модели, известен как принцип экономии.

Оно имеет некоторое сходство с известной эвристической книгой средневекового философа Уильяма Оккама «Бритва Оккама». Это звучит так: «при наличии двух или более одинаково приемлемых объяснений для явления, работайте с тем, которое вводит наименьшее количество предположений».

Или, другими словами: можете ли вы полезно объяснить что-нибудь сложное самым простым способом? Возможно, это определяющее стремление науки о данных – эффективное превращение сложности в понимание.

Всегда будьте скептическими

Проверка гипотез (например, A/B тестирование) является важной концепцией науки о данных.

Проще говоря, проверка гипотезы работает, сводя проблему к двум взаимоисключающим гипотезам и спрашивая, согласно какой гипотезе наблюдаемое значение данной тестовой статистики является наиболее вероятным. Статистика теста обычно рассчитывается из определенного соответствующего набора экспериментальных или данных наблюдений.

Когда дело доходит до проверки гипотезы, вы обычно спрашиваете, принимаете или отклоняете нулевую гипотезу.

Часто вы слышите, как люди описывают нулевую гипотезу как нечто вроде подведения или даже доказательства неудачи эксперимента.

Возможно, это связано с тем, как проверку гипотез учат начинающих, но кажется, что многие исследователи и ученые данных имеют подсознательное предубеждение против нулевой гипотезы. Они стремятся отбросить ее в пользу более увлекательной, более интересной, альтернативной гипотезы.

Это не просто анекдотическая проблема. По проблеме предвзятости публикаций написаны целые научные работы в научной литературе. Остается только удивляться, как эта тенденция проявляется в коммерческом контексте.

Но дело заключается в следующем: для любого правильно разработанного эксперимента или достаточно полного набора данных, принятие нулевой гипотезы должно быть таким же интересным, как и принятие альтернативы.

Действительно, нулевая гипотеза является краеугольным камнем выводочной статистики. Он определяет то, что мы делаем как ученые из данных, то есть превращаем данные в понимание. Представления ничего не стоят, если мы не гиперселективны по поводу того, какие выводы проходят проверку, и именно по этой причине всегда следует быть ультраскептическим.

Это особенно актуально, учитывая, как легко «случайно» отклонить нулевую гипотезу (по крайней мере, наивно применяя частотный подход).

Извлечение данных (или, «р-взлом») может дать всевозможные нелепые результаты, которые, тем не менее, кажутся статистически значимыми. Если множественных сравнений не избежать, нет оправданий для того, чтобы не принять меры по минимизации ошибок типа I (ложные срабатывания или «видеть эффекты, которых на самом деле нет»).

  • Для начала, когда дело доходит до статистических тестов, выберите тот, который по своей сути осторожен. Проверьте, правильно ли выполнены предположения теста относительно ваших данных.
  • Также важно рассмотреть методы коррекции, например коррекцию Бонферрони. Однако эти методы иногда критикуют за чрезмерную осторожность. Они могут снизить статистическую мощность создавая слишком много ошибок типа II (ложные негативы или «игнорирование действительно существующих эффектов»).
  • Ищите «нулевые» объяснения для своих результатов. Насколько подходящими были ваши процедуры отбора проб/сбора данных? Можете ли вы исключить какие-либо систематические ошибки? Могут ли быть какие-либо последствия предупреждения, автокорреляции, или регрессия к среднему?
  • И наконец, насколько правдоподобны любые потенциальные отношения, которые вы нашли? Никогда ничего не воспринимайте по нарицательной стоимости, независимо от того, насколько низким может быть p-значение!

Скептицизм здоров, и вообще хорошо всегда помнить о нулевых объяснениях для ваших данных.

Но избегайте паранойи! Если вы хорошо разработали свой эксперимент и осторожно проанализировали свои данные, тогда принимайте выводы как реальные!

Знайте свои методы

Последние технологические и теоретические достижения предоставили ученым из данных целым рядом мощных новых инструментов для решения сложных проблем, которые невозможно было бы решить даже десятилетия или два назад.

Эти достижения в машинном обучении вызывают большое волнение, и на это есть веские причины. Однако очень легко не заметить какие-либо ограничения, которые могут быть в применении их к определенной проблеме.

Например, нейронные сети могут прекрасно классифицировать изображения и распознавать почерк, но они не являются идеальным решением для всех проблем. Во-первых, они очень склонны к переоборудованию, то есть слишком знакомятся с данными обучения и не могут обобщать новые случаи.

Возьмите также их непрозрачность. Предполагаемая способность нейронных сетей часто обеспечивается ценой прозрачности. Благодаря интернализации выбора функций, даже если сеть делает точный прогноз, вы не обязательно понимаете как оно пришло к своему ответу.

Во многих бизнес- и коммерческих программах понимание «как и почему» часто является важнейшим результатом аналитического проекта. Отказ от этого понимания ради точности прогнозирования может быть или не быть компромиссом, который следует сделать.

Так же соблазнительно полагаться на точность сложного алгоритма машинного обучения, но они совершенно не безошибочны.

К примеру, Google Cloud Vision API — в общем очень впечатляющий — можно легко обмануть даже небольшим шумом в изображении. И напротив, другая увлекательная исследовательская работа показала, как глубокие нейронные сети могут «видеть» изображения, которых там просто нет.

Unu82IzSCTYuy2W-wFBiCQQ2zssV6oXnkVeG
Люди 1 – ноль Машин. Добавление даже небольшого шума в изображение может обмануть API Google Cloud Vision. Через TheRegister.co.uk.
3rmbJwk5WuZdOwm5PWt5OElDc5EOz9NctC0M
Что ты курил? Иногда DNN может показывать очень яркие воображения. Изображение через Nguyen et al, 2014. Прочтите статью на arXiv.

Это не только передовые методы машинного обучения, которые следует использовать с осторожностью.

Даже с более традиционными подходами к моделированию необходимо позаботиться о том, чтобы ключевые предположения были выполнены. Всегда смотрите на экстраполяцию за пределы обучающих данных, если не с подозрением, то по крайней мере с осторожностью. С каждым выводом, который вы делаете, всегда спрашивайте оправдывают ли ваши методы это сделать.

Это не значит, что вообще не доверяйте никакому методу – просто чтобы всегда быть в курсе почему вы используете один метод вместо другого, и что относительные плюсы/минусы могут быть.

Как правило, если вы не можете найти хотя бы один недостаток рассматриваемого метода, исследуйте его дополнительно, прежде чем продолжить. Всегда используйте самый простой инструмент, выполняющий работу.

Знание того, когда целесообразно, а когда целесообразно использовать данный подход, является ключевым навыком в науке о данных. Это умение совершенствоваться благодаря опыту и подлинному пониманию методов.

Общение

Коммуникация – это сущность науки о данных. В отличие от академических дисциплин, где вашей целевой аудиторией будут высококвалифицированные эксперты в вашей точной области обучения, аудитория коммерческого Data Scientist, вероятно, будет экспертами в широком диапазоне других областей.

Даже самые лучшие идеи в мире ничего не стоят, если они плохо передаются. Многие начинающие ученые имеют академический/исследовательский опыт и привыкнут общаться с технически специализированной аудиторией.

В коммерческой среде, однако, трудно подчеркнуть, насколько важно объяснять свои выводы таким образом, чтобы широкая аудитория могла понять и работать с ними.

К примеру, ваши результаты могут быть релевантными для различных отделов организации – от маркетинга до операций и разработки продуктов. Члены каждого из них будут экспертами в своих областях работы и получат пользу от четких, кратких и соответствующих резюме ваших выводов.

Не менее важны, как и фактические результаты, известны ограничения ваших выводов. Убедитесь, что ваша аудитория знает какие-либо ключевые предположения, отсутствуют данные или степень неопределенности в вашем рабочем процессе.

Клише «картинка стоит тысячи слов» особенно актуальна в науке о данных. С этой целью инструменты визуализации данных неоценимы.

Программное обеспечение, например Tableau, или библиотеки, такие как ggplot2 для R и D3.js, являются отличными способами очень эффективно передавать сложные данные. Их следует овладеть так же, как и любую техническую концепцию.

Определенное знание принципов графического дизайна поможет сделать ваши диаграммы умными и профессиональными.

Пишите также верно. Эволюция сформировала нас, людей, у уязвимых существ, исполненных подсознательных предубеждений, и мы по своей природе более склонны доверять лучше представленной, хорошо написанной информации.

Иногда лучший способ понять концепцию – это взаимодействовать с ней самостоятельно, поэтому, возможно, следует научиться нескольким навыкам интерактивной работы в Интернете, чтобы создавать интерактивные визуализации, с которыми ваша аудитория может поиграть. Нет необходимости изобретать велосипед заново. Библиотеки и инструменты, такие как D3.js и R’s Shiny, значительно облегчают вашу задачу.

Спасибо, что прочли! Если у вас есть отзывы или комментарии, оставьте ответ ниже – я с нетерпением жду их прочесть!

Добавить комментарий

Ваш адрес email не будет опубликован.