введение в среднюю квадратичную ошибку и линии регрессии

1656519144 vvedenie v srednyuyu kvadratichnuyu oshibku i linii regressii

Моше Биниели

gTEepgnyLsstSg1f91QYpxRBtTlPz0jZkSPG
Вводное изображение

Введение

В этой статье речь пойдет о статистическом методе средняя квадратическая ошибкаи я опишу связь этого метода с линия регрессии.

Пример состоит из точек на декартовой оси. Мы определим математическую функцию, которая даст нам прямую, которая лучше проходит между всеми точками на декартовой оси.

И таким образом мы узнаем связь между этими двумя методами и как выглядит результат их соединения вместе.

Общее объяснение

Это определение из Википедии:

В статистике среднеквадратичная ошибка (MSE) оценщика (процедуры оценки ненаблюдаемой величины) измеряет среднее количество квадратов ошибок — то есть среднюю квадратическую разницу между оцененными значениями и оцененными. MSE является функцией риска, соответствующей ожидаемому значению квадрата потери ошибки. Тот факт, что MSE почти всегда строго положительным (а не нулевым), объясняется случайностью или потому, что оценщик не учитывает информацию, которая могла бы дать более точную оценку.

Структура статьи

  • Почувствуйте идею, визуализацию графика, уравнение средней квадратической ошибки.
  • Математическая часть, содержащая алгебраические манипуляции и производную от двух переменных функций для нахождения минимума. Этот раздел есть для тех, кто хочет понять как математические формулы мы получим позже, вы можете пропустить их, если вас это не интересует.
  • Объяснение математических формул, которые мы получили, и роль каждой переменной в формуле.
  • Примеры

Почувствуйте идею

Скажем, у нас есть семь точек, и наша цель – найти такую ​​прямую минимизирует квадраты расстояния до этих разных точек.

Давайте попробуем разобраться в этом.

Я последую примеру и проведу линию между точками. Конечно, мой рисунок не самый лучший, но это только для демонстрации.

MNskFmGPKuQfMLdmpkT-X7-8w2cJXulP3683
Точки на простом графике.

Вы можете задать себе вопрос, что это за график?

  • в фиолетовые точки — точки на графике. Каждая точка имеет координаты X и Y.
  • The синяя линия наша линия прогноза. Это линия, которая проходит через все точки и наилучшим образом вписывается в них. Эта строка содержит прогнозируемые точки.
  • The Красная линия между каждой фиолетовой точкой и линией предсказания находятся ошибки. Каждая ошибка – это расстояние от точки до ее прогнозируемой точки.

Вы должны помнить это уравнение со своих школьных времен, y=Mx+Bгде М – наклон прямой и Б есть Y-перехват прямой.

Мы хотим найти M (наклон) и B (сечение Y). минимизирует ошибка в квадрате!

Давайте определим математическое уравнение, которое даст нам среднюю квадратичную ошибку для всех наших точек.

hmZydSW9YegiMVPWq2JBpOpai3CejzQpGkNG
Общая формула среднеквадратической погрешности.

Давайте проанализируем, что на самом деле это уравнение означает.

  • В математике символ, который выглядит как странное Е, называется суммированием (греческой сигма). Это сумма последовательности чисел от i=1 до n. Представим это как массив точек, где мы проходим через все точки от первой (i=1) до последней (i=n).
  • Для каждой точки берем координату y точки и координату y’. Координата y – это наша фиолетовая точка. Точка y расположена на созданной нами линии. Мы вычитаем значение координаты y из значения координаты y’ и вычисляем квадрат результата.
  • Третья часть – взять сумму всех значений (y-y’)² и разделить ее на n, что даст среднее.

Наша цель – минимизировать это среднее, что даст нам лучшую линию, которая проходит через все точки.

От концепции к математическим уравнениям

Эта часть есть для людей, которые хотят понять, как мы добрались до математических уравнений. Вы можете перейти к следующей части, если хотите.

Как вы знаете, уравнение линии имеет вид y=mx+b, где m – наклон, а b – сечение y.

Давайте возьмем каждую точку на графике и выполним вычисление (y-y’) ².
Но что такое y’ и как мы его вычислим? У нас нет его как часть данных.

Но мы знаем, что для вычисления y’, нам нужно использовать наше уравнение, y=mx+b, и добавить x в уравнение.

Отсюда получаем следующее уравнение:

wSige6ZLxM-QaVt3fRWXIAzsHvX7wdcJ4XOy

Давайте перепишем это выражение, чтобы упростить его.

JFi5pzT7YtJ-0Fkx59jP0hCNHzc8tvsrXgPg

Начнём с того, что раскроем все скобки в уравнении. Я разукрасил разницу между уравнениями, чтобы было легче понять.

vWLTze9HzNDSg4LRM5dbpkYUpkXkhTW6TnRl

Теперь применим еще одну манипуляцию. Мы возьмем каждую часть и соединим. Мы возьмем все y, и (-2ymx) и т. д., и мы поместим их все бок о бок.

y3gkwSWxwAOcxfxMILLV0teW1273PFtFiqW4

На этом этапе мы начинаем быть беспорядочными, и возьмем среднее значение всех квадратов для y, xy, x, x².

Давайте определим для каждого новый символ, представляющий среднее значение всех квадратов.

Давайте посмотрим на пример, возьмем все значения y и поделим их на n, поскольку это среднее и назовем его y(HeadLine).

L3NWDFs1LUKgQU223EAFXXUXX3OTFWR0gLtE

Если умножить обе части уравнения на n, то получим:

jyiOt9MVCg460395d6mkHlrmK9ssfr8nQGJC

Что приведет нас к следующему уравнению:

bv3wucYBgHc3Zch115zMYjhH-zYe5VgwjMAH

Если мы посмотрим на то, что получили, то увидим, что имеем трехмерную поверхность. Он похож на стакан, который резко поднимается вверх.

Мы хотим найти M и B, минимизирующие функцию. Сделаем частичную производную по M и частичную производную по B.

Поскольку мы ищем точку минимума, возьмем долевые производные и сравним с 0.

88voRjo799rIopVP8YjsHlNhrBSJ8REg26hY
Формула частичных производных
6t-4Uq4Y4GMGg9mYWPUUmHHsmaTvxuDPZCj3
Частные производные

Давайте возьмем два уравнения, которые мы получили, выделив переменную b из обоих, а затем вычтем верхнее уравнение от нижнего уравнения.

-I3Ly2wOtJf9WiecfOjvFiY6U9DXB4PJBQ6t
Различное написание уравнений после вывода по частям

Вычтем первое уравнение от второго уравнения

6WzsJxr0jSG8XPYz-F2dSmINqnexxJLxWsxi
Объедините два уравнения вместе

Избавимся от знаменателей от уравнения.

Ac05NR92faqptoFE35F2XFcKjllJhJPdwGnE
Окончательное уравнение для нахождения М.А.

И вот мы идем, это уравнение, чтобы найти M, давайте возьмем это и запишем уравнение B.

pjxjeSICBJNckegf3WXCHtfrf7dyIxVfqbBB
Окончательное уравнение для нахождения B.

Уравнение для наклона и сечения Y

Давайте приведем математические уравнения, которые помогут нам найти нужный наклон и Y сечение.

290zZ8roKAfKNCrfq1LN7QuTooJjbH19Isiv
Уравнение наклона и сечения Y

Вы, наверное, думаете о себе, что это за странные уравнения?

Они действительно просты для понимания, поэтому давайте немного о них поговорим.

KTFy4uhGXnGSrCoyInhSWfHH4VTEnAJyncpm
Сумма х разделена на n
lQSFx0h7KiRB0uOcriwpFrmhsev3kt4cCUU5
Сумма x² разделена на n
LYZL8LPc8vyZ0wPV2J2sp-pXiuCzvslY8EAQ
Сумма xy поделена на n
0E27klUj208HeeecnRKR9Eokb2PmKfUnoO-O
Сумма y поделена на n

Теперь, когда мы поняли наши уравнения, пора собрать все вещи вместе и показать несколько примеров.

Примеры

Большое спасибо Khan Academy за примеры.

Пример №1

Возьмем 3 балла, (1,2), (2,1), (4,3).

IudmVD0mo4BMYqPEjFyETchb5GGsDv5ikxwB
Точки на графике.

Найдем M и B для уравнения y=mx+b.

KFDixcE4WidM6Pez8RNDwOgBorpnj1QuLw5S
Подведите значение x и разделите на n
Rqkh4dC9zZ11V4McMwJFspxv5UySTiI9Sv1L
Подведите значение y и разделите на n
tkUVYMlF-9qDaK69dWj0bFy1ApEK4DHw05vK
Подведите значение xy и разделите на n
80W3OcjPxF9ek2HIjv0VYnwCEhpzURavMAlj
Подведите значение x² и разделите на n

После того, как мы вычислили соответствующие части нашего уравнения M и B, давайте поместим эти значения в уравнение и получим наклон и сечение Y.

Hri9luC8oVUAgZLnLoDgey4X0T6LEZwIFMav
Расчет уклона
H4Ss6UYBdSfJgx63lz93uXaubcE3-6e1niFS
расчет сечения Y

Давайте возьмем эти результаты и установим их в уравнении прямой y=mx+b.

S9EESO6mBvglt1o--YlQZQFqhNGPg4we6Kju

Теперь давайте нарисуем линию и посмотрим, как линия проходит через линии так, чтобы минимизировать квадраты расстояния.

DlKy-Eekc0SdHpcOeQPGJobo7jYLfTh0pI8Q
Линия регрессии, минимизирующая MSE.

Пример №2

Возьмем 4 балла, (-2,-3), (-1,-1), (1,2), (4,3).

MrlSNVYUJEh-4OcRGXEe3hbeU10wjTH-vmDB
Точки на графике.

Найдем M и B для уравнения y=mx+b.

MqNv9HXhu7koehCq1WgBSH2Mje3VoHUM6Dsb
Подведите значение x и разделите на n
I8bZESRhxejhmNWbxMlusVlxfCgnrJPbn2En
Подведите значение y и разделите на n
YwF2k-wP1YkSiPUoZZ5kV99p5xpS4VeBtlxP
Подведите значение xy и разделите на n
Sbo7-PaRePrfBM1sOME5du5GDQ-1r1ntdoD1
Подведите значение x² и разделите на n

По-прежнему давайте поместим эти значения в наши уравнения, чтобы найти M и B.

LUideJM-zrCgulLv83Gh08ySgcChQXY6BpxC
Расчет уклона
F9K53LF0Dp3kjIYYC3UJoLfGJqICCIhtqTMo
расчет сечения Y

Давайте возьмем эти результаты и установим в уравнении y=mx+b.

0o5OFw2QwtBJYntrz4vRJn9ywrdsumLxH5rg

Теперь давайте нарисуем линию и посмотрим, как линия проходит через линии так, чтобы минимизировать квадраты расстояния.

yAMNsNJmTBdZ2MKPbD8JX-es3d-5Oj4OIHRl
Линия регрессии, минимизирующая MSE

В заключение

Как видите, вся идея проста. Нам просто нужно понять основные части и как мы с ними работаем.

Вы можете работать с формулами, чтобы найти линию по другому графику, выполнить простой расчет и получить результаты для наклона и сечения Y.

Вот и все, просто, а? ?

Все комментарии и отзывы приветствуются – если потребуется, я исправлю статью.

Не стесняйтесь связаться со мной непосредственно в LinkedIn – нажмите здесь.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *