Регрессия

Парная регрессия

  • точка пересечения с Оy;
  • угол наклона прямой;
  • случайная величина.

Величина y, рассматриваемая как зависимая переменная, состоит из 2 составляющих:

  1. неслучайной составляющей +x, где х выступает как объясняющая переменная, а постоянные величины  и  как параметры уравнения;
  2. случайного члена.

Почему существует случайный член?

  1. невключение объясняющих переменных. Соотношение между y и x в большинстве случаев является очень большим упрощением. Существуют и др. факторы, влияющие на y, но которые мы либо не можем измерить, либо вообще не считаем таковыми;
  2. агрегирование переменных. Во многих случаях рассматриваемая зависимость – это попытка объединить вместе некоторое число микроэкономических соотношений. Так как отдельные соотношения, вероятно, имеют разные параметры, любая попытка определить соотношение между совокупными расходами и доходом является лишь аппроксимацией. Наблюдаемое расхождение при этом приписывается наличию случайного члена;
  3. неправильное описание структуры модели;
  4. неправильная функциональная специфика (т.е. неправильная математическая форма связи переменных);
  5. ошибка измерения.

Метод наименьших квадратов

Для того, чтобы определить, насколько хорошо подобранная прямая, описывает имеющиеся данные, надо определить, как оценить качество избранной прямой, чтобы из множества прямых выбрать ту, которая с наименьшей ошибкой делает это. Самым распространённым способом явл. МНК. Измеряется расстояние от каждой точки до прямой по оси Y – т.е. по вертикали, возводится в квадрат и стремится, чтобы полученная сумма квадратов была минимальной. Такую прямую провести можно всегда и она является для конкретных данных единственной.

Плюсы метода: лёгкость вычислительной процедуры; хорошие стат. свойства, простота математ. выводов делают возможным построить развитую теорию, позволяющую провести тщательную проверку различных стат. гипотез.

Минусы метода: чувствительность к выбросам.

 

Нелинейная регрессия

Иногда, при проведении анализа линейной модели, исследователь получает данные о ее неадекватности. В этом случае, его по-прежнему интересует зависимость между предикторными переменными и откликом, но для уточнения модели в ее уравнение добавляются некоторые нелинейные члены. Самым удобным способом оценивания параметров полученной регрессии является Нелинейное оценивание. Например, его можно использовать для уточнения зависимости между дозой и эффективностью лекарства, стажем работы и производительностью труда, стоимостью дома и временем, необходимым для его продажи и т.д. Наверное, вы заметили, что ситуации, рассматриваемые в этих примерах, часто интересовали нас и в таких методах как множественная регрессия и дисперсионный анализ. На самом деле, можно считать Нелинейное оценивание обобщением этих двух методов. Так, в методе множественной регрессии (и в дисперсионном анализе) предполагается, что зависимость отклика от предикторных переменных линейна. Нелинейное оценивание оставляет выбор характера зависимости за вами. Например, вы можете определить зависимую переменную как логарифмическую функцию от предикторной переменной, как степенную функцию, или как любую другую композицию элементарных функций от предикторов (однако, если все изучаемые переменные категориальны по своей природе, вы можете также воспользоваться модулем Анализ соответствий).

Если позволить рассмотрение любого типа зависимости между предикторами и переменной отклика, возникают два вопроса. Во-первых, как истолковать найденную зависимость в виде простых практических рекомендаций. С этой точки зрения линейная зависимость очень удобна, так как позволяет дать простое пояснение: “чем больше x (т.е., чем больше цена дома), тем больше y (тем больше времени нужно, чтобы его продать); и, задавая конкретные приращения x, можно ожидать пропорциональное приращение y”. Нелинейные соотношения обычно нельзя так просто проинтерпретировать и выразить словами. Второй вопрос – как проверить, имеется ли на самом деле предсказанная нелинейная зависимость.

Нелинейное оценивание позволяет задать практически любой тип непрерывной или разрывной регрессионной модели. Некоторые из наиболее общих нелинейных моделей (такие как пробит и логит модели, модель экспоненциального роста и регрессия с точками разрыва) уже имеются в Нелинейном оценивании. Однако, при необходимости, вы можете также самостоятельно ввести регрессионное уравнение любого типа, поручив программе его подгонку в соответствии с вашими данными. Более того, для оценивания модели вы можете использовать метод наименьших квадратов, метод максимума правдоподобия (если это допускается выбранной моделью), или, опять же, определить вашу собственную функцию потерь (см. ниже) задав соответствующее уравнение.

В общем случае, каждый раз, когда простая модель линейной регрессии неадекватно отражает зависимость переменных, используется модель нелинейной регрессии.

Регрессионные модели с линейной структурой

Полиномиальная регрессия. Распространенной “нелинейной” моделью является модель полиномиальной регрессии. Термин нелинейная заключен в кавычки, поскольку эта модель линейна по своей природе. Например, предположим, что вы измеряете в обучающем эксперименте связь физиологического возбуждения объектов и их производительности в задаче слежения за целями. На основании хорошо известного закона Йеркса-Додсона, можно ожидать нелинейной зависимости между уровнем возбуждения и производительностью. Это предположение можно выразить следующим уравнением регрессии:

Производительность = a + b1*Возбуждение + b2*Возбуждение2

В этом уравнении, a представляет свободный член, а b1 и b2 коэффициенты регрессии. Нелинейность этой модели выражается членом Возбуждение2. Однако, в сущности, модель по-прежнему линейна, за исключением того, что при ее оценивании нам придется возводить наблюдаемый уровень возбуждения в квадрат. Для оценивания коэффициентов регрессии этой модели можно использовать фиксированное нелинейное оценивание. Такие модели, где мы составляем линейное уравнение из некоторых преобразований независимых переменных, относятся к моделям нелинейным по переменным.

Модели, нелинейные по параметрам. Для сравнения с предыдущим примером рассмотрим зависимость между возрастом человека (переменная x) и его скоростью роста (переменная y). Очевидно, что соотношение между этими двумя переменными на первом году человеческой жизни (когда происходит наибольший рост) сильно отличается от соотношения во взрослом возрасте (когда человек почти не растет). Поэтому, эту зависимость лучше представить в виде какой-нибудь экспоненциальной функции с отрицательным показателем степени:

Рост = exp(-b1*Возраст)

Если вы построите на графике оценку для коэффициента регрессии, то вы получите кривую следующего вида:

Отметим, что эта модель по своей природе больше не является линейной, т.е. выражение, написанное сверху, не представимо в виде простой регрессионной модели с некоторыми преобразованиями независимых переменных. Такие модели называются нелинейными по параметрам.

Сведение нелинейных моделей к линейным. В общем случае, всегда, когда регрессионная модель может быть сведена к линейной модели, этому способу отдается предпочтение (при оценивании соответствующей модели). Модель линейной множественной регрессии (см. Множественная регрессия) наиболее просто понимаема с точки зрения математики и, с практической точки зрения, наиболее проста для толкования. Поэтому, возвращаясь к простой экспоненциальной регрессионной модели Скорости роста как функции Возраста, описанной раньше, мы можем преобразовать это нелинейное уравнение в линейное, прологарифмировав обе части уравнения, получив:

Log (Рост) = -b1*Возраст

Если теперь заменить log(Рост)) на y, мы получим стандартную модель линейной регрессии, как уже было показано раньше (без свободного члена, который был опущен для простоты изложения). Таким образом, для оценивания взаимоотношения возраста и скорости роста вы можете прологарифмировать данные о скорости роста (например, воспользовавшись преобразованиями таблиц данных с помощью формул), а затем использовать Множественную регрессию, получив при этом интересующий нас коэффициент регрессии b1.

Существенно нелинейные регрессионные модели

Для некоторых регрессионных моделей, которые не могут быть сведены к линейным, единственным способом для исследования остается Нелинейное оценивание. В приведенном выше примере для скорости роста, мы специально “забыли ” о случайной ошибке в зависимой переменной. Конечно, на скорость роста влияют множество других факторов (кроме возраста), и нам следует ожидать значительных случайных отклонений (остатков) от предложенной нами кривой. Если добавить эту ошибку или остаточную изменчивость, нашу модель можно переписать следующим образом:

Рост = exp(-b1*Возраст) + ошибка

Аддитивная ошибка. В этой модели предполагается, что случайная ошибка не зависит от возраста, т.е., остаточная изменчивость одинакова для всех возрастов. Поскольку ошибка в этой модели аддитивна, т.е. просто прибавляется к точному значению скорости роста, мы больше не можем линеаризовать эту модель простым логарифмированием обеих частей. Если бы мы снова прологарифмировали входные данные о скорости роста и подобрали простую линейную модель, мы заметили бы, что остатки больше не являются равномерно распределенными вокруг значений переменной возраст; и поэтому, стандартный линейный регрессионный анализ (с помощью Множественной регрессии) больше не применим. Единственным способом оценивания параметров модели остается использование Нелинейного оценивания.

Мультипликативная ошибка. В “оправдание” предыдущего примера заметим, что в данном случае постоянство вариации случайной ошибки в любом возрасте мало вероятно, т.е., предположение об аддитивности ошибки не слишком реалистично. Правдоподобнее, что изменения скорости роста более случайны и непредсказуемы в раннем возрасте, чем в позднем, когда рост практически останавливается. Поэтому, более реалистичной моделью, включающей ошибку, будет:

Рост = exp(-b1*Возраст) * ошибка

На словах это означает, что чем больше возраст, тем меньше множитель exp(-b1*Возраст), и, следовательно, тем меньше будет разброс результирующей ошибки. Если же вы теперь прологарифмируете обе части нашего уравнения, то остаточная ошибка перейдет в свободный член линейного уравнения, т.е., аддитивный фактор, и вы сможете продолжить и оценить b1 пользуясь стандартную множественную регрессию.

Log (Рост) =  -b1*Возраст + ошибка

Множественная регрессия

Общая задача:

  • оценить (подобрать) параметры  и  наилучшим способом;
  • построить доверительные интервалы;
  • проверить гипотезу о значимости регрессии;
  • оценить степень адекватности модели.

Основные понятия:

Независимая переменная – предикат, зависимая – отклик

Предсказанные значения – значения зависимой переменой, вычисленные по уравнению с оцененными параметрами

Остатки – разности между наблюдаемыми значениями и предсказанными значениями

Коэффициент детерминации R? измеряет долю разброса относительно среднего значения, которую «объясняет» построенная регрессия. Лежит в пределах от 0 до 1: чем ближе к 1, тем лучше регрессия объясняет зависимость в данных.

Для того, чтобы регрессионный анализ, основанный на обычном МНК, давал наилучшие из всех возможных результатов, случайный член должен удовлетворять 4 условиям, известным как условия Гаусса-Маркова.

  1. математ. ожидание (среднее значение) случайного члена в любом наблюдении должно быть равным 0. Иногда случайный член будет положительным, иногда отрицательным, но он не должен иметь систематического смещения ни в одном из двух возможных направлений;
  2. дисперсия случайного члена должна быть постоянная для всех наблюдений;
  3. отсутствие систематической связи между значениями случайного члена в любых двух наблюдениях. Случайные члены должны быть абсолютно независимыми друг от друга;
  4. случайный член должен быть распределён независимо от объясняющих переменных.

Интерпретация ур-ния регрессии

 Увеличение х на одну единицу (в единицах измерения х), приводит к увеличению у на b единиц.

F-тест на качество оценивания

При помощи F-статистики проверяется нулевая гипотеза о том, что коэффициенты при объясняющих переменных равны 0. При осуществлении F-теста для уравнения проверяется, превышает ли коэффициент R? то значение, которое может быть получено случайно.

После вычисления критерия F по значению коэффициента R? мы отыскиваем величину Fкрит – критическое значение F в таблице. Если F> Fкрит, то мы отклоняем нулевую гипотезу и делаем вывод о том, что имеющееся «объяснение» поведения величины у лучше, чем можно было бы получить чисто случайно.

Стандартная ошибка коэффициента множественной регрессии имеет следующий смысл: она является оценкой стандартного отклонения распределения коэффициента регрессии вокруг его истинного значения.

Мультиколлинеарность – это понятие, которое используется для описания проблемы, когда нестрогая линейная зависимость между объясняющими переменными приводит к получению ненадёжных оценок регрессии. Разумеется, такая зависимость совсем необязательно даёт неудовлетворительные оценки. Если все другие условия благоприятствуют, т.е. число наблюдений и выборочные дисперсии объясняющих переменных велики, а дисперсия случайного члена – мала, то в итоге можно получить вполне хорошие оценки.

Регрессия. Категория задач, где цель состоит в том, чтобы оценить значение непрерывной выходной переменной по значениям входных переменных.

Регрессионные бета-коэффициенты. Коэффициенты бета являются коэффициентами, которые были бы получены, если бы мы заранее стандартизовали все переменные, т.е. сделали их среднее равным 0, а стандартное отклонение равное 1. Одно из преимуществ бета-коэффициентов (по сравнению с B коэффициентами) заключается в том, что бета-коэффициенты позволяют сравнить относительные вклады каждой независимой переменной в предсказание зависимой переменной.

Среднее. Среднее показывает “центральное положение” (центр) переменной и рассматривается совместно с доверительным интервалом. Обычно интерес представляют статистики (например, среднее), дающие информацию о популяции в целом. Чем больше размер выборки, тем более надежна оценка среднего. Чем больше изменчивость данных (больше разброс), тем оценка менее надежна.

Среднее = (xi)/n, где n  – число наблюдений (объем выборки).

Стандартное отклонение. Стандартное отклонение это широко используемая мера разброса или вариабельности (изменчивости) данных. Стандартное отклонение популяции определяется формулой: [(xi-µ)2/N]1/2, где

µ    – среднее популяции
N   –  размер популяции.
Выборочное стандартное отклонение или оценка стандартного отклонения вычисляется по формуле: s = [(xi-x-bar)2/n-1]1/2, где

xbar  – выборочное среднее
n     –  число наблюдений в выборке.

Общее назначение множественной регрессии состоит в анализе связи между несколькими независимыми переменными (называемыми также регрессорами или предикторами) и зависимой переменной. Например, агент по продаже недвижимости мог бы вносить в каждый элемент реестра размер дома (в квадратных футах), число спален, средний доход населения в этом районе в соответствии с данными переписи и субъективную оценку привлекательности дома. Как только эта информация собрана для различных домов, было бы интересно посмотреть, связаны ли и каким образом эти характеристики дома с ценой, по которой он был продан. Например, могло бы оказаться, что число спальных комнат является лучшим предсказывающим фактором (предиктором) для цены продажи дома в некотором специфическом районе, чем “привлекательность” дома (субъективная оценка). Могли бы также обнаружиться и “выбросы”, т.е. дома, которые могли бы быть проданы дороже, учитывая их расположение и характеристики.
Специалисты по кадрам обычно используют процедуры множественной регрессии для определения вознаграждения адекватного выполненной работе. Можно определить некоторое количество факторов или параметров, таких, как “размер ответственности” (Resp) или “число подчиненных” (No_Super), которые, как ожидается, оказывают влияние на стоимость работы. Кадровый аналитик затем проводит исследование размеров окладов (Salary) среди сравнимых компаний на рынке, записывая размер жалования и соответствующие характеристики (т.е. значения параметров) по различным позициям. Эта информация может быть использована при анализе с помощью множественной регрессии для построения регрессионного уравнения в следующем виде:

Salary = .5*Resp + .8*No_Super

Как только эта так называемая линия регрессии определена, аналитик оказывается в состоянии построить график ожидаемой (предсказанной) оплаты труда и реальных обязательств компании по выплате жалования. Таким образом, аналитик может определить, какие позиции недооценены (лежат ниже линии регрессии), какие оплачиваются слишком высоко (лежат выше линии регрессии), а какие оплачены адекватно.

В общественных и естественных науках процедуры множественной регрессии чрезвычайно широко используются в исследованиях. В общем, множественная регрессия позволяет исследователю задать вопрос (и, вероятно, получить ответ) о том, “что является лучшим предиктором для…”. Например, исследователь в области образования мог бы пожелать узнать, какие факторы являются лучшими предикторами успешной учебы в средней школе. А психолога мог быть заинтересовать вопрос, какие индивидуальные качества позволяют лучше предсказать степень социальной адаптации индивида. Социологи, вероятно, хотели бы найти те социальные индикаторы, которые лучше других предсказывают результат адаптации новой иммигрантской группы и степень ее слияния с обществом. Заметим, что термин “множественная” указывает на наличие нескольких предикторов или регрессоров, которые используются в модели.

Общая вычислительная задача, которую требуется решать при анализе методом множественной регрессии, состоит в подгонке прямой линии к некоторому набору точек.

В простейшем случае, когда имеется одна зависимая и одна независимая переменная, это можно увидеть на диаграмме рассеяния.

Уравнение регрессии. Прямая линия на плоскости (в пространстве двух измерений) задается уравнением Y=a+b*X; более подробно: переменная Y может быть выражена через константу (a) и угловой коэффициент (b), умноженный на переменную X. Константу иногда называют также свободным членом, а угловой коэффициент – регрессионным или B-коэффициентом. Например, значение GPA можно лучше всего предсказать по формуле 1+.02*IQ. Таким образом, зная, что коэффициент IQ у студента равен 130, вы могли бы предсказать его показатель успеваемости GPA, скорее всего, он близок к 3.6 (поскольку 1+.02*130=3.6).

Запись опубликована в рубрике Статистика, Точные науки. Добавьте в закладки постоянную ссылку.