Явление мультиколлинеарности состоит в следующем. Привет студент. Признаки стационарности стохастического процесса. Что такое «Белый шум»? с.100

При построении уравнения множественной регрессии может возникнуть проблема мультиколлинеарности факторов. Мультиколлинеарностью называется линейная взаимосвязь двух или нескольких объясняющих переменных, которая может проявляться в функциональной (явной) или стохастической (скрытой) форме.
Выявление связи между отобранными признаками и количественная оценка тесноты связи осуществляются с использованием методов корреляционного анализа. Для решения этих задач сначала оценивается , затем на ее основе определяются частные и множественные коэффициенты корреляции и детерминации, проверяется их значимость. Конечной целью корреляционного анализа является отбор факторных признаков x 1 , x 2 ,…,x m для дальнейшего построения уравнения регрессии.

Если факторные переменные связаны строгой функциональной зависимостью, то говорят о полной мультиколлинеарности . В этом случае среди столбцов матрицы факторных переменных Х имеются линейно зависимые столбцы, и, по свойству определителей матрицы , det(X T X) = 0 , т. е. матрица (X T X) вырождена, а значит, не существует обратной матрицы. Матрица (X T X) -1 используется в построении МНК-оценок. Таким образом, полная мультиколлинеарность не позволяет однозначно оценить параметры исходной модели регрессии.

К каким трудностям приводит мультиколлинеарность факторов, включенных в модель, и как они могут быть разрешены?

Мультиколлинеарность может привести к нежелательным последствиям:

  1. оценки параметров становятся ненадежными. Они обнаруживают большие стандартные ошибки. С изменением объема наблюдений оценки меняются (не только по величине, но и по знаку), что делает модель непригодной для анализа и прогнозирования.
  2. затрудняется интерпретация параметров множественной регрессии как характеристик действия факторов в «чистом» виде, ибо факторы коррелированны; параметры линейной регрессии теряют экономический смысл;
  3. становится невозможным определить изолированное влияние факторов на результативный показатель.

Вид мультиколлинеарности, при котором факторные переменные связаны некоторой стохастической зависимостью, называется частичной. Если между факторными переменными имеется высокая степень корреляции, то матрица (X T X) близка к вырожденной, т. е. det(X T X) ≈ 0.
Матрица (X T X) -1 будет плохо обусловленной, что приводит к неустойчивости МНК-оценок. Частичная мультиколлинеарность приводит к следующим последствиям:

  • увеличение дисперсий оценок параметров расширяет интервальные оценки и ухудшает их точность;
  • уменьшение t -статистик коэффициентов приводит к неверным выводам о значимости факторов;
  • неустойчивость МНК-оценок и их дисперсий.

Точных количественных критериев для обнаружения частичной мультиколлинеарности не существует. О наличии мультиколлинеарности может свидетельствовать близость к нулю определителя матрицы (X T X). Также исследуют значения парных коэффициентов корреляции. Если же определитель матрицы межфакторной корреляции близок к единице, то мультколлинеарности нет.

Существуют различные подходы преодоления сильной межфакторной корреляции. Простейший из них – исключение из модели фактора (или факторов), в наибольшей степени ответственных за мультиколлинеарность при условии, что качество модели при этом пострадает несущественно (а именно, теоретический коэффициент детерминации -R 2 y(x1...xm) снизится несущественно).

С помощью какой меры невозможно избавиться от мультиколлинеарности?
a) увеличение объема выборки;
b) исключения переменных высококоррелированных с остальными;
c) изменение спецификации модели;
d) преобразование случайной составляющей.

Парные (линейные) и частные коэффициенты корреляции

Тесноту связи, например между переменными x и y по выборке значений (x i , y i), i=1,n , (1)
где x и y – средние значения, S x и S y – стандартные отклонения соответствующих выборок.

Парный коэффициент корреляции изменяется в пределах от –1 до +1. Чем ближе он по абсолютной величине к единице, тем ближе статистическая зависимость между x и y к линейной функциональной. Положительное значение коэффициента свидетельствует о том, что связь между признаками прямая (с ростом x увеличивается значение y), отрицательное значение – связь обратная (с ростом x значение y уменьшается).
Можно дать следующую качественную интерпретацию возможных значений коэффициента корреляции: если |r|<0.3 – связь практически отсутствует; 0.3≤ |r| < 0.7 - связь средняя; 0.7≤ |r| < 0.9 – связь сильная; 0.9≤ |r| < 0.99 – связь весьма сильная.
Для оценки мультиколлинеарности факторов используют матрицу парных коэффициентов корреляции зависимого (результативного) признака y с факторными признаками x 1 , x 2 ,…,x m , которая позволяет оценить степень влияния каждого показателя-фактора x j на зависимую переменную y, а также тесноту взаимосвязей факторов между собой. Корреляционная матрица в общем случае имеет вид
.
Матрица симметрична, на ее диагонали стоят единицы. Если в матрице есть межфакторный коэффициент корреляции r xjxi >0.7, то в данной модели множественной регрессии существует мультиколлинеарность.
Поскольку исходные данные, по которым устанавливается взаимосвязь признаков, являются выборкой из некой генеральной совокупности, вычисленные по этим данным коэффициенты корреляции будут выборочными, т. е. они лишь оценивают связь. Необходима проверка значимости, которая отвечает на вопрос: случайны или нет полученные результаты расчетов.
Значимость парных коэффициентов корреляции проверяют по t- критерию Стьюдента. Выдвигается гипотеза о равенстве нулю генерального коэффициента корреляции: H 0: ρ = 0. Затем задаются параметры: уровень значимости α и число степеней свободы v = n-2. Используя эти параметры, по таблице критических точек распределения Стьюдента находят t кр, а по имеющимся данным вычисляют наблюдаемое значение критерия:
, (2)
где r – парный коэффициент корреляции, рассчитанный по отобранным для исследования данным. Парный коэффициент корреляции считается значимым (гипотеза о равенстве коэффициента нулю отвергается) с доверительной вероятностью γ = 1- α, если t Набл по модулю будет больше, чем t крит.
Если переменные коррелируют друг с другом, то на значении коэффициента корреляции частично сказывается влияние других переменных.

Частный коэффициент корреляции характеризует тесноту линейной зависимости между результатом и соответствующим фактором при устранении влияния других факторов. Частный коэффициент корреляции оценивает тесноту связи между двумя переменными при фиксированном значении остальных факторов. Если вычисляется, например, r yx 1| x2 (частный коэффициент корреляции между y и x 1 при фиксированном влиянии x 2), это означает, что определяется количественная мера линейной зависимости между y и x 1 , которая будет иметь место, если устранить влияние x 2 на эти признаки. Если исключают влияние только одного фактора, получают частный коэффициент корреляции первого порядка.
Сравнение значений парного и частного коэффициентов корреляции показывает направление воздействия фиксируемого фактора. Если частный коэффициент корреляции r yx 1| x2 получится меньше, чем соответствующий парный коэффициент r yx 1 , значит, взаимосвязь признаков y и x 1 в некоторой степени обусловлена воздействием на них фиксируемой переменной x 2 . И наоборот, большее значение частного коэффициента по сравнению с парным свидетельствует о том, что фиксируемая переменная x 2 ослабляет своим воздействием связь y и x 1 .
Частный коэффициент корреляции между двумя переменными (y и x 2) при исключении влияния одного фактора (x 1) можно вычислить по следующей формуле:
. (3)
Для других переменных формулы строятся аналогичным образом. При фиксированном x 2
;
при фиксированном x 3
.
Значимость частных коэффициентов корреляции проверяется аналогично случаю парных коэффициентов корреляции. Единственным отличием является число степеней свободы, которое следует брать равным v = n – l -2, где l – число фиксируемых факторов.

Пошаговая регрессия

Отбор факторов x 1 , x 2 , …,x m , включаемых в модель множественной регрессии, является одним из важнейших этапов эконометрического моделирования. Метод последовательного (пошагового) включения (или исключения) факторов в модель позволяет выбрать из возможного набора переменных именно те, которые усилят качество модели.
При реализации метода на первом шаге рассчитывается корреляционная матрица. На основе парных коэффициентов корреляции выявляется наличие коллинеарных факторов. Факторы x i и x j признаются коллинеарными, если r xjxi >0.7. В модель включают лишь один из взаимосвязанных факторов. Если среди факторов отсутствуют коллинеарные, то в модель могут быть включены любые факторы, оказывающие существенное влияние на y .

На втором шаге строится уравнение регрессии с одной переменной, имеющей максимальный по абсолютной величине парный коэффициент корреляции с результативным признаком.

На третьем шаге в модель вводится новая переменная, имеющая наибольшее по абсолютной величине значение частного коэффициента корреляции с зависимой переменной при фиксированном влиянии ранее введенной переменной.
При введении в модель дополнительного фактора коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться. Если этого не происходит, т. е. коэффициент множественной детерминации увеличивается незначительно, то ввод нового фактора признается нецелесообразным.

Пример №1 . По 20 предприятиям региона изучается зависимость выработки продукции на одного работника y (тыс. руб.) от удельного веса рабочих высокой квалификации в общей численности рабочих x1 (% от стоимости фондов на конец года) и от ввода в действие новых основных фондов x2 (%).

Y X1 X2
6 10 3,5
6 12 3,6
7 15 3,9
7 17 4,1
7 18 4,2
8 19 4,5
8 19 5,3
9 20 5,3
9 20 5,6
10 21 6
10 21 6,3
11 22 6,4
11 23 7
12 25 7,5
12 28 7,9
13 30 8,2
13 31 8,4
14 31 8,6
14 35 9,5
15 36 10

Требуется:

  1. Построить корреляционное поле между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации. Выдвинуть гипотезу о тесноте и виде зависимости между показателями X1 и Y .
  2. Оценить тесноту линейной связи между выработкой продукции на одного работника и удельным весом рабочих высокой квалификации с надежностью 0,9.
  3. Рассчитать коэффициенты линейного уравнения регрессии для зависимости выработки продукции на одного работника от удельного веса рабочих высокой квалификации.
  4. Проверить статистическую значимость параметров уравнения регрессии с надежностью 0,9 и построить для них доверительные интервалы.
  5. Рассчитать коэффициент детерминации. С помощью F -критерия Фишера оценить статистическую значимость уравнения регрессии с надежностью 0,9.
  6. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих.
  7. Рассчитать коэффициенты линейного уравнения множественной регрессии и пояснить экономический смысл его параметров.
  8. Проанализировать статистическую значимость коэффициентов множественного уравнения с надежностью 0,9 и построить для них доверительные интервалы.
  9. Найти коэффициенты парной и частной корреляции. Проанализировать их.
  10. Найти скорректированный коэффициент множественной детерминации. Сравнить его с нескорректированным (общим) коэффициентом детерминации.
  11. С помощью F -критерия Фишера оценить адекватность уравнения регрессии с надежностью 0,9.
  12. Дать точечный и интервальный прогноз с надежностью 0,9 выработки продукции на одного работника для предприятия, на котором высокую квалификацию имеют 24% рабочих, а ввод в действие новых основных фондов составляет 5%.
  13. Проверить построенное уравнение на наличие мультиколлинеарности по: критерию Стьюдента; критерию χ2. Сравнить полученные результаты.

Решение проводим с помощью калькулятора . Далее приводится ход решения п.13.
Матрица парных коэффициентов корреляции R:

- y x 1 x 2
y 1 0.97 0.991
x 1 0.97 1 0.977
x 2 0.991 0.977 1

При наличии мультиколлинеарности определитель корреляционной матрицы близок к нулю. Для нашего примера: det = 0.00081158 , что свидетельствует о наличии сильной мультиколлинеарности.
Для отбора наиболее значимых факторов x i учитываются следующие условия:
- связь между результативным признаком и факторным должна быть выше межфакторной связи;
- связь между факторами должна быть не более 0.7. Если в матрице есть межфакторный коэффициент корреляции r xjxi > 0.7, то в данной модели множественной регрессии существует мультиколлинеарность.;
- при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними.
В нашем случае r x 1 x 2 имеют |r|>0.7, что говорит о мультиколлинеарности факторов и о необходимости исключения одного из них из дальнейшего анализа.
Анализ первой строки этой матрицы позволяет произвести отбор факторных признаков, которые могут быть включены в модель множественной корреляционной зависимости. Факторные признаки, у которых |r yxi | 0.3 – связь практически отсутствует; 0.3 ≤ |r| ≤ 0.7 - связь средняя; 0.7 ≤ |r| ≤ 0.9 – связь сильная; |r| > 0.9 – связь весьма сильная.
Проверим значимость полученных парных коэффициентов корреляции с помощью t-критерия Стьюдента. Коэффициенты, для которых значения t-статистики по модулю больше найденного критического значения, считаются значимыми.
Рассчитаем наблюдаемые значения t-статистики для r yx 1 по формуле:

где m = 1 - количество факторов в уравнении регрессии.

По таблице Стьюдента находим Tтабл
t крит (n-m-1;α/2) = (18;0.025) = 2.101
Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значим
Рассчитаем наблюдаемые значения t-статистики для r yx 2 по формуле:

Поскольку t набл > t крит, то отклоняем гипотезу о равенстве 0 коэффициента корреляции. Другими словами, коэффициент корреляции статистически - значимю
Таким образом, связь между (y и x x 1), (y и x x 2) является существенной.
Наибольшее влияние на результативный признак оказывает фактор x 2 (r = 0.99), значит, при построении модели он войдет в регрессионное уравнение первым.
Тестирование и устранение мультиколлинеарности .
Наиболее полным алгоритмом исследования мультиколлинеарности является алгоритм Фаррара-Глобера. С его помощью тестируют три вида мультиколлинеарности:
1. Всех факторов (χ 2 - хи-квадрат).
2. Каждого фактора с остальными (критерий Фишера).
3. Каждой пары факторов (критерий Стьюдента).
Проверим переменные на мультиколлинеарность методом Фаррара-Глоубера по первому виду статистических критериев (критерий "хи-квадрат").
Формула для расчета значения статистики Фаррара-Глоубера:
χ 2 = -ln(det[R])
где m = 2 - количество факторов, n = 20 - количество наблюдений, det[R] - определитель матрицы парных коэффициентов корреляции R.
Сравниваем его с табличным значением при v = m/2(m-1) = 1 степенях свободы и уровне значимости α. Если χ 2 > χ табл 2 , то в векторе факторов есть присутствует мультиколлинеарность.
χ табл 2 (1;0.05) = 3.84146
Проверим переменные на мультиколлинеарность по второму виду статистических критериев (критерий Фишера).

Проверим переменные на мультиколлинеарность по третьему виду статистических критериев (критерий Стьюдента). Для этого найдем частные коэффициенты корреляции.
Частные коэффициенты корреляции .
Коэффициент частной корреляции отличается от простого коэффициента линейной парной корреляции тем, что он измеряет парную корреляцию соответствующих признаков (y и x i) при условии, что влияние на них остальных факторов (x j) устранено.
На основании частных коэффициентов можно сделать вывод об обоснованности включения переменных в регрессионную модель. Если значение коэффициента мало или он незначим, то это означает, что связь между данным фактором и результативной переменной либо очень слаба, либо вовсе отсутствует, поэтому фактор можно исключить из модели.


Теснота связи низкая.
Определим значимость коэффициента корреляции r yx 1 /x 2 .Как видим, связь y и x 2 при условии, что x 1 войдет в модель, снизилась. Отсюда можно сделать вывод, что ввод в регрессионное уравнение x 2 остается нецелесообразным.
Можно сделать вывод, что при построении регрессионного уравнения следует отобрать факторы x 1 , x 2 .

Пример №2 . По 30 наблюдениям матрица парных коэффициентов корреляции оказалась следующей:

y x 1 x 2 x 3
y 1,0
x 1 0,30 1,0
x 2 0,60 0,10 1,0
x 3 0,40 0,15 0,80 1,0
Оцените мультиколлинеарность факторов. Постройте уравнение регрессии в стандартном масштабе и сделайте выводы.

Отметим, что в ряде случаев мультиколлинеарность не является таким уж серьезным «злом», чтобы прилагать существенные усилия по ее выявлению и устранению. В основном, все зависит от целей исследования.
Если основная задача модели - прогноз будущих значений зависимой переменной, то при достаточно большом коэффициенте детерминации R2(gt; 0,9) наличие мультиколлинеарности обычно не сказывается на прогнозных качествах модели (если в будущем между коррелированными переменными будут сохраняться те же отношения, что и ранее).
Если необходимо определить степень влияния каждой из объясняющих переменных на зависимую переменную, то мультиколлинеарность, приводящая к увеличению стандартных ошибок, скорее всего, исказит истинные зависимости между переменными. В этой ситуации мультиколлинеарность является серьезной проблемой.
Единого метода устранения мультиколлинеарности, годного в любом случае, не существует. Это связано с тем, что причины и последствия мультиколлинеарности неоднозначны и во многом зависят от результатов выборки.
Исключение переменной(ых) из модели
Простейшим методом устранения мультиколлинеарности является исключение из модели одной или ряда коррелированных переменных. При применении данного метода необходима определенная осмотрительность. В данной ситуации возможны ошибки спецификации, поэтому в прикладных эконометрических моделях желательно не исключать объясняющие переменные до тех пор, пока мультиколлинеарность не станет серьезной проблемой.
Получение дополнительных данных или новой выборки
Поскольку мультиколлинеарность напрямую зависит от выборки, то, возможно, при другой выборке мультиколлинеарности не будет либо она не будет столь серьезной. Иногда для уменьшения мультиколлинеарности достаточно увеличить объем выборки. Например, при использовании ежегодных данных можно перейти к поквартальным данным. Увеличение количества данных сокращает дисперсии коэффициентов регрессии и тем самым увеличивает их статистическую значимость. Однако получение новой выборки или расширение старой не всегда возможно или связано с серьезными издержками. Кроме того, такой подход может усилить автокорреляцию. Эти проблемы ограничивают возможность использования данного метода.
Изменение спецификации модели
В ряде случаев проблема мультиколлинеарности может быть решена путем изменения спецификации модели: либо изменяется форма модели, либо добавляются объясняющие переменные, не учтенные в первоначальной модели, но существенно влияющие на зависимую переменную. Если данный метод имеет основания, то его использование уменьшает сумму квадратов отклонений, тем самым сокращая стандартную ошибку регрессии. Это приводит к уменьшению стандартных ошибок коэффициентов.
Использование предварительной информации о некоторых параметрах
Иногда при построении модели множественной регрессии можно воспользоваться предварительной информацией, в частности известными значениями некоторых коэффициентов регрессии.
Вполне вероятно, что значения коэффициентов, рассчитанные для каких-либо предварительных (обычно более простых) моделей либо для аналогичной модели по ранее полученной выборке, могут быть использованы для разрабатываемой в данный момент модели.
Отбор наиболее существенных объясняющих переменных. Процедура последовательного присоединения элементов
Переход к меньшему числу объясняющих переменных может уменьшить дублирование информации, доставляемой сильно взаимозависимыми признаками. Именно с этим мы сталкиваемся в случае мультиколлинеарности объясняющих переменных.

36. способы выявления мультиколлиарности. частная корреляция

Наибольшие затруднения в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторных переменных, когда более чем два фактора связаны между собой линейной зависимостью.

Мультиколлинеарностью для линейной множественной регрессии называется наличие линейной зависимости между факторными переменными, включёнными в модель.

Мультиколлинеарность – нарушение одного из основных условий, лежащих в основе построения линейной модели множественной регрессии.

Мультиколлинеарность в матричном виде – это зависимость между столбцами матрицы факторных переменных Х:

Если не учитывать единичный вектор, то размерность данной матрицы равна n*n. Если ранг матрицы Х меньше n, то в модели присутствует полная или строгая мультиколлинеарность. Но на практике полная мультиколлинеарность почти не встречается.

Можно сделать вывод, что одной из основных причин присутствия мультиколлинеарности в модели множественной регрессии является плохая матрица факторных переменных Х.

Чем сильнее мультиколлинеарность факторных переменных, тем менее надежной является оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов.

Включение в модель мультиколлинеарных факторов нежелательно по нескольким причинам:

1) основная гипотеза о незначимости коэффициентов множественной регрессии может подтвердиться, но сама модель регрессии при проверке с помощью F-критерия оказывается значимой, что говорит о завышенной величине коэффициента множественной корреляции;

2) полученные оценки коэффициентов модели множественной регрессии могут быть неоправданно завышены или иметь неправильные знаки;

3) добавление или исключение из исходных данных одного-двух наблюдений оказывает сильное влияние на оценки коэффициентов модели;

4) мультиколлинеарные факторы, включённые в модель множественной регрессии, способны сделать её непригодной для дальнейшего применения.

Конкретных методов обнаружения мультиколлинеарности не существует, а принято применять ряд эмпирических приёмов. В большинстве случаев множественный регрессионный анализ начинается с рассмотрения корреляционной матрицы факторных переменных R или матрицы (ХТХ).

Корреляционной матрицей факторных переменных называется симметричная относительно главной диагонали матрица линейных коэффициентов парной корреляции факторных переменных:

где rij – линейный коэффициент парной корреляции между i-м и j-ым факторными переменными,

На диагонали корреляционной матрицы находятся единицы, потому что коэффициент корреляции факторной переменной с самой собой равен единице.

При рассмотрении данной матрицы с целью выявления мультиколлинеарных факторов руководствуются следующими правилами:

1) если в корреляционной матрице факторных переменных присутствуют коэффициенты парной корреляции по абсолютной величине большие 0,8, то делают вывод, что в данной модели множественной регрессии существует мультиколлинеарность;

2) вычисляют собственные числа корреляционной матрицы факторных переменных λmin и λmax. Если λmin‹10-5, то в модели регрессии присутствует мультиколлинеарность. Если отношение

то также делают вывод о наличии мультиколлинеарных факторных переменных;

3) вычисляют определитель корреляционной матрицы факторных переменных. Если его величина очень мала, то в модели регрессии присутствует мультиколлинеарность.

37. пути решения проблемы мультиколлиарности

Если оцененную модель регрессии предполагается использовать для изучения экономических связей, то устранение мультиколлинеарных факторов является обязательным, потому что их наличие в модели может привести к неправильным знакам коэффициентов регрессии.

При построении прогноза на основе модели регрессии с мультиколлинеарными факторами необходимо оценивать ситуацию по величине ошибки прогноза. Если её величина является удовлетворительной, то модель можно использовать, несмотря на мультиколлинеарность. Если же величина ошибки прогноза большая, то устранение мультиколлинеарных факторов из модели регрессии является одним из методов повышения точности прогноза.

К основным способам устранения мультиколлинеарности в модели множественной регрессии относятся:

1) один из наиболее простых способов устранения мультиколлинеарности состоит в получении дополнительных данных. Однако на практике в некоторых случаях реализация данного метода может быть весьма затруднительна;

2) способ преобразования переменных, например, вместо значений всех переменных, участвующих в модели (и результативной в том числе) можно взять их логарифмы:

lny=β0+β1lnx1+β2lnx2+ε.

Однако данный способ также не способен гарантировать полного устранения мультиколлинеарности факторов;

Если рассмотренные способы не помогли устранить мультиколлинеарность факторов, то переходят к использованию смещённых методов оценки неизвестных параметров модели регрессии, или методов исключения переменных из модели множественной регрессии.

Если ни одну из факторных переменных, включённых в модель множественной регрессии, исключить нельзя, то применяют один из основных смещённых методов оценки коэффициентов модели регрессии – гребневую регрессию или ридж (ridge).

При использовании метода гребневой регрессии ко всем диагональным элементам матрицы (ХТХ) добавляется небольшое число τ: 10-6 ‹ τ ‹ 0.1. Оценивание неизвестных параметров модели множественной регрессии осуществляется по формуле:

где ln – единичная матрица.

Результатом применения гребневой регрессии является уменьшение стандартных ошибок коэффициентов модели множественной регрессии по причине их стабилизации к определённому числу.

Метод главных компонент является одним из основных методов исключения переменных из модели множественной регрессии.

Данный метод используется для исключения или уменьшения мультиколлинеарности факторных переменных модели регрессии. Суть метода заключается в сокращении числа факторных переменных до наиболее существенно влияющих факторов. Это достигается с помощью линейного преобразования всех факторных переменных xi (i=0,…,n) в новые переменные, называемые главными компонентами, т. е. осуществляется переход от матрицы факторных переменных Х к матрице главных компонент F. При этом выдвигается требование, чтобы выделению первой главной компоненты соответствовал максимум общей дисперсии всех факторных переменных xi (i=0,…,n), второй компоненте – максимум оставшейся дисперсии, после того как влияние первой главной компоненты исключается и т. д.

Метод пошагового включения переменных состоит в выборе из всего возможного набора факторных переменных именно те, которые оказывают существенное влияние на результативную переменную.

Метод пошагового включения осуществляется по следующему алгоритму:

1) из всех факторных переменных в модель регрессии включаются те переменные, которым соответствует наибольший модуль линейного коэффициента парной корреляции с результативной переменной;

2) при добавлении в модель регрессии новых факторных переменных проверяется их значимость с помощью F-критерия Фишера. При том выдвигается основная гипотеза о необоснованности включения факторной переменной xk в модель множественной регрессии. Обратная гипотеза состоит в утверждении о целесообразности включения факторной переменной xk в модель множественной регрессии. Критическое значение F-критерия определяется как Fкрит(a;k1;k2), где а – уровень значимости, k1=1 и k2=n–l – число степеней свободы, n – объём выборочной совокупности, l – число оцениваемых по выборке параметров. Наблюдаемое значение F-критерия рассчитывается по формуле:

где q – число уже включённых в модель регрессии факторных переменных.

При проверке основной гипотезы возможны следующие ситуации.

Fнабл›Fкрит, то основная гипотеза о необоснованности включения факторной переменной xk в модель множественной регрессии отвергается. Следовательно, включение данной переменной в модель множественной регрессии является обоснованным.

Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл≤Fкрит, то основная гипотеза о необоснованности включения факторной переменной xk в модель множественной регрессии принимается. Следовательно, данную факторную переменную можно не включать в модель без ущерба для её качества

3) проверка факторных переменных на значимость осуществляется до тех пор, пока не найдётся хотя бы одна переменная, для которой не выполняется условие Fнабл›Fкрит.

38. фиктивные переменные. Тест чоу

Термин “фиктивные переменные” используется как противоположность “значащим” переменным, показывающим уровень количественного показателя, принимающего значения из непрерывного интервала. Как правило, фиктивная переменная - это индикаторная переменная, отражающая качественную характеристику. Чаще всего применяются бинарные фиктивные переменные, принимающие два значения, 0 и 1, в зависимости от определенного условия. Например, в результате опроса группы людей 0 может означать, что опрашиваемый - мужчина, а 1 - женщина. К фиктивным переменным иногда относят регрессор, состоящий из одних единиц (т.е. константу, свободный член), а также временной тренд.

Фиктивные переменные, будучи экзогенными, не создают каких-либо трудностей при применении ОМНК. Фиктивные переменные являются эффективным инструментом построения регрессионных моделей и проверки гипотез.

Предположим, что на основе собранных данных была построена модель регрессии. Перед исследователем стоит задача о том, стоит ли вводить в полученную модель дополнительные фиктивные переменные или базисная модель является оптимальной. Данная задача решается с помощью метода или теста Чоу. Он применяется в тех ситуациях, когда основную выборочную совокупность можно разделить на части или подвыборки. В этом случае можно проверить предположение о большей эффективности подвыборок по сравнению с общей моделью регрессии.

Будем считать, что общая модель регрессии представляет собой модель регрессии модель без ограничений. Обозначим данную модель через UN . Отдельными подвыборками будем считать частные случаи модели регрессии без ограничений. Обозначим эти частные подвыборки как PR .

Введём следующие обозначения:

PR1 – первая подвыборка;

PR2 – вторая подвыборка;

ESS(PR1) – сумма квадратов остатков для первой подвыборки;

ESS(PR2) – сумма квадратов остатков для второй подвыборки;

ESS(UN) – сумма квадратов остатков для общей модели регрессии.

– сумма квадратов остатков для наблюдений первой подвыборки в общей модели регрессии;

– сумма квадратов остатков для наблюдений второй подвыборки в общей модели регрессии.

Для частных моделей регрессии справедливы следующие неравенства:

Условие (ESS(PR1)+ESS(PR2))= ESS(UN) выполняется только в том случае, если коэффициенты частных моделей регрессии и коэффициенты общей модели регрессии без ограничений будут одинаковы, но на практике такое совпадение встречается очень редко.

Основная гипотеза формулируется как утверждение о том, что качество общей модели регрессии без ограничений лучше качества частных моделей регрессии или подвыборок.

Альтернативная или обратная гипотеза утверждает, что качество общей модели регрессии без ограничений хуже качества частных моделей регрессии или подвыборок

Данные гипотезы проверяются с помощью F-критерия Фишера-Снедекора.

Наблюдаемое значение F-критерия сравнивают с критическим значением F-критерия, которое определяется по таблице распределения Фишера-Снедекора.

а k1=m+1 и k2=n-2m-2 .

Наблюдаемое значение F-критерия рассчитывается по формуле:где ESS(UN)– ESS(PR1)– ESS(PR2) – величина, характеризующая улучшение качества модели регрессии после разделения её на подвыборки;

m – количество факторных переменных (в том числе фиктивных);

n – объём общей выборочной совокупности.

Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) больше критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл>Fкрит , то основная гипотеза отклоняется, и качество частных моделей регрессии превосходит качество общей модели регрессии.

Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т.е. Fнабл?Fкрит , то основная гипотеза принимается, и разбивать общую регрессию на подвыборки не имеет смысла.

Если осуществляется проверка значимости базисной регрессии или регрессии с ограничениями (restricted regression), то выдвигается основная гипотеза вида:

Справедливость данной гипотезы проверяется с помощью F-критерия Фишера-Снедекора.

Критическое значение F-критерия Фишера определяется по таблице распределения Фишера-Снедекора в зависимости от уровня значимости а и двух степеней свободы свободы k1=m+1 и k2=n–k–1 .

Наблюдаемое значение F-критерия преобразуется к виду:

При проверке выдвинутых гипотез возможны следующие ситуации.

Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) больше критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл›Fкрит, то основная гипотеза отклоняется, и в модель регрессии необходимо вводить дополнительные фиктивные переменные, потому что качество модели регрессии с ограничениями выше качества базисной или ограниченной модели регрессии.

Если наблюдаемое значение F-критерия (вычисленное по выборочным данным) меньше или равно критического значения F-критерия (определённого по таблице распределения Фишера-Снедекора), т. е. Fнабл?Fкрит , то основная гипотеза принимается, и базисная модель регрессии является удовлетворительной, вводить в модель дополнительные фиктивные переменные не имеет смысла.

39. система одновременных уравнений (эндогенные, экзогенные, лаговые переменные). Экономически значимые примеры систем одновременных уравнений

До сих пор мы рассматривали эконометрические модели, задаваемые уравнениями, выражающими зависимую (объясняемую) переменную через объясняющие переменные. Однако реальные экономические объекты, исследуемые с помощью эко-нометрических методов, приводят к расширению понятия эко-нометрической модели, описываемой системой регрессионных уравнений и тождеств1.

1 В отличие от регрессионных уравнений тождества не содержат подлежащих оценке параметров модели и не включают случайной составляющей.

Особенностью этих систем является то, что каждое из уравнений системы, кроме «своих» объясняющих переменных, может включать объясняемые переменные из других уравнений. Таким образом, мы имеем не одну зависимую переменную, а набор зависимых (объясняемых) переменных, связанных уравнениями системы. Такую систему называют также системой одновременных уравнений, подчеркивая тот факт, что в системе одни и те же переменные одновременно рассматриваются как зависимые в одних уравнениях и независимые в других.

Системы одновременных уравнений наиболее полно описывают экономический объект, содержащий множество взаимосвязанных эндогенных (формирующихся внутри функционирования объекта) и экзогенных (задаваемых извне) переменных. При этом в качестве эндогенных и экзогенных могут выступать лаговые (взятые в предыдущий момент времени) переменные.

Классическим примером такой системы является модель спроса Qd и предложения Qs (см. § 9.1), когда спрос на товар определятся его ценой Р и доходом потребителя /, предложение товара - его ценой Р и достигается равновесие между спросом и предложением:

В этой системе экзогенной переменной выступает доход потребителя /, а эндогенными - спрос (предложение) товара Qd = Q» = Q и цена товара (цена равновесия) Р.

В другой модели спроса и предложения в качестве объясняющей предложение Qf переменной может быть не только цена товара Р в данный момент времени /, т.е. Рь но и цена товара в предыдущий момент времени Ptь т.е. лаговая эндогенная переменная:

й"=Р4+Р5^+Рб^-1+Є2.

Обобщая изложенное, можно сказать, что эконометринеская модель позволяет объяснить поведение эндогенных переменных в зависимости от значений экзогенных и лаговых эндогенных переменных (иначе - в зависимости от предопределенных, т.е. заранее определенных, переменных).

Завершая рассмотрение понятия эконометрической модели, следует отметить следующее. Не всякая экономико-математическая модель, представляющая математико-статистическое описание исследуемого экономического объекта, может считаться эконометрической. Она становится эконометрической только в том случае, если будет отражать этот объект на основе характеризующих именно его эмпирических (статистических) данных.

40. косвенный метод наименьших квадратов

Если i -е стохастическое уравнение структурной формы идентифицируемо точно, то параметры этого уравнения (коэффициенты уравнения и дисперсия случайной ошибки) восстанавливаются по параметрам приведенной системы однозначно. Поэтому для оценивания параметров такого уравнения достаточно оценить методом наименьших квадратов коэффициенты каждого из уравнений приведенной формы методом наименьших квадратов (отдельно для каждого уравнения) и получить оценку ковариационной матрицы Q ошибок в приведенной форме, после чего воспользоваться соотношениями ПГ = В и Е = ГТQT , подставляя в них вместо П оцененную матрицу коэффициентов приведенной формы П и оцененную ковариационную матрицу ошибок в приведенной форме £2. Такая процедура называется косвенным методом наименьших квадратов (ILS indirect least squares). Полученные в результате оценки коэффициентов i -го стохастического уравнения структурной формы наследуют свойство состоятельности оценок приведенной формы. Однако они не наследуют таких свойств оценок приведенной формы как несмещенность и эффективность из-за того, что получаются в результате некоторых нелинейных преобразований. Соответственно, при небольшом количестве наблюдений даже у этих естественных оценок может возникать заметное смещение. В связи с этим при рассмотрении различных методов оценивания коэффициентов структурных уравнений в первую очередь заботятся об обеспечении именно состоятельности получаемых оценок.

41. проблемы идентифицируемости систем одновременных уравнений

При правильной спецификации модели задача идентификация системы уравнений сводится к корректной и однозначной оценке ее коэффициентов. Непосредственная оценка коэффициентов уравнения возможна лишь в системах внешне не связанных уравнений, для которых выполняются основные предпосылки построения регрессионной модели, в частности, условие некоррелированности факторных переменных с остатками.

В рекурсивных системах всегда возможно избавление от проблемы коррелированности остатков с факторными переменными путем подстановки в качестве значений факторных переменных не фактических, а модельных значений эндогенных переменных, выступающих в качестве факторных переменных. Процесс идентификации осуществляется следующим образом:

1. Идентифицируется уравнение, в котором в качестве факторных не содержатся эндогенные переменные. Находится расчетное значение эндогенной переменной этого уравнения.

2. Рассматривается следующее уравнение, в котором в качестве факторной включена эндогенная переменная, найденная на предыдущем шаге. Модельные (расчетные) значения этой эндогенной переменной обеспечивают возможность идентификации этого уравнения и т. д.

В системе уравнений в приведенной форме проблема коррелированности факторных переменных с отклонениями не возникает, так как в каждом уравнении в качестве факторных переменных используются лишь предопределенные переменные. Таким образом, при выполнении других предпосылок рекурсивная система всегда идентифицируема.

При рассмотрении системы одновременных уравнений возникает проблема идентификации.

Идентификация в данном случае означает определение возможности однозначного пересчета коэффициентов системы в приведенной форме в структурные коэффициенты .

Структурная модель (7.3) в полном виде содержит параметров, которые необходимо определить. Приведенная форма модели в полном виде содержит параметров. Следовательно, для определения неизвестных параметров структурной модели можно составить уравнений. Такие системы являются неопределенными и параметры структурной модели в общем случае не могут быть однозначно определены.

Чтобы получить единственно возможное решение необходимо предположить, что некоторые из структурных коэффициентов модели ввиду слабой их взаимосвязи с эндогенной переменной из левой части системы равны нулю. Тем самым уменьшится число структурных коэффициентов модели. Уменьшение числа структурных коэффициентов модели возможно и другими путями: например, путем приравнивания некоторых коэффициентов друг к другу, т. е. путем предположений, что их воздействие на формируемую эндогенную переменную одинаково и пр.

С позиции идентифицируемости структурные модели можно подразделить на три вида:

· идентифицируемые;

· неидентифицируемые;

· сверхидентифицируемые.

Модель идентифицируема , если все структурные ее коэффициенты определяются однозначно, единственным образом по коэффициентам приведенной формы модели, т. е. если число параметров структурной модели равно числу параметров приведенной формы модели.

Модель неидентифицируема , если число коэффициентов приведенной модели меньше числа структурных коэффициентов, и в результате структурные коэффициенты не могут быть оценены через коэффициенты приведенной формы модели.

Модель сверхидентифицируема , если число коэффициентов приведенной модели больше числа структурных коэффициентов. В этом случае на основе коэффициентов приведенной формы можно получить два или более значений одного структурного коэффициента. Сверхидентифицируемая модель в отличие от неидентифицируемой модели практически решаема, но требует для этого специальных методов нахождения параметров.

Чтобы определить тип структурной модели необходимо каждое ее уравнение проверить на идентифицируемость.

Модель считается идентифицируемой, если каждое уравнение системы идентифицируемо. Если хотя бы одно из уравнений системы неидентифицируемо, то и вся модель считается неидентифицируемой. Сверхидентифицируемая модель кроме идентифицируемых содержит хотя бы одно сверхидентифицируемое уравнение .

42. трехшаговый метод наименьших квадратов

Наиболее эффективная процедура оценивания систем регрессионных уравнений сочетает метод одновременного оценивания и метод инструментальных переменных. Соответствующий метод называется трехшаговым методом наименьших квадратов. Он заключается в том, что на первом шаге к исходной модели (9.2) применяется обобщенный метод наименьших квадратов с целью устранения корреляции случайных членов. Затем к полученным уравнениям применяется двухшаговый метод наименьших квадратов.

Очевидно, что если случайные члены (9.2) не коррелируют, трехшаговый метод сводится к двухшаговому, в то же время, если матрица В - единичная, трехшаговый метод представляет собой процедуру одновременного оценивания уравнений как внешне не связанных.

Применим трехшаговый метод к рассматриваемой модели (9.24):

ai=19,31; Pi=l,77; а2=19,98; р2=0,05; у=1,4. (6,98) (0,03) (4,82) (0,08) (0,016)

Так как коэффициент р2 незначим, то уравнение зависимости У от X имеет вид:

у =16,98 + 1,4х

Заметим, что оно практически совпадает с уравнением (9.23).

Как известно, очищение уравнения от корреляции случайных членов - процесс итеративный. В соответствии с этим при использовании трехшагового метода компьютерная программа запрашивает число итераций или требуемую точность. Отметим важное свойство трехшагового метода, обеспечивающего его наибольшую эффективность.

При достаточно большом числе итераций оценки трехшагового метода наименьших квадратов совпадают с оценками максимального правдоподобия.

Как известно, оценки максимального правдоподобия на больших выборках являются наилучшими.

43. понятие экономических рядов динамики. Общий вид мультипликативной и аддитивной модели временного ряда.

44. моделирование тенденции временного ряда, сезонных и циклических колебаний.

Существует несколько подходов к анализу структуры временных рядов, содержащих сезонные или циклические колебания.

1 ПОДХОД . Расчет значений сезонной компоненты методом скользящей средней и построение аддитивной или мультипликативной модели временного ряда.

Общий вид аддитивной модели: (Т - трендовая компонента, S - сезонная, Е - случайная).

Общий вид мультипликативной модели:

Выбор модели на основе анализа структуры сезонных колебаний (если амплитуда колебаний приблизительно постоянна – аддитивная, если возрастает/уменьшается – мультипликативная).

Построение моделей сводится к расчету значений T,S,E для каждого уровня ряда.

Построение модели:

1.выравнивание исходного ряда методом скользящей средней;

2.расчет значений компоненты S ;

3.Устранение сезонной компоненты из исходных уровней ряда и получение выровненных данных (T+E ) в аддитивной или (T*E ) в мультипликативной модели.

4.Аналитическое выравнивание уровней (T+E ) или (T*E ) и расчет значения Т с использованием полученного уровня тренда.

5.Расчет полученных по модели значений (T+S ) или (T*S ).

6.Расчет абсолютных и/или относительных ошибок.

Если полученные значения ошибок не содержат автокорреляции, ими можно заменить исходные уровни ряда и в дальнейшем использовать временной ряд ошибок Е для анализа взаимосвязи исходного ряда и др. временных рядов.

2 ПОДХОД. Построение модели регрессии с включением фактора времени и фиктивных переменных. Количество фиктивных переменных в такой модели должно быть на единицу меньше числа моментов (периодов) времени внутри одного цикла колебаний. Например, при моделировании поквартальных данных модель должна включать четыре независимые переменные – фактор времени и три фиктивные переменные. Каждая фиктивная переменная отражает сезонную (циклическую) компоненту временного ряда для какого-либо одного периода. Она равна единице (1) для данного периода и нулю (0) для всех остальных. Недостаток модели с фиктивными переменными – наличие большого количества переменных.

45. автокорреляционная функция. Ее использование для выявления наличия или отсутствия трендовой и циклической компоненты

Автокорреляция уровней временного ряда .

При наличии во временном ряде тенденции и циклических колебаний каждого последующего уровня ряда зависят от предыдущих. Корреляционную зависимость между последовательными уровнями временного ряда называют автокорреляцией уровней ряда .

Количественно автокорреляцию уровней ряда измеряют с помощью линейного коэффициента корреляции между уровнями исходного временного ряда и уровнями этого ряда, сдвинутые на несколько шагов во времени.

Пусть, например, дан временной ряд . Определим коэффициент корреляции между рядами и .

Одна из рабочих формул расчета коэффициента корреляции имеет вид:

И временного ряда, т.е. при лаге 2. Он определяется по формуле:

(4)

Заметим, что с увеличением лага число пар значений, по которым рассчитывается коэффициент корреляции, уменьшается. Обычно лаг не допускается равным числу, превышающему четверть числа наблюдений.

Отметим два важных свойства коэффициентов автокорреляции.

Во-первых, коэффициенты автокорреляции считаются по аналогии с линейным коэффициентом корреляции, т.е. они характеризуют только тесноту линейной связи двух рассматриваемых уровней временного ряда. Поэтому по коэффициенту автокорреляции можно судить только о наличии линейной (или близкой к линейной) тенденции. Для временных рядов, имеющих сильную нелинейную тенденцию (например, экспоненту), коэффициент автокорреляции уровней может приближаться к нулю.

Предположим, что мы рассматриваем регрессионное уравнение и данные для его оценки содержат наблюдения для разных по качеству объектов: для мужчин и женщин, для белых и черных. вопрос, который нас может здесь заинтересовать, следующий – верно ли, что рассматриваемая модель совпадает для двух выборок, относящихся к объектам разного качества? Ответить на этот вопрос можно при помощи теста Чоу.

Рассмотрим модели:

, i =1,…,N (1);

, i =N +1,…,N +M (2).

В первой выборке N наблюдений, во второй – М наблюдений. Пример: Y заработная плата, объясняющие переменные – возраст, стаж, уровень образования. Следует ли из имеющихся данных, что модель зависимости заработной платы от объясняющих переменных, стоящих в правой части одинакова для мужчин и женщин?

Для проверки этой гипотезы можно воспользоваться общей схемой проверки гипотез при помощи сравнения регрессии с ограничениями и регрессии без ограничений. Регрессией без ограничений здесь является объединение регрессий (1) и (2), т. е. ESS UR = ESS 1 + ESS 2 , число степеней свободы – N + M - 2k . Регрессией с ограничениями (т. е. регрессией в предположении, что выполнена нулевая гипотеза) будет являться регрессия для всего имеющегося набора наблюдений:

, i = 1,…, N +M (3).

Оценивая (3), получаем ESS R . Для проверки нулевой гипотезы используем следующую статистику:

Которая в случае справедливости нулевой гипотезы имеет распределение Фишера с числом степеней свободы числителя k и знаменателя N + M - 2k .

Если нулевая гипотеза справедлива, мы можем объединить имеющиеся выборки в одну и оценивать модель для N + M наблюдений. Если же нулевую гипотезу отвергаем, то мы не можем слить две выборки в одну, и нам придется оценивать эти две модели по отдельности.


Изучение общей линейной модели, рассмотренной нами ранее, весьма существенно, как мы видели, опирается на статистический аппарат. Однако, как и во всех приложениях мат. статистики, сила метода зависит от предположений, лежащих в его основе и необходимых для его применения. Некоторое время мы будем рассматривать ситуации, когда одна или более гипотез, лежащих в основе линейной модели, нарушается. Мы рассмотрим альтернативные методы оценивания в этих случаях. Мы увидим, что роль одних гипотез более существенна по сравнению с ролью других. Нам надо посмотреть, к каким последствиям может привести нарушения тех или иных условий (предположений), уметь проверить, удовлетворяются они или нет и знать, какие статистические методы можно и целесообразно применять, когда не подходит классический метод наименьших квадратов.

1. Связь между переменными линейная и выражается уравнением - ошибки спецификации модели (невключение в уравнение существенных объясняющих переменных, включение в уравнение лишних переменных, неправильный выбор формы зависимости между переменными);


2. X 1 ,…,X k – детерминированные переменные – стохастические регрессоры, линейно независимые – полная мультиколлинеарность;

4. - гетероскедастичность;

5. при i ¹ k – автокорреляция ошибок

Прежде чем приступать к разговору, рассмотрим следующие понятия: парный коэффициент корреляции и частный коэффициент корреляции.

Предположим, что мы исследуем влияние одной переменной на другую переменную (Y и X ). Для того чтобы понять, насколько эти переменные связаны между собой, мы вычисляем парный коэффициент корреляции по следующей формуле:

Если мы получили значение коэффициента корреляции близкое к 1, мы делаем вывод о том, что переменные достаточно сильно связаны между собой.

Однако, если коэффициент корреляции между двумя исследуемыми переменными близок к 1, на самом деле они могут и не быть зависимыми. Пример с душевнобольными и радиоприемниками – пример так называемой «ложной корреляции». Высокое значение коэффициента корреляции может быть обусловлено и существованием третьей переменной, которая оказывает сильное влияние на первые две переменные, что и служит причиной их высокой коррелируемости. Поэтому возникает задача расчета «чистой» корреляции между переменными X и Y , т. е. корреляции, в которой исключено влияние (линейное) других переменных. Для этого и вводят понятие коэффициента частной корреляции.

Итак, мы хотим определить коэффициент частной корреляции между переменными X и Y , исключив линейное влияние переменной Z . Для его определения используется следующая процедура:

1. Оцениваем регрессию ,

2. Получаем остатки ,

3. Оцениваем регрессию ,

4. Получаем остатки ,

5. - выборочный коэффициент частной корреляции, измеряет степень связи между переменными X и Y , очищенную от влияния переменной Z .

Прямые вычисления:

Свойство:

Процедура построения коэффициента частной корреляции обобщается на случай, если мы хотим избавиться от влияния двух и более переменных.


1. Совершенная мультиколлинеарность.

Одно из требований Гаусса-Маркова говорит нам о том, чтобы объясняющие переменные не были связаны никаким точным соотношением. Если такое соотношение между переменными существует, мы говорим о том, что в модели присутствует совершенная мультиколлинеарность. Пример. Рассмотрим модель со средней оценкой на экзамене, состоящую из трех объясняющих переменных: I - доход родителей, D - среднее число часов, затраченных на обучение в день, W - среднее число часов, затраченных на обучение в неделю. Очевидно, что W =7D . И это соотношение будет выполняться для каждого студента, который попадет в нашу выборку. Случай полной мультиколлинеарности отследить легко, поскольку в этом случае невозможно построить оценки по методу наименьших квадратов.

2. Частичная мультиколлинеарность или просто мультиколлинеарность.

Гораздо чаще встречается ситуация, когда между объясняющими переменными точной линейной зависимости не существует, но между ними существует тесная корреляционная зависимость – этот случай носит название реальной или частичной мультиколлинеарности (просто мультиколлинеарность) – существование тесных статистических связей между переменными. Надо сказать, что вопрос мультиколлинеарности – это вопрос скорее степени выраженности явления, а не его вида. Оценка любой регрессии будет страдать от нее в том или ином виде, если только все независимые переменные не окажутся абсолютно некоррелированными. Рассмотрение данной проблемы начинается только тогда, когда это начинает серьезно влиять на результаты оценки регрессии (наличие статистических связей между регрессорами вовсе не обязательно дает неудовлетворительные оценки). Итак, мультиколлинеарность – это проблема, когда тесная корреляционная зависимость между регрессорами ведет к получению ненадежных оценок регрессии.

Последствия мультиколлинеарности:

Формально, поскольку (X "X ) – невырожденная, то мы можем построить МНК-оценки коэффициентов регрессии. Однако вспомним, как выражаются теоретические дисперсии оценок коэффициентов регрессии: , где a ii - i -й диагональный элемент матрицы . Поскольку матрица (X"X) близка к вырожденной и det(X "X ) » 0, то

1) на главной диагонали обратной матрицы стоят очень большие числа, поскольку элементы обратной матрицы обратно пропорциональны det(X "X ). Следовательно, теоретическая дисперсия i -го коэффициента достаточно большая и оценка дисперсии так же большая, следовательно, t - статистики небольшие, что может привести к статистической незначимости i -го коэффициента. Т. е. переменная оказывает значимое влияние на объясняемую переменную, а мы делаем вывод о ее незначимости.

2) Поскольку оценки и зависят от (X "X ) -1 , элементы которой обратно пропорциональны det(X "X ), то если мы добавим или уберем одно-два наблюдения, добавив или убрав, таким образом, одну-две строки к матрице X "X , то значения и могут измениться существенным образом, вплоть до смены знака – неустойчивость результатов оценивания.

3) Трудность интерпретации уравнения регрессии. Допустим, у нас в уравнении есть две переменные, которые связаны между собой между собой: X 1 и X 2 . Коэффициент регрессии при X 1 интерпретируется как мера изменения Y за счет изменения X 1 при прочих равных условиях, т.е. значения всех других переменных остаются прежними. Однако, поскольку переменные Х 1 и Х 2 связаны, то изменения в переменной Х 1 повлекут за собой предсказуемые изменения в переменной Х 2 и значение Х 2 не останется прежним.

Пример: , где Х 1 – общая площадь, Х 2 – жилая площадь. Мы говорим: "Если жилая площадь увеличиться на 1 кв. м., то при прочих равных условиях цена квартиры увеличиться на долл". Однако в этом случае и жилая площадь увеличится на 1 кв. м. и прирост цены будет . Разграничить влияние на переменную Y каждой переменной в отдельности уже не представляется возможным. Выход в данной ситуации с ценой на квартиру -–включить в модель не общую площадь, а так называемую "добавочную" или "дополнительную" площадь.

Признаки мультиколлинеарности.

Точных критериев для определения наличия (отсутствия) мультиколлинеарности не существует. Однако есть эвристические рекомендации по ее выявлению:

1) Анализируют матрицу парных коэффициентов корреляции между регрессорами и если значение коэффициента корреляции близко к 1, то это считается признаком мультиколлинеарности.

2) Анализ матрицы корреляции – лишь поверхностное суждение о наличии (отсутствии) мультиколлинеарности. Более внимательное изучение этого вопроса достигается при помощи расчета коэффициентов частной корреляции или расчетов коэффициентов детерминации каждой из объясняющих переменных по всем другим объясняющим переменным в регрессии .

4) (Х X ) – симметричная положительно определенная матрица, следовательно, все ее собственные числа неотрицательны. Если определитель матрицы (Х X ) равен нулю, то минимальное собственное число так же ноль и непрерывность сохраняется. Следовательно, по значению манимального собственного числа можно судить и о близости к нулю определителя матрицы (Х X ). Кроме этого свойства минимальное собственное число важно еще и потому, что стандартная ошибка коэффициента обратно пропорциональна .

5) О наличии мультиколлинеарности можно судить по внешним признакам, являющимся следствиями мультиколлинеарности:

a) некоторые из оценок имеют неправильные с точки зрения экономической теории знаки или неоправданно большие значения;

b) небольшое изменение исходных экономических данных приводит к существенному изменению оценок коэффициентов модели;

c) большинство t -статистик коэффициентов незначимо отличаются от нуля, в то же время модель в целом является значимой, о чем говорит высокое значение F -статистики.

Как избавится от мультиколлинеарности, как ее устранить:

1) Использование факторного анализа. Переход от исходного набора регрессоров, среди которых есть статистически зависимые, к новым регрессорам Z 1 ,…,Z m при помощи метода главных компонент – вместо исходных переменных вместо исходных переменных рассматриваем некоторые их линейные комбинации, корреляция между которыми мала или отсутствует вообще. Задача здесь – дать содержательную интерпретацию новым переменным Z . Если не удалось – возвращаемся к исходным переменным, используя обратные преобразования. Полученные оценки будут, правда, смещенными, но будут иметь меньшую дисперсию.

2) Среди всех имеющихся переменных отобрать наиболее существенно влияющих на объясняемую переменную факторов. Процедуры отбора будут рассмотрены ниже.

3) Переход к смещенным методам оценивания.

Когда мы сталкиваемся с проблемой мультиколлинеарности, то у неискушенного исследователя поначалу возникает желание просто исключить лишние регрессоры, которые, возможно, служат ее причиной. Однако не всегда ясно, какие именно переменные являются лишними в указанном смысле. Кроме того, как будет показано ниже, отбрасывание так называемых существенно влияющих переменных приводит к смещенности МНК-оценок.

Коэффициенты интеркорреляции (т. е. сила связи между объясняющими переменными) позволяют исключить из модели регрессии дублирующие факторы. Две переменных явно коллинеарны, когда они находятся между собой в линейной зависимости, если коэффициент корреляции > 0,7.

Поскольку одним из условий нахождения уравнения множественной регрессии является независимость действия факторов, коллинеарность факторов нарушает это условие. Если факторы модели коллинеарны , то они дублируют друг друга и один из них рекомендуется исключить из регрессии.

Предпочтение в эконометрике отдается не фактору, более сильно связанному с результатом, а фактору, который при сильной связи с результатом имеет наименьшую тесноту связи с другими факторами. Т.е. коэффициент корреляции между факторами меньше 0,3 или, в идеале, близок к нулю. В этом условии проявляется специфика множественной регрессии как метода исследования комплексного влияния факторов на результат в условиях их независимости друг от друга.

Матрица парных коэффициентов корреляции

Пусть, например, при изучении зависимости у = f(x, z, v) оказалась следующей:

Факторы х и z дублируют друг друга, т.к. связь между ними сильная (больше 0,7). В анализ нужно включить фактор z, а не х, так как корреляция z с результатом у слабее, чем корреляция фактора х с у, но значительно слабее межфакторная связь Rzv < Rxv. Поэтому в этой задаче в включаем факторы z, v

Мультиколлинеарности факторов

По величине парных коэффициентов корреляции обнаруживают только явную коллинеарность факторов. Наибольшие затруднения в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов , когда более чем два фактора связаны между собой линейной (сильной) зависимостью, т. е. имеет место интегральное (совместное) воздействие факторов друг на друга.

Наличие мультиколлинеарности факторов означает, что некоторые факторы будут всегда действовать в синхронно. В результате в исходных данных перестает быть полностью независимой, и невозможно оценить воздействие каждого фактора в отдельности. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы вариации по отдельным факторам с помощью метода наименьших квадратов (МНК).

Включение в модель мультиколлинеарных факторов отрицательно в силу следующих последствий:

  • осложняется интерпретация параметров множественной регрессии как величин действия факторов, т.к. факторы коррелированны — параметры регрессии теряют экономический смысл и решение контрольной по эконометрике надо прекращать и рассматривать другие факторы
  • оценки параметров ненадежны, получаются большие стандартные ошибки и меняются с изменением объема наблюдений, что делает модель регрессии непригодной для прогнозирования.

Оценка мультиколлинеарности факторов

Для оценки мультиколлинеарности факторов можно использовать определитель матрицы парных коэффициентов корреляции. Если бы факторы совсем не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной, поскольку все элементы вне диагонали были бы равны нулю. Так, для включающего три фактора уравнения

матрица между факторами имела бы результат, равный единице.

Если между факторами определилась абсолютно линейная зависимость и все коэффициенты корреляции равняются единице, то определитель (детерминант) такой матрицы равен нулю. Чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии . Чем ближе к единице детерминант (определитель) матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

Внешним признаком наличия мультиколлинеарности служат слишком большие значения элементов матрицы (Х Т Х)~ 1 . Подробнее определение матрицы (Х Т Х) Х и ее использование см. в гл. 4, параграф 4.2.

Основной признак мультиколлинеарности: определитель корреляционной матрицы R x x . близок к нулю. Если все объясняющие переменные некорре- лированы между собой, то R XjX . | = 1, в противном случае 0 R x . x . |

Существует несколько признаков, по которым может быть установлено наличие мультиколлинеарности.

  • 1. Коэффициент детерминации К 2 достаточно высок, высокая f-ста- тистика, но некоторые (иногда все) из коэффициентов уравнения множественной линейной регрессии статистически незначимы (имеют низкие 7-статистики).
  • 2. Высокие парные коэффициенты корреляции и высокие частные коэффициенты корреляции.

Определение 7.1. Частным коэффициентом корреляции называется коэффициент корреляции между двумя объясняющими переменными, «очищенный» от влияния других переменных.

Например, при трех объясняющих переменных Х 1у Х 2 , Х 3 частный коэффициент корреляции между Х { и Х 3 , «очищенный» отХ 2 , рассчитывается по формуле

Замечание 7.2. Частный коэффициент корреляции может существенно отличаться от «обычного» (парного) коэффициента корреляции. Для более обоснованного вывода о корреляции между парами объясняющих переменных необходимо рассчитывать все частные коэффициенты корреляции.

Общее выражение для определения коэффициента частной корреляции

где Cjj - элементы матрицы С = R~ x - матрицы, обратной к матрице межфакторной парной корреляции R VjX . (7.1).

  • 3. Сильная регрессия между объясняющими переменными. Какая-либо из объясняющих переменных является комбинацией других объясняющих переменных (линейной или близкой к линейной).
  • 4. Знаки коэффициентов регрессии противоположны ожидаемым из экономических предпосылок.
  • 5. Добавление или удаление наблюдений из выборки сильно изменяет значения оценок.

Рассмотрим несколько примеров, иллюстрирующих вышесказанное.

Пример 7.4

На объем выпуска продукции у оказывают влияние следующие основные факторы: х х - количество сотрудников, работающих па предприятии; х 2 - стоимость основных фондов; х 3 - средняя заработная плата сотрудников. Уравнение линейной множественной регрессии имеет вид у = b 0 + b { x x + b 2 x 2 + b 3 x 3 .

Матрица коэффициентов парной корреляции для данной модели

Определитель матрицы |Д | = 0,302. В этой модели факторы и х 2 , а также х { и х 3 связаны слабо, напротив, факторы х 2 и х 3 связаны сильно: г^ з =0,8. Возможно, сильная связь между факторами х 2 и х л объясняется тем, что на дорогом оборудовании работают высококвалифицированные рабочие, имеющие более высокую заработную плату.

Парные коэффициенты корреляции результирующей переменной с факторами оказались равными: т уГ| =0,7; г ух.^ =0,8; г ухз =0,75. Полная матрица парных коэффициентов корреляции имеет вид

Все факторы оказывают заметное влияние на результат. Так как в модель регрессии должны быть включены факторы, тесно связанные с результатом и слабо связанные друг с другом, то в данном примере подходят одновременно две модели регрессии: у, = f(x v х 2)и у 2 = f(x v x 3).

Пример 7.5

Выясним наличие мультиколлинеарности для выборочных данных, приведенных в табл. 7.2.

Исходные данные для примера 7.2

Таблица 7.2

X,

Решение. Парные коэффициенты корреляции, рассчитанные по формуле (7.2), приведены в табл. 7.3.

Таблица 73

Парные коэффициенты корреляции

Из данных, приведенных в таблице, ясно, что есть сильная корреляция между переменными.Г[ и х 2 . Коэффициенты парной корреляции можно также определить, используя средство «Пакет анализа» Microsoft Excel (инструмент «Корреляция»),

Проверим корреляцию между объясняемой и объясняющими переменными, для этого воспользуемся инструментом «Корреляция» Microsoft Excel (можно рассчитать коэффициенты корреляции г Х1/ , используя формулу (7.2)). Результаты представлены на рис. 7.1.


Рис. 7.1. Результаты расчета корреляции между объясняемой и объясняющими переменными в Microsoft Excel

Рассчитаем частные коэффициенты корреляции но формуле (7.4), так как в этом примере всего три объясняющие переменные (можно найти частные коэффициенты корреляции и по формуле (7.5), предварительно найдя обратную матрицу С= R {):

Наибольшим оказался частный коэффициент корреляции между переменными х х их 2 . Частный коэффициент корреляции г ХхХ ^ Х2 самый меньший и противоположный но знаку парному коэффициенту г х х.

Ответ. В модели присутствует сильная корреляция между переменными х х и х 2 .

Обзор