Феноменът на мултиколинеарността е следният. Здравей студент. Признаци на стационарност на стохастичен процес. Какво е бял шум? стр.100

При конструирането на уравнение на множествена регресия може да възникне проблемът с мултиколинеарността на факторите. Мултиколинеарносте линейна връзка между две или повече обяснителни променливи, която може да се прояви във функционална (явна) или стохастична (латентна) форма.
Идентифицирането на връзката между избраните характеристики и количествената оценка на близостта на връзката се извършват с помощта на методите на корелационния анализ. За решаването на тези проблеми първо се оценява , след което на негова основа се определят частични и множествени коефициенти на корелация и детерминация и се проверява тяхната значимост. Крайната цел на корелационния анализ е изборът на факторни характеристики x 1, x 2,…, x m за по-нататъшно изграждане на регресионното уравнение.

Ако факторните променливи са свързани чрез строга функционална зависимост, тогава те говорят за пълна мултиколинеарност. В този случай, сред колоните на матрицата на факторните променливи Xналични линейно зависими колони, и по свойството на детерминантите на матрицата, det(X T X) = 0, т.е. матрицата (X T X) е сингулярна, което означава, че няма обратна матрица. Матрицата (X T X) -1 се използва при конструирането на OLS оценки. По този начин пълната мултиколинеарност не ни позволява да оценим недвусмислено параметрите на оригиналния регресионен модел.

Какви трудности създава мултиколинеарността във факторите, включени в модела, и как могат да бъдат разрешени?

Мултиколинеарността може да доведе до нежелани последствия:

  1. оценките на параметрите стават ненадеждни. Те намират големи стандартни грешки. С промяна на обема на наблюденията оценките се променят (не само по величина, но и по знак), което прави модела неподходящ за анализ и прогнозиране.
  2. става трудно да се интерпретират множество регресионни параметри като характеристики на действието на факторите в „чиста“ форма, тъй като факторите са корелирани; параметрите на линейната регресия губят икономически смисъл;
  3. Става невъзможно да се определи изолираното влияние на факторите върху показателя за ефективност.

Типът мултиколинеарност, при който факторните променливи са свързани с някаква стохастична зависимост, се нарича частично.Ако има висока степен на корелация между факторните променливи, тогава матрицата (X T X) е близка до изродена, т.е. det(X T X) ≈ 0.
Матрицата (X T X) -1 ще бъде лошо обусловена, което води до нестабилност на оценките на OLS. Частичната мултиколинеарност води до следните последствия:

  • увеличаването на дисперсиите на оценките на параметрите разширява интервалните оценки и влошава тяхната точност;
  • намаляване t-статистиката на коефициентите води до неправилни изводи за значимостта на факторите;
  • нестабилност на оценките на OLS и техните дисперсии.

Няма точни количествени критерии за откриване на частична мултиколинеарност. Наличието на мултиколинеарност може да се посочи чрез близостта на детерминантата на матрицата (X T X) до нула. Изследвани са и стойностите на коефициентите на двойна корелация. Ако детерминантата на междуфакторната корелационна матрица е близка до единица, тогава няма мултиколинеарност.

Има различни подходи за преодоляване на силната междуфакторна корелация. Най-простият от тях е изключването от модела на фактора (или факторите), който е най-отговорен за мултиколинеарността, при условие че качеството на модела ще пострада незначително (а именно, теоретичният коефициент на детерминация -R 2 y(x1...xm ) ще намалее незначително) .

Каква мярка не може да се използва за премахване на мултиколинеарността?
а) увеличаване на размера на извадката;
б) изключване на променливи, които са силно корелирани с други;
в) промяна в спецификацията на модела;
г) трансформация на случайния компонент.

Сдвоени (линейни) и частични коефициенти на корелация

Близостта на връзката, например, между променливите x и y за извадка от стойности (x i, y i), i=1,n, (1)
където x и y са средните стойности, S x и S y са стандартните отклонения на съответните проби.

Коефициентът на двойна корелация варира от –1 до +1. Колкото по-близка е по абсолютна стойност до единица, толкова по-близка е статистическата връзка между x и y до линейна функционална. Положителна стойност на коефициента показва, че връзката между характеристиките е пряка (когато x нараства, стойността на y се увеличава), отрицателна стойност показва, че връзката е обратна (когато x нараства, стойността на y намалява).
Може да се даде следната качествена интерпретация възможни стойностикоефициент на корелация: ако |r|<0.3 – связь практически отсутствует; 0.3≤ |r| < 0.7 - связь средняя; 0.7≤ |r| < 0.9 – связь сильная; 0.9≤ |r| < 0.99 – связь весьма сильная.
За да оцените мултиколинеарността на факторите, използвайте матрица от сдвоени коефициенти на корелация на зависимия (резултатен) признак y с факторни характеристики x 1, x 2,…, x m, което ви позволява да оцените степента на влияние на всеки факторен индикатор x j върху зависима променлива y, както и близостта на връзките между факторите. Корелационната матрица в общия случай има вида
.
Матрицата е симетрична, по диагонала има такива. Ако матрицата има междуфакторен корелационен коефициент r xjxi >0,7, тогава има мултиколинеарност в този модел на множествена регресия.
Тъй като първоначалните данни, от които се установява връзката на характеристиките, са извадка от определена обща съвкупност, коефициентите на корелация, изчислени от тези данни, ще бъдат избирателни, т.е. те само оценяват връзката. Необходим е тест за значимост, който отговаря на въпроса дали получените резултати от изчисленията са случайни или не?
Значение на коефициентите на двойна корелацияпроверете от т- t тест на ученика. Изложена е хипотеза, че общият коефициент на корелация е равен на нула: H 0: ρ = 0. След това се задават параметрите: ниво на значимост α и брой степени на свобода v = n-2. Използвайки тези параметри, tcr се намира от таблицата на критичните точки на разпределението на Стюдънт и от наличните данни се изчислява наблюдавана стойност на критерия:
, (2)
където r е двойният корелационен коефициент, изчислен от данните, избрани за изследването. Сдвоеният коефициент на корелация се счита за значим (хипотезата, че коефициентът е равен на нула, се отхвърля) с доверителна вероятност γ = 1- α, ако t Obs по модул е ​​по-голямо от t crit.
Ако променливите са корелирани една с друга, тогава стойността на коефициента на корелация е частично повлияна от влиянието на други променливи.

Частичен коефициент на корелацияхарактеризира близостта на линейната връзка между резултата и съответния фактор при елиминиране на влиянието на други фактори. Коефициентът на частична корелация оценява близостта на връзката между две променливи с фиксирана стойност на други фактори. Ако се изчисли например r yx 1| x2 (коефициент на частична корелация между y и x 1 с фиксирано влияние на x 2), това означава, че се определя количествена мярка на линейната връзка между y и x 1, която ще възникне, ако влиянието на x 2 върху тези характеристики е елиминиран. Ако се изключи влиянието само на един фактор, получаваме частичен коефициент на корелация от първи ред.
Сравнението на стойностите на сдвоените и частичните коефициенти на корелация показва посоката на влияние на фиксирания фактор. Ако коефициентът на частична корелация r yx 1| x2 ще бъде по-малък от съответния коефициент на двойка r yx 1, което означава, че връзката между характеристиките y и x 1 до известна степен се определя от влиянието на фиксираната променлива x 2 върху тях. Обратно, по-голяма стойност на частичния коефициент в сравнение с коефициента на двойката показва, че фиксираната променлива x 2 отслабва връзката между y и x 1 с влиянието си.
Коефициентът на частична корелация между две променливи (y и x 2), когато се изключи влиянието на един фактор (x 1), може да се изчисли по следната формула:
. (3)
За други променливи формулите се конструират по подобен начин. При фиксирано х 2
;
при фиксирано х 3
.
Значимостта на частичните корелационни коефициенти се проверява подобно на случая на двойни корелационни коефициенти. Единствената разлика е броят на степените на свобода, който трябва да се приеме равен на v = n – l -2, където l е броят на фиксираните фактори.

Постепенна регресия

Изборът на фактори x 1 , x 2 , …, x m, включени в модел на множествена регресия, е един от най-важните етапи на иконометричното моделиране. Методът на последователно (стъпка по стъпка) включване (или изключване) на фактори в модела ви позволява да изберете от възможен набор от променливи точно тези, които ще подобрят качеството на модела.
При прилагането на метода първата стъпка е да се изчисли корелационната матрица. Въз основа на коефициентите на двойна корелация се разкрива наличието на колинеарни фактори. Коефициентите x i и x j се считат за колинеарни, ако r xjxi >0,7. В модела е включен само един от взаимосвързаните фактори. Ако сред факторите няма колинеарни фактори, тогава всички фактори, които имат значително влияние върху г.

На втората стъпка се конструира регресионно уравнение с една променлива, която има максималната абсолютна стойност на коефициента на двойна корелация с получения атрибут.

На третата стъпка в модела се въвежда нова променлива, която има най-голямата абсолютна стойност на частичния корелационен коефициент със зависимата променлива с фиксирано влияние на въведената преди това променлива.
Когато в модела се въведе допълнителен фактор, коефициентът на детерминация трябва да се увеличи, а остатъчната дисперсия трябва да намалее. Ако това не се случи, т.е. коефициентът на множествена детерминация леко се увеличи, тогава въвеждането на нов фактор се счита за неподходящо.

Пример №1. За 20 предприятия в региона зависимостта на продукцията на служител y (хиляда рубли) от дела на висококвалифицираните работници в общия брой на работниците x1 (% от стойността на активите в края на годината) и от въвеждането в експлоатация на нови дълготрайни активи x2 (%).

Y X1 X2
6 10 3,5
6 12 3,6
7 15 3,9
7 17 4,1
7 18 4,2
8 19 4,5
8 19 5,3
9 20 5,3
9 20 5,6
10 21 6
10 21 6,3
11 22 6,4
11 23 7
12 25 7,5
12 28 7,9
13 30 8,2
13 31 8,4
14 31 8,6
14 35 9,5
15 36 10

Задължително:

  1. Изградете корелационно поле между продукцията на работник и дела на висококвалифицираните работници. Изложете хипотеза за близостта и вида на връзката между показателите X1 и Y.
  2. Оценете стегнатостта линейна връзкамежду произведената продукция на работник и дела на висококвалифицираните работници с надеждност 0,9.
  3. Изчислете коефициентите линейно уравнениерегресия за зависимостта на продукцията на работник от дела на висококвалифицираните работници.
  4. Проверете статистическата значимост на параметрите на регресионното уравнение с надеждност 0,9 и изградете доверителни интервали за тях.
  5. Изчислете коефициента на детерминация. Използвайки F теста на Fisher, оценете статистическата значимост на регресионното уравнение с надеждност 0,9.
  6. Дайте точкова и интервална прогноза с надеждност от 0,9 продукция на служител за предприятие, в което 24% от работниците са висококвалифицирани.
  7. Изчислете коефициентите на уравнението на линейната множествена регресия и обяснете икономическия смисъл на неговите параметри.
  8. Анализирайте статистическата значимост на множество коефициенти на уравнение с надеждност 0,9 и конструирайте доверителни интервали за тях.
  9. Намерете двойния и частичния коефициент на корелация. Анализирайте ги.
  10. Намерете коригирания коефициент на множествена детерминация. Сравнете го с некоригирания (общ) коефициент на детерминация.
  11. Използвайки F теста на Фишер, оценете адекватността на регресионното уравнение с надеждност 0,9.
  12. Дайте точкова и интервална прогноза с надеждност от 0,9 продукция на служител за предприятие, в което 24% от работниците са висококвалифицирани, а въвеждането в експлоатация на нови дълготрайни активи е 5%.
  13. Проверете построеното уравнение за наличие на мултиколинеарност чрез: тест на Стюдънт; χ2 тест. Сравнете резултатите.

РешениеПравим го с помощта на калкулатор. Следва напредъкът на решението на клауза 13.
Матрица на двойните коефициенти на корелация R:

- гх 1х 2
г 1 0.97 0.991
х 1 0.97 1 0.977
х 2 0.991 0.977 1

При наличие на мултиколинеарност детерминантата корелационна матрицаблизо до нулата. За нашия пример: det = 0.00081158, което показва наличието на силна мултиколинеарност.
За да изберете най значими фактори x i се вземат предвид следните условия:
- връзката между резултантната характеристика и факторната трябва да е по-висока от междуфакторната връзка;
- връзката между факторите трябва да бъде не повече от 0,7. Ако матрицата има междуфакторен корелационен коефициент r xjxi > 0,7, тогава има мултиколинеарност в този модел на множествена регресия.;
- при висока междуфакторна връзка на характеристика се избират фактори с по-нисък коефициент на корелация между тях.
В нашия случай r x 1 x 2 имат |r|>0,7, което показва мултиколинеарност на факторите и необходимостта един от тях да бъде изключен от по-нататъшен анализ.
Анализът на първия ред на тази матрица позволява избор на факторни характеристики, които могат да бъдат включени в модела на множествена корелация. Факторни характеристики, за които |r yxi | 0,3 – практически няма връзка; 0,3 ≤ |r| ≤ 0,7 - средна връзка; 0,7 ≤ |r| ≤ 0,9 – силна връзка; |r| > 0,9 – връзката е много силна.
Нека проверим значимостта на получените коефициенти на двойна корелация с помощта на t-критерия на Стюдънт. Коефициентите, за които стойностите на t-статистиката по модул са по-големи от намерената критична стойност, се считат за значими.
Нека изчислим наблюдаваните стойности на t-статистиката за r yx 1, като използваме формулата:

където m = 1 е броят на факторите в регресионното уравнение.

С помощта на таблицата на ученика намираме Ttable
t crit (n-m-1;α/2) = (18;0,025) = 2,101
Тъй като t obs > t crit, ние отхвърляме хипотезата, че коефициентът на корелация е равен на 0. С други думи, коефициентът на корелация е статистически значим
Нека изчислим наблюдаваните стойности на t-статистиката за r yx 2, използвайки формулата:

Тъй като t obs > t crit, ние отхвърляме хипотезата, че коефициентът на корелация е равен на 0. С други думи, коефициентът на корелация е статистически значим
Следователно връзката между (y и x x 1), (y и x x 2) е значима.
Коефициентът x2 (r = 0.99) има най-голямо влияние върху ефективния признак, което означава, че при конструирането на модела той първи ще влезе в регресионното уравнение.
Тестване и елиминиране на мултиколинеарност.
Най-пълният алгоритъм за изследване на мултиколинеарността е алгоритъмът на Farrar-Glober. Използва се за тестване на три вида мултиколинеарност:
1. Всички фактори (χ 2 - хи-квадрат).
2. Всеки фактор с останалите (критерий на Фишер).
3. Всяка двойка фактори (t-тест на Стюдънт).
Нека проверим променливите за мултиколинеарност, като използваме метода на Farrar-Glouber, като използваме първия тип статистически критерии (хи-квадрат тест).
Формулата за изчисляване на стойността на статистиката на Фарар-Глоубер е:
χ 2 = -ln(det[R])
където m = 2 е броят на факторите, n = 20 е броят на наблюденията, det[R] е детерминантата на матрицата на сдвоените коефициенти на корелация R.
Нека го сравним с таблична стойностс v = m/2(m-1) = 1 степени на свобода и ниво на значимост α. Ако χ 2 > χ таблица 2, тогава има мултиколинеарност във вектора на факторите.
χ таблица 2 (1;0,05) = 3,84146
Нека проверим променливите за мултиколинеарност, като използваме втория тип статистически критерии (тест на Фишер).

Нека проверим променливите за мултиколинеарност, използвайки третия тип статистически критерии (тест на Студент). За да направим това, ще намерим частични коефициенти на корелация.
Частични коефициенти на корелация.
Коефициентът на частична корелация се различава от коефициента на обикновена линейна двойка корелация по това, че измерва корелацията по двойки на съответните характеристики (y и x i), при условие че влиянието на други фактори (x j) върху тях е елиминирано.
Въз основа на частичните коефициенти можем да заключим, че включването на променливи в регресионния модел е оправдано. Ако стойността на коефициента е малка или незначителна, това означава, че връзката между този фактор и променливата на резултата е или много слаба, или напълно липсва, така че факторът може да бъде изключен от модела.


Плътността на комуникацията е ниска.
Нека определим значението на коефициента на корелация r yx 1 / x 2. Както виждаме, връзката между y и x 2, при условие че x 1 е включен в модела, е намаляла. От това можем да заключим, че въвеждането на x 2 в регресионното уравнение остава неподходящо.
Можем да заключим, че при съставянето на регресионно уравнение трябва да се изберат фактори x 1, x 2.

Пример №2. За 30 наблюдения матрицата на сдвоените коефициенти на корелация се оказа следната:

гх 1х 2х 3
г1,0
х 10,30 1,0
х 20,60 0,10 1,0
х 30,40 0,15 0,80 1,0
Оценете мултиколинеарността на факторите. Съставете регресионно уравнение в стандартна скала и направете заключения.

Имайте предвид, че в някои случаи мултиколинеарността не е толкова сериозно „зло“, че трябва да се положат значителни усилия за идентифицирането и премахването й. По принцип всичко зависи от целите на изследването.
Ако основната задача на модела е да предскаже бъдещи стойности на зависимата променлива, тогава с достатъчно голям коефициент на детерминация R2(gt; 0,9), наличието на мултиколинеарност обикновено не влияе на прогнозните качества на модела (ако в бъдеще същите връзки между корелираните променливи ще се поддържат както преди).
Ако е необходимо да се определи степента, до която всяка обяснителна променлива влияе върху зависимата променлива, тогава мултиколинеарността, която води до по-големи стандартни грешки, вероятно ще изкриви истинските връзки между променливите. В тази ситуация мултиколинеарността е сериозен проблем.
Няма нито един метод за елиминиране на мултиколинеарността, който да е подходящ във всеки случай. Това е така, защото причините и последствията от мултиколинеарността са двусмислени и до голяма степен зависят от резултатите от извадката.
Изключване на променлива(и) от модела
Най-простият метод за елиминиране на мултиколинеарността е да се изключат една или няколко корелирани променливи от модела. При използването на този метод е необходимо известно внимание. В тази ситуация са възможни грешки в спецификацията, така че в приложните иконометрични модели е препоръчително да не се изключват обяснителни променливи, докато мултиколинеарността не се превърне в сериозен проблем.
Получаване на повече данни или нова проба
Тъй като мултиколинеарността зависи пряко от извадката, е възможно при различна извадка да няма мултиколинеарност или тя да не е толкова сериозна. Понякога, за да се намали мултиколинеарността, е достатъчно да се увеличи размерът на извадката. Например, ако използвате годишни данни, можете да преминете към тримесечни данни. Увеличаването на количеството данни намалява дисперсията на регресионните коефициенти и по този начин увеличава тяхната статистическа значимост. Получаването на нова проба или разширяването на стара обаче не винаги е възможно или е свързано със сериозни разходи. В допълнение, този подход може да увеличи автокорелацията. Тези проблеми ограничават използването на този метод.
Промяна на спецификацията на модела
В някои случаи проблемът с мултиколинеарността може да бъде решен чрез промяна на спецификацията на модела: или промяна на формата на модела, или добавяне на обяснителни променливи, които не са взети предвид в оригиналния модел, но значително влияят на зависимата променлива. Ако този метод е оправдан, тогава използването му намалява сумата на квадратните отклонения, като по този начин намалява стандартната грешка на регресията. Това води до намаляване на стандартните грешки на коефициентите.
Използване на предварителна информация за някои параметри
Понякога, когато изграждате модел на множествена регресия, можете да използвате предварителна информация, по-специално известните стойности на някои коефициенти на регресия.
Вероятно стойностите на коефициентите, изчислени за някои предварителни (обикновено по-прости) модели или за подобен модел, базиран на предварително получена извадка, могат да бъдат използвани за този, който се разработва в в моментамодели.
Избор на най-значимите обяснителни променливи. Процедура за последователно свързване на елементи
Преминаването към по-малко обяснителни променливи може да намали дублирането на информация, предоставена от силно взаимозависими черти. Точно това е, което срещаме в случай на мултиколинеарност на обяснителните променливи.

36. методи за идентифициране на мултиколлиарност. частична корелация

Най-големите трудности при използването на апарата за множествена регресия възникват при наличието на мултиколинеарност на факторните променливи, когато повече от два фактора са свързани помежду си чрез линейна връзка.

Мултиколинеарността за линейна множествена регресия е наличието на линейна зависимост между факторните променливи, включени в модела.

Мултиколинеарността е нарушение на едно от основните условия, залегнали в изграждането на линеен модел на множествена регресия.

Мултиколинеарността в матрична форма е зависимостта между колоните на матрицата на факторните променливи X:

Ако не вземете предвид единичния вектор, тогава размерът на тази матрица е равен на n * n. Ако рангът на матрицата X е по-малък от n, тогава моделът има пълна или строга мултиколинеарност. Но на практика пълна мултиколинеарност почти никога не се случва.

Може да се заключи, че една от основните причини за наличието на мултиколинеарност в модел на множествена регресия е лошата матрица на факторните променливи X.

Колкото по-силна е мултиколинеарността на факторните променливи, толкова по-малко надеждна е оценката на разпределението на размера на обяснената вариация между отделните фактори, използвайки метода на най-малките квадрати.

Включването на мултиколинеарни фактори в модела е нежелателно поради няколко причини:

1) основната хипотеза за незначимостта на коефициентите на множествена регресия може да бъде потвърдена, но самият модел на регресия, когато се тества с помощта на F-теста, се оказва значим, което показва надценена стойност на коефициента на множествена корелация;

2) получените оценки на коефициентите на модела на множествената регресия могат да бъдат необосновано завишени или да имат неправилни знаци;

3) добавянето или изключването на едно или две наблюдения от оригиналните данни има силно въздействие върху оценките на коефициентите на модела;

4) мултиколинеарни фактори, включени в модела на множествена регресия, могат да го направят неподходящ за по-нататъшна употреба.

Няма специфични методи за откриване на мултиколинеарност, но е обичайно да се използват редица емпирични техники. В повечето случаи множественият регресионен анализ започва с разглеждане на корелационната матрица на факторните променливи R или матрица (XTX).

Корелационната матрица на факторните променливи е матрица от линейни коефициенти на двойна корелация на факторни променливи, която е симетрична по отношение на главния диагонал:

където rij е линейният коефициент на двойна корелация между i-та и j-та факторни променливи,

По диагонала на корелационната матрица има такива, тъй като коефициентът на корелация на факторната променлива със себе си е равен на единица.

Когато разглеждаме тази матрица, за да идентифицираме мултиколинеарни фактори, ние се ръководим от следните правила:

1) ако корелационната матрица на факторните променливи съдържа корелационни коефициенти по двойки в абсолютна стойност, по-голяма от 0,8, тогава те заключават, че има мултиколинеарност в този модел на множествена регресия;

2) изчисляване на собствените стойности на корелационната матрица на факторните променливи λmin и λmax. Ако λmin‹10-5, тогава има мултиколинеарност в регресионния модел. Ако отношението

тогава те също заключават, че има мултиколинеарни факторни променливи;

3) изчисляване на детерминантата на корелационната матрица на факторните променливи. Ако стойността му е много малка, тогава има мултиколинеарност в регресионния модел.

37. начини за решаване на проблема с мултиколлиарността

Ако изчисленият регресионен модел трябва да се използва за изследване икономически връзки, то елиминирането на мултиколинеарни фактори е задължително, тъй като присъствието им в модела може да доведе до неправилни знаци на коефициентите на регресия.

Когато се изгражда прогноза въз основа на регресионен модел с мултиколинеарни фактори, е необходимо да се оцени ситуацията въз основа на големината на прогнозната грешка. Ако стойността му е задоволителна, тогава моделът може да се използва въпреки мултиколинеарността. Ако грешката на прогнозата е голяма, тогава елиминирането на мултиколинеарни фактори от регресионния модел е един от методите за повишаване на точността на прогнозата.

Основните начини за премахване на мултиколинеарността в модел на множествена регресия включват:

1) един от най прости начиниелиминирането на мултиколинеарността се състои в получаване на допълнителни данни. На практика обаче в някои случаи прилагането на този метод може да бъде много трудно;

2) метод за трансформиране на променливи, например, вместо стойностите на всички променливи, участващи в модела (включително резултантната), можете да вземете техните логаритми:

lny=β0+β1lnx1+β2lnx2+ε.

Въпреки това този методсъщо така не е в състояние да гарантира пълното премахване на мултиколинеарността на факторите;

Ако разглежданите методи не помогнаха да се елиминира мултиколинеарността на факторите, тогава се преминава към използване на предубедени методи за оценка на неизвестни параметри на регресионен модел или методи за изключване на променливи от множествен регресионен модел.

Ако никоя от факторните променливи, включени в модела на множествената регресия, не може да бъде изключена, тогава се използва един от основните предубедени методи за оценка на коефициентите на регресионния модел - ръбова регресия или ръбова регресия.

Когато се използва методът на ръбовата регресия, малко число τ се добавя към всички диагонални елементи на матрицата (XTX): 10-6 ‹ τ ‹ 0,1. Оценката на неизвестни параметри на модел на множествена регресия се извършва по формулата:

където ln е идентичната матрица.

Резултатът от прилагането на гребеновата регресия е намаляване на стандартните грешки на коефициентите на множествения регресионен модел поради стабилизирането им до определено число.

Анализът на главните компоненти е един от основните методи за елиминиране на променливи от модел на множествена регресия.

Този методизползвани за елиминиране или намаляване на мултиколинеарността на факторните променливи в регресионен модел. Същността на метода е да се намали броят на факторните променливи до най-значително влияещите фактори. Това се постига с помощта на линейна трансформациявсички факторни променливи xi (i=0,...,n) в нови променливи, наречени главни компоненти, т.е. прави се преход от матрицата на факторните променливи X към матрицата на главните компоненти F. В този случай изискването е излагат, че изборът на първия главен компонент съответства максимум на общата дисперсия на всички факторни променливи xi (i=0,...,n), вторият компонент - максимумът на оставащата дисперсия, след влиянието на първият главен компонент е изключен и т.н.

Методът за поетапно включване на променливи се състои в избиране от целия възможен набор от факторни променливи точно тези, които оказват значително влияние върху променливата на резултата.

Методът за включване стъпка по стъпка се извършва съгласно следния алгоритъм:

1) от всички факторни променливи, регресионният модел включва тези променливи, които съответстват на най-големия модул на линейния коефициент на двойна корелация с променливата на резултата;

2) при добавяне на нови факторни променливи към регресионния модел, тяхната значимост се проверява с помощта на F теста на Fisher. В същото време се излага основната хипотеза за неоправданото включване на факторната променлива xk в модела на множествената регресия. Противоположната хипотеза е твърдение за целесъобразността на включването на факторната променлива xk в модела на множествена регресия. Критичната стойност на F-критерия се определя като Fcrit(a;k1;k2), където a е нивото на значимост, k1=1 и k2=n–l са броят на степените на свобода, n е обемът на извадкова популация, l е броят на параметрите, оценени от извадката. Наблюдаваната стойност на F-критерия се изчислява по формулата:

където q е броят на факторните променливи, които вече са включени в регресионния модел.

При проверка на основната хипотеза са възможни следните ситуации.

Fob›Fcrit, тогава основната хипотеза за неоправданото включване на факторната променлива xk в модела на множествената регресия се отхвърля. Следователно включването на тази променлива в модела на множествена регресия е оправдано.

Ако наблюдаваната стойност на F-критерия (изчислена от примерни данни) е по-малка или равна на критичната стойност на F-критерия (определена от таблицата за разпределение на Fisher-Snedecor), т.е. Fobs.≤Fcrit, тогава основната хипотеза относно неоправданото включване на факторната променлива xk в множествената моделна регресия се приема. Следователно тази факторна променлива не може да бъде включена в модела, без да се компрометира качеството му

3) факторните променливи се проверяват за значимост, докато има поне една променлива, за която условието Fob›Fcrit не е изпълнено.

38. фиктивни променливи. Тест за храна

Терминът „фиктивни променливи“ се използва за разлика от „смислените“ променливи, които показват нивото на количествен показател, като се вземат стойности от непрекъснат интервал. По правило фиктивната променлива е индикаторна променлива, която отразява качествена характеристика. Най-често използваните са двоични фиктивни променливи, които приемат две стойности, 0 и 1, в зависимост от определено условие. Например, в проучване на група хора, 0 може да означава, че лицето, което се изследва, е мъж, а 1 може да означава жена. Фиктивните променливи понякога включват регресор, състоящ се само от единици (т.е. константа, пресечена точка), както и времева тенденция.

Фиктивните променливи, тъй като са екзогенни, не създават никакви затруднения при използването на OLS. Фиктивните променливи са ефективен инструмент за изграждане на регресионни модели и тестване на хипотези.

Да приемем, че на базата на събраните данни е изграден регресионен модел. Изследователят е изправен пред задачата дали си струва да се въведат допълнителни фиктивни променливи в получения модел или дали основният модел е оптимален. Този проблем се решава с помощта на метода или теста Chow. Използва се в ситуации, при които основната извадкова съвкупност може да бъде разделена на части или подизвадки. В този случай можете да тествате предположението, че подпробите са по-ефективни от общия регресионен модел.

Ще приемем, че общият регресионен модел е неограничен регресионен модел. Нека означим този модел с ООН. Ще разгледаме специалните случаи на регресионния модел без ограничения като отделни подизвадки. Нека обозначим тези частични подпроби като PR.

Нека въведем следната нотация:

PR1 – първа подпроба;

PR2 – втора подпроба;

ESS(PR1) – сумата на квадратите на остатъците за първата подпроба;

ESS(PR2) – сумата на квадратите на остатъците за втората подпроба;

ESS(UN) – сума на квадратите на остатъците за общ моделрегресия.

– сумата на квадратите на остатъците за наблюдения на първата подизвадка в общия регресионен модел;

– сумата на квадратите на остатъците за наблюдения на втората подизвадка в общия регресионен модел.

За конкретни регресионни модели са валидни следните неравенства:

Състояние (ESS(PR1)+ESS(PR2))= ESS(UN)се извършва само ако коефициентите на частичните регресионни модели и коефициентите на общия регресионен модел без ограничения са еднакви, но на практика такова съвпадение е много рядко.

Основната хипотеза е формулирана като твърдение, че качеството на общия регресионен модел без ограничения по-добро качествочастни регресионни модели или подизвадки.

Алтернативната или обратната хипотеза гласи, че качеството на общия неограничен регресионен модел е по-лошо от качеството на специфични регресионни модели или подпроби

Тези хипотези се тестват с помощта на F теста на Fisher-Snedecor.

Наблюдаваната стойност на F-теста се сравнява с критичната стойност на F-теста, която се определя от таблицата за разпределение на Fisher-Snedecor.

А k1=m+1и k2=n-2m-2.

Наблюдаваната стойност на F-критерия се изчислява по формулата: където ESS(UN)–ESS(PR1)–ESS(PR2)– стойност, характеризираща подобряването на качеството на регресионния модел след разделянето му на подизвадки;

м– брой факторни променливи (включително фиктивни);

п– размерът на общата извадкова популация.

Ако наблюдаваната стойност на F-теста (изчислена от примерни данни) е по-голяма от критичната стойност на F-теста (определена от таблицата за разпределение на Fisher-Snedecor), т.е. Fob>Fcrit, тогава основната хипотеза се отхвърля и качеството на конкретните регресионни модели надвишава качеството на общия регресионен модел.

Ако наблюдаваната стойност на F-теста (изчислена от примерни данни) е по-малка или равна на критичната стойност на F-теста (определена от таблицата за разпределение на Fisher-Snedecor), т.е. Fob?Fcrit, тогава основната хипотеза се приема и няма смисъл да се разделя общата регресия на подизвадки.

Ако се тества значимостта на основната регресия или ограничената регресия, тогава се излага основната хипотеза на формата:

Валидността на тази хипотеза се тества с помощта на теста Fisher-Snedecor F.

Критичната стойност на теста на Fisher F се определя от таблицата за разпределение на Fisher-Snedecor в зависимост от нивото на значимост Аи две степени на свобода k1=m+1и k2=n–k–1.

Наблюдаваната стойност на F-критерия се преобразува във формата:

При проверка на хипотезите са възможни следните ситуации.

Ако наблюдаваната стойност на F-теста (изчислена от примерни данни) е по-голяма от критичната стойност на F-теста (определена от таблицата за разпределение на Fisher-Snedecor), т.е. Fob›Fcrit,тогава основната хипотеза се отхвърля и в регресионния модел трябва да се въведат допълнителни фиктивни променливи, тъй като качеството на ограничения регресионен модел е по-високо от качеството на базовия или ограничен регресионен модел.

Ако наблюдаваната стойност на F-теста (изчислена от примерни данни) е по-малка или равна на критичната стойност на F-теста (определена от таблицата за разпределение на Fisher-Snedecor), т.е. Fob?Fcrit, тогава основната хипотеза е приета и основният регресионен модел е задоволителен; няма смисъл да се въвеждат допълнителни фиктивни променливи в модела.

39. система от едновременни уравнения (ендогенни, екзогенни, закъснели променливи). Икономически значими примери за системи от едновременни уравнения

Досега разглеждахме иконометрични модели, дефинирани от уравнения, които изразяват зависимата (обяснена) променлива по отношение на обяснителни променливи. Въпреки това, реалните икономически обекти, изследвани с помощта на иконометрични методи, водят до разширяване на концепцията за иконометричен модел, описан чрез система от регресионни уравнения и идентичности1.

1 За разлика от регресионните уравнения, идентичностите не съдържат параметри на модела, които да бъдат оценени, и не включват случаен компонент.

Особеност на тези системи е, че всяко от уравненията на системата, в допълнение към „своите собствени“ обяснителни променливи, може да включва обяснени променливи от други уравнения. Така имаме не една зависима променлива, а набор от зависими (обяснени) променливи, свързани с уравненията на системата. Такава система се нарича още система от едновременни уравнения, като се подчертава фактът, че в системата едни и същи променливи се разглеждат едновременно като зависими в някои уравнения и независими в други.

Системите от едновременни уравнения най-пълно описват икономически обект, съдържащ множество взаимосвързани ендогенни (формирани в рамките на функционирането на обекта) и екзогенни (зададени отвън) променливи. В този случай закъснелите (взети в предишния момент) променливи могат да действат като ендогенни и екзогенни.

Класически пример за такава система е моделът на търсенето Qd и предлагането Qs (виж § 9.1), когато търсенето на продукт се определя от неговата цена P и потребителския доход /, предлагането на продукт се определя от неговата цена P и се постига баланс между търсене и предлагане:

В тази система екзогенната променлива е потребителският доход /, а ендогенната променлива е търсенето (предлагането) на продукта Qd = Q» = Q и цената на продукта (равновесната цена) R.

В друг модел на търсене и предлагане, променливата, обясняваща предлагането Qf, може да бъде не само цената на стоките P в даден момент /, т.е. Pb, но също и цената на продукта в предишния момент Ptb, т.е. закъсняла ендогенна променлива:

th"=P4+P5^+Pb^-1+Є2.

Обобщавайки горното, можем да кажем, че иконометричният модел ни позволява да обясним поведението на ендогенните променливи в зависимост от стойностите на екзогенните и изостаналите ендогенни променливи (с други думи, в зависимост от предварително определени, т.е. предварително определени променливи).

В заключение на нашето разглеждане на концепцията за иконометричен модел трябва да се отбележи следното. Не всеки икономически и математически модел, който представлява математическо и статистическо описание на изследвания икономически обект, може да се счита за иконометричен. Той става иконометричен само ако отразява този обект въз основа на емпирични (статистически) данни, които го характеризират.

40. индиректен метод на най-малките квадрати

Ако i -тото стохастично уравнение на структурната форма е идентифицирано точно, тогава параметрите на това уравнение (коефициенти на уравнението и дисперсия на случайна грешка) се възстановяват еднозначно от параметрите на редуцираната система. Следователно, за да се оценят параметрите на такова уравнение, е достатъчно да се оценят коефициентите на всяко от уравненията на редуцирана форма, като се използва методът на най-малките квадрати (поотделно за всяко уравнение) и да се получи оценка на ковариационната матрица Q на грешките в редуцираната форма и след това използвайте отношенията PG = B и E = GTQT, замествайки в тях, вместо P, има оценена коефициентна матрица на редуцираната форма P и оценена ковариационна матрица на грешките в редуцирана форма £2. Тази процедура се нарича непреки най-малки квадрати (ILS непреки най-малки квадрати). Получените оценки на коефициентите на i-тото стохастично уравнение на структурната форма наследяват свойството на съгласуваност на оценките на редуцираната форма. Те обаче не наследяват такива свойства на оценителите с намалена форма като безпристрастност и ефективност поради факта, че се получават в резултат на някои нелинейни трансформации. Съответно, с малък брой наблюдения, дори тези естествени оценки могат да бъдат обект на забележимо отклонение. В тази връзка, когато се разглеждат различни методи за оценка на коефициентите на структурни уравнения, те се занимават предимно с осигуряване на последователност на получените оценки.

41. проблеми на идентифицируемостта на системи от едновременни уравнения

С правилната спецификация на модела задачата за идентифициране на система от уравнения се свежда до правилна и недвусмислена оценка на нейните коефициенти. Директната оценка на коефициентите на уравнението е възможна само в системи от очевидно несвързани уравнения, за които са изпълнени основните предпоставки за конструиране на регресионен модел, по-специално условието факторните променливи да не са корелирани с остатъците.

В рекурсивните системи винаги е възможно да се отървете от проблема за корелацията на остатъците с факторните променливи отзамествайки като стойности на факторни променливи не действителни, а моделни стойности на ендогенни променливи, действащи като факторни променливи. Процесът на идентификация се извършва, както следва:

1. Идентифицирано е уравнение, което не съдържа ендогенни променливи като фактори. Намира се изчислената стойност на ендогенната променлива на това уравнение.

2. Разгледайте следното уравнение, в което ендогенната променлива, намерена в предишната стъпка, е включена като фактор. Моделните (приблизителни) стойности на тази ендогенна променлива дават възможност за идентифициране на това уравнение и т.н.

В системата от уравнения в редуцирана форма не възниква проблемът с факторните променливи, които са корелирани с отклонения, тъй като във всяко уравнение като факторни променливи се използват само предварително дефинирани променливи. По този начин, ако са изпълнени други предпоставки, рекурсивната система винаги може да бъде идентифицирана.

Когато се разглежда система от едновременни уравнения, възниква проблем с идентификацията.

Идентификацията в този случай означава определяне на възможността за недвусмислено преизчисляване на системните коефициенти в редуцирана форма в структурни коефициенти.

Структурният модел (7.3) съдържа в своята цялост параметри, които трябва да бъдат определени. Дадената форма на модела съдържа пълни параметри. Следователно, за да се определи неизвестни параметри на структурния модел могат да се съставят уравнения. Такива системи са несигурни и параметрите на структурния модел в общия случай не могат да бъдат еднозначно определени.

За да получите единствената възможно решениенеобходимо е да се приеме, че някои от структурните коефициенти на модела, поради слабата им връзка с ендогенната променлива от лявата страна на системата, са равни на нула. Това ще намали броя на структурните коефициенти на модела. Намаляването на броя на структурните коефициенти на модела е възможно и по други начини: например чрез приравняване на някои коефициенти един към друг, т.е. като се приеме, че тяхното въздействие върху формираната ендогенна променлива е еднакво и т.н.

От гледна точка на идентифицируемостта, структурните модели могат да бъдат разделени на три типа:

· разпознаваем;

· неидентифицирани;

· свръхидентифициран.

Модел идентифицируем, ако всички негови структурни коефициенти се определят еднозначно, по уникален начин, от коефициентите на редуцираната форма на модела, т.е. ако броят на параметрите на структурния модел е равен на броя на параметрите на редуцираната форма на моделът.

Модел неидентифициран, ако броят на коефициентите на редуцирания модел е по-малък от броя на структурните коефициенти и в резултат на това структурните коефициенти не могат да бъдат оценени чрез коефициентите на редуцираната форма на модела.

Модел свръхидентифицируем, ако броят на коефициентите на редуцирания модел е по-голям от броя на структурните коефициенти. В този случай, въз основа на намалените коефициенти на формата, могат да се получат две или повече стойности на един структурен коефициент. Свръхидентифицираният модел, за разлика от неидентифицирания модел, е практически разрешим, но изисква специални методи за намиране на параметри.

За да се определи вида на структурния модел, всяко негово уравнение трябва да бъде проверено за идентифицируемост.

Един модел се счита за идентифицируем, ако всяко уравнение на системата е идентифицируемо. Ако поне едно от уравненията на системата е неидентифицируемо, тогава целият модел се счита за неидентифицируем. В допълнение към идентифицируемите, свръхидентифицираният модел съдържа поне едно свръхидентифицирано уравнение.

42. триетапен метод на най-малките квадрати

Най-ефективната процедура за оценка на системи от регресионни уравнения съчетава метода на едновременното оценяване и метода на инструменталните променливи. Съответният метод се нарича тристъпков най-малък квадрат. Състои се в това, че в първата стъпка обобщеният метод на най-малките квадрати се прилага към оригиналния модел (9.2), за да се елиминира корелацията на случайни членове. След това към получените уравнения се прилага двуетапният метод на най-малките квадрати.

Очевидно, ако случайните членове (9.2) не корелират, тристъпковият метод се редуцира до двуетапен, докато в същото време, ако матрицата B е идентичност, тристъпковият метод е процедура за едновременна оценка на уравнения като очевидно несвързани.

Нека приложим метода на три стъпки към разглеждания модел (9.24):

ai=19,31; Pi=l.77; а2=19,98; р2=0.05; y=1,4. (6,98) (0,03) (4,82) (0,08) (0,016)

Тъй като коефициентът p2 е незначителен, уравнението за зависимостта на Y от X има формата:

y = 16,98 + 1,4x

Забележете, че то практически съвпада с уравнение (9.23).

Както е известно, пречистването на уравнение от корелацията на произволни членове е итеративен процес. Съответно, когато се използва методът на три стъпки компютърна програмапита за броя повторения или необходимата точност. Нека да отбележим важно свойство на триетапния метод, което осигурява неговата най-голяма ефективност.

За достатъчно голям брой итерации оценките на трите стъпки на най-малките квадрати съвпадат с оценките на максималната вероятност.

Известно е, че оценителите на максималната вероятност се представят най-добре при големи извадки.

43. концепция за икономически времеви редове. Общ изглед на модела на мултипликативния и адитивния времеви ред.

44. моделиране на тенденции във времеви редове, сезонни и циклични колебания.

Има няколко подхода за анализиране на структурата на времеви редове, съдържащи сезонни или циклични колебания.

1 ПОДХОД. Изчисляване на стойностите на сезонните компоненти с помощта на метода на подвижната средна и изграждане на адитивен или мултипликативен модел на времеви редове.

Общ изглед на адитивния модел: (T - трендов компонент, S - сезонен, E - случаен).

Общ изглед на мултипликативния модел:

Избор на модел въз основа на анализ на структурата на сезонните колебания (ако амплитудата на колебанията е приблизително постоянна - адитивна, ако нараства/намалява - мултипликативна).

Изграждането на модели се свежда до изчисления стойности T,S,Eза всяко ниво на ред.

Изграждане на модел:

1. подравняване на оригиналната серия с помощта на метода на подвижната средна;

2.изчисляване на стойностите на компонентите С;

3. Премахване на сезонния компонент от първоначалните нива на серията и получаване на подравнени данни ( Т+Е) в добавка или ( Т*Е) в мултипликативния модел.

4.Аналитично нивелиране ( Т+Е) или ( Т*Е) и изчисляване на стойността Тизползвайки полученото ниво на тенденция.

5. Изчисляване на стойностите, получени от модела ( T+S) или ( Т*С).

6. Изчисляване на абсолютни и/или относителни грешки.

Ако получените стойности на грешката не съдържат автокорелация, те могат да се използват за замяна на първоначалните нива на серията и впоследствие да се използва времевата серия на грешката дза анализ на връзката между оригиналната серия и други времеви серии.

2 ПОДХОД.Изграждане на регресионен модел, включващ времевия фактор и фиктивни променливи. Броят на фиктивните променливи в такъв модел трябва да бъде с една по-малък от броя на моментите (периодите) от време в рамките на един цикъл на трептене. Например, когато моделирате тримесечни данни, моделът трябва да включва четири независими променливи – времеви фактор и три фиктивни променливи. Всяка фиктивна променлива отразява сезонния (цикличен) компонент на динамичния ред за всеки един период. Тя е равна на единица (1) за даден период и нула (0) за всички останали. Недостатъкът на модела с фиктивни променливи е наличието на голям брой променливи.

45. автокорелационна функция. Използва се за идентифициране на наличието или отсъствието на тенденция и циклични компоненти

Автокорелация на нива на времеви редове.

Ако има тенденции и циклични колебания във времевата серия, всяко следващо ниво на серията зависи от предходните. Корелационната зависимост между последователните нива на времевия ред се нарича автокорелация на серийни нива.

Количествено, автокорелацията на нивата на серията се измерва с помощта на линеен коефициент на корелация между нивата на оригиналната времева серия и нивата на тази серия, изместени с няколко стъпки във времето.

Нека например ни е даден времеви ред . Нека определим коефициента на корелация между серията и .

Една от работещите формули за изчисляване на коефициента на корелация е:

А времевите редове, т.е. при изоставане 2. Определя се по формулата:

(4)

Обърнете внимание, че с увеличаването на забавянето броят на двойките стойности, от които се изчислява коефициентът на корелация, намалява. Обикновено забавянето не е позволено да бъде по-голямо от една четвърт от броя на наблюденията.

Нека отбележим две важни свойства на автокорелационните коефициенти.

Първо, автокорелационните коефициенти се изчисляват по аналогия с линейния корелационен коефициент, т.е. те характеризират само близостта на линейната връзка между двете нива на разглеждания динамичен ред. Следователно коефициентът на автокорелация може да прецени само наличието на линейна (или близка до линейна) тенденция. За времеви редове, които имат силна нелинейна тенденция (например експоненциална), коефициентът на автокорелация на ниво може да се доближи до нула.

Да приемем, че разглеждаме регресионно уравнение и данните за оценката му съдържат наблюдения за обекти с различно качество: за мъже и жени, за бели и черни. Въпросът, който може да ни интересува тук, е следният: вярно ли е, че разглежданият модел съвпада за две извадки, отнасящи се до обекти с различно качество? На този въпрос може да се отговори с помощта на теста Chow.

Нека разгледаме моделите:

, i=1,…,Н (1);

, i=Н+1,…,Н+М (2).

В първата проба Ннаблюдения, във втория - Мнаблюдения. Пример: Yзаплати, обяснителни променливи – възраст, трудов стаж, ниво на образование. Следва ли от наличните данни, че моделът на зависимостта на заплатите от обясняващите променливи от дясната страна е еднакъв за мъжете и жените?

За да проверите тази хипотеза, можете да използвате обща схематестване на хипотези чрез сравняване на ограничена регресия и неограничена регресия. Неограничената регресия тук е обединението на регресии (1) и (2), т.е. ESS UR = ESS 1 + ESS 2, брой степени на свобода – Н + М - 2к. Ограничена регресия (т.е. регресия при предположението, че нулевата хипотеза е изпълнена) ще бъде регресия за целия наличен набор от наблюдения:

, i = 1,…, Н+М (3).

Оценявайки (3), получаваме ЕСС Р. За да тестваме нулевата хипотеза, използваме следните статистики:

Което, ако нулевата хипотеза е вярна, има разпределение на Фишер с броя на степените на свобода на числителя ки знаменател Н+ М- 2к.

Ако нулевата хипотеза е вярна, можем да комбинираме наличните проби в една и да оценим модела за Н+Мнаблюдения. Ако отхвърлим нулевата хипотеза, тогава не можем да обединим двете проби в една и ще трябва да оценим двата модела поотделно.


Изследването на общия линеен модел, който разгледахме по-рано, е много важно, както видяхме, базирано на статистическия апарат. Въпреки това, както при всички приложения на мат. статистика, силата на даден метод зависи от предположенията, които са в основата му и са необходими за неговото прилагане. За известно време ще разгледаме ситуации, при които една или повече от хипотезите, залегнали в основата на линейния модел, са нарушени. В тези случаи ще разгледаме алтернативни методи за оценка. Ще видим, че ролята на някои хипотези е по-значима в сравнение с ролята на други. Трябва да разгледаме до какви последствия може да доведе нарушаването на определени условия (предположения), да можем да проверим дали те са изпълнени или не и да знаем какво статистически методиможе и трябва да се използва, когато класическият метод на най-малките квадрати не е подходящ.

1. Връзката между променливите е линейна и се изразява с уравнението - грешки в спецификацията на модела (невключване на значими обяснителни променливи в уравнението, включване на ненужни променливи в уравнението, неправилен избор на формата на зависимост между променливите);


2. X 1 ,…,Xk– детерминистични променливи – стохастични регресори, линейно независими – пълна мултиколинеарност;

4. - хетероскедастичност;

5. когато i ¹ к– автокорелация на грешките

Преди да започнем разговора, нека разгледаме следните понятия: коефициент на корелация на двойки и коефициент на частична корелация.

Да предположим, че изучаваме ефекта на една променлива върху друга променлива ( Yи X). За да разберем как тези променливи са свързани една с друга, ние изчисляваме коефициента на корелация по двойки, като използваме следната формула:

Ако получим стойност на коефициента на корелация, близка до 1, заключаваме, че променливите са доста силно свързани една с друга.

Въпреки това, ако коефициентът на корелация между две изследвани променливи е близо до 1, те всъщност може да не са зависими. Примерът с психично болните и радиото е пример за така наречената „фалшива корелация“. Високата стойност на корелационния коефициент може да се дължи и на наличието на трета променлива, която има силно влияние върху първите две променливи, което е причината за тяхната висока корелация. Следователно възниква задачата да се изчисли „чистата“ корелация между променливите Xи Y, т.е. корелация, при която е изключено влиянието (линейно) на други променливи. За тази цел се въвежда понятието частичен корелационен коефициент.

И така, искаме да определим частичния коефициент на корелация между променливите Xи Y, като се изключи линейното влияние на променливата З. За да го определите, се използва следната процедура:

1. Ние оценяваме регресията,

2. Получаваме остатъка,

3. Ние оценяваме регресията,

4. Получаваме остатъка,

5. - примерен частичен коефициент на корелация, измерва степента на връзка между променливите Xи Y, изчистени от влиянието на променливата З.

Директни изчисления:

Имот:

Процедурата за конструиране на частичния коефициент на корелация е обобщена за случая, когато искаме да се отървем от влиянието на две или повече променливи.


1. Перфектна мултиколинеарност.

Едно от изискванията на Гаус-Марков ни казва, че обяснителните променливи не трябва да бъдат свързани с никаква точна връзка. Ако съществува такава връзка между променливите, казваме, че има перфектна мултиколинеарност в модела. Пример. Да разгледаме модел със средна оценка от изпита, състоящ се от три обяснителни променливи: аз- доходи на родителите, г- среден брой часове, прекарани в обучение на ден, У- среден брой часове, прекарани в обучение на седмица. Очевидно е, че У=7г. И това съотношение ще бъде изпълнено за всеки студент, който е включен в нашата извадка. Случаят на пълна мултиколинеарност е лесен за проследяване, тъй като в този случай е невъзможно да се конструират оценки с помощта на метода на най-малките квадрати.

2. Частична мултиколинеарност или просто мултиколинеарност.

Много по-честа ситуация е, когато няма точна линейна връзка между обяснителните променливи, но има тясна корелация между тях - този случай се нарича реална или частична мултиколинеарност (просто мултиколинеарност) - съществуването на тесни статистически връзки между променливите. Трябва да се каже, че въпросът за мултиколинеарността е по-скоро въпрос на степента на тежест на явлението, отколкото на неговия тип. Оценката на всяка регресия ще пострада от това под една или друга форма, освен ако всички независими променливи не се окажат напълно некорелирани. Разглеждането на този проблем започва едва когато той започне сериозно да влияе върху резултатите от регресионната оценка (наличието на статистически връзки между регресорите не дава непременно незадоволителни оценки). Така че мултиколинеарността е проблем, когато тясната корелация между регресорите води до ненадеждни регресионни оценки.

Последици от мултиколинеарността:

Формално, тъй като ( X"X) е неизроден, тогава можем да конструираме OLS оценки на регресионните коефициенти. Нека обаче си припомним как се изразяват теоретичните дисперсии на оценките на регресионните коефициенти: , където a ii - iти диагонален елемент на матрицата. Тъй като матрицата (X"X) е близка до сингулярна и det( X"X) » 0, тогава

1) на главния диагонал на обратната матрица има много големи числа, тъй като елементите на обратната матрица са обратно пропорционални на det( X"X). Следователно, теоретичната дисперсия i-тият коефициент е доста голям и оценката на дисперсията също е голяма, следователно, t- статистическите данни са малки, което може да доведе до статистическа незначимост i-ти коефициент. Тоест, променливата има значително влияние върху обяснената променлива и ние заключаваме, че е незначително.

2) Тъй като оценките и зависят от ( X"X) -1 , чиито елементи са обратно пропорционални на det( X"X), тогава ако добавим или премахнем едно или две наблюдения, като по този начин добавим или премахнем един или два реда към матрицата X"X, тогава стойностите и могат да се променят значително, до промяна на знака - нестабилност на резултатите от оценката.

3) Трудност при тълкуването на регресионното уравнение. Да кажем, че имаме две променливи в уравнението, които са свързани една с друга: X 1 и X 2. Коефициент на регресия при X 1 се тълкува като мярка за промяна Yпоради промяна X 1 при равни други условия, т.е. стойностите на всички останали променливи остават същите. Въпреки това, тъй като променливите X 1 и X 2 са свързани, след това промените в променливата X 1 ще доведе до предвидими промени в променливата X 2 и стойност X 2 няма да остане същото.

Пример: , където X 1 – обща площ, X 2 – жилищна площ. Ние казваме: „Ако жилищната площ се увеличи с 1 кв. м., тогава при равни други условия цената на апартамента ще се увеличи с $.“ В този случай обаче жилищната площ ще се увеличи с 1 кв.м. м. и увеличението на цената ще бъде . Разграничете влиянието върху променливата Yвсяка променлива поотделно вече не е възможна. Изходът в тази ситуация с цената на апартамент е да се включи в модела не общата площ, а така наречената „допълнителна“ или „допълнителна“ площ.

Признаци на мултиколинеарност.

Няма точни критерии за определяне наличието (отсъствието) на мултиколинеарност. Има обаче евристични препоръки за идентифицирането му:

1) Анализирайте матрицата от сдвоени коефициенти на корелация между регресорите и ако стойността на коефициента на корелация е близка до 1, тогава това се счита за знак за мултиколинеарност.

2) Анализът на корелационната матрица е само повърхностна преценка за наличието (отсъствието) на мултиколинеарност. По-внимателно проучване на този въпрос се постига чрез изчисляване на частични корелационни коефициенти или изчисляване на коефициентите на определяне на всяка от обяснителните променливи за всички други обяснителни променливи в регресията.

4) (XX) е симетрична положително определена матрица, следователно всички нейни собствени стойности са неотрицателни. Ако детерминантата на матрицата ( XX) е равно на нула, тогава минималната собствена стойност също е нула и непрекъснатостта се запазва. Следователно от стойността на минималната собствена стойност може да се прецени дали детерминантата на матрицата е близка до нула ( XX). В допълнение към това свойство, минималната собствена стойност също е важна, тъй като стандартната грешка на коефициента е обратно пропорционална.

5) Наличието на мултиколинеарност може да се съди по външни признаци, които са следствие от мултиколинеарността:

а) някои от оценките имат неправилни знаци от гледна точка на икономическата теория или необосновано големи стойности;

б) малка промяна в първоначалните икономически данни води до значителна промяна в оценките на коефициентите на модела;

в) мнозинство t- статистиката на коефициентите не се различава значително от нула, в същото време моделът като цяло е значим, както се вижда от високата стойност Е- статистика.

Как да се отървете от мултиколинеарността, как да я премахнете:

1) Използвайте факторен анализ. Преход от първоначалния набор от регресори, включително статистически зависими, към нови регресори З 1 ,…,Змизползвайки метода на главните компоненти - вместо оригиналните променливи, вместо оригиналните променливи, разглеждаме някои от техните линейни комбинации, корелацията между които е малка или изобщо липсва. Задачата тук е да се даде смислена интерпретация на новите променливи З. Ако не успее, се връщаме към оригиналните променливи, използвайки обратни трансформации. Получените оценки обаче ще бъдат пристрастни, но ще имат по-малка дисперсия.

2) Измежду всички налични променливи изберете факторите, които влияят най-съществено на обяснената променлива. Процедурите за подбор ще бъдат разгледани по-долу.

3) Преход към тенденциозни методи за оценка.

Когато сме изправени пред проблема с мултиколинеарността, неопитният изследовател първоначално има желание просто да изключи ненужните регресори, които може да го причиняват. Не винаги обаче е ясно кои променливи са излишни в този смисъл. В допълнение, както ще бъде показано по-долу, отхвърлянето на така наречените значително влияещи променливи води до отклонение в оценките на OLS.

Интеркорелационни коефициенти(т.е. силата на връзката между обяснителните променливи) позволява излишните фактори да бъдат елиминирани от регресионния модел. Две променливи са ясно колинеарни, когато са линейно свързани една с друга, ако коефициентът на корелация е > 0,7.

Тъй като едно от условията за намиране на уравнение на множествена регресия е независимостта на факторите, колинеарността на факторите нарушава това условие. Ако факторите на модела са колинеарни , тогава те се дублират взаимно и е препоръчително да изключите един от тях от регресията.

Предпочитание в иконометрията се дава не на фактора, който е по-силно свързан с резултата, а на фактора, който, въпреки че е силно свързан с резултата, има най-малко тясна връзка с други фактори. Тези. коефициентът на корелация между факторите е по-малък от 0,3 или в идеалния случай близо до нула. Това условие разкрива спецификата на множествената регресия като метод за изследване на комплексното влияние на факторите върху резултата в условия на тяхната независимост един от друг.

Матрица от двойни коефициенти на корелация

Нека, например, при изучаване на зависимостта y = f(x, z, v) се оказа следното:

Факторите x и z се дублират взаимно, защото връзката между тях е силна (повече от 0,7). Необходимо е в анализа да се включи фактор z, а не x, тъй като корелацията на z с резултата y е по-слаба от корелацията на фактор x с y, но междуфакторната връзка Rzv е много по-слаба< Rxv. Поэтому в этой задаче в включаем факторы z, v

Мултиколинеарност на факторите

Въз основа на величината на коефициентите на двойна корелация се разкрива само очевидна колинеарност на факторите. Най-големите трудности при използването на апарата за множествена регресия възникват, когато има мултиколинеарност на факторите, когато повече от два фактора са свързани помежду си с линейна (силна) зависимост, т.е. има интегрално (съвместно) влияние на факторите един върху друг.

Наличие на мултиколинеарност на факторитеозначава, че някои фактори винаги ще действат в синхрон. В резултат на това изходните данни вече не са напълно независими и е невъзможно да се оцени въздействието на всеки фактор поотделно. Колкото по-силна е мултиколинеарността на факторите, толкова по-малко надеждна е оценката на разпределението на количеството вариация между отделните фактори, използвайки метода на най-малките квадрати (OLS).

Включването на мултиколинеарни фактори в модела е отрицателно поради следните последствия:

  • интерпретацията на параметрите на множествената регресия като величини на действието на факторите е сложна, т.к факторите са корелирани - регресионните параметри губят икономически смисъл и решението на контролния тест в иконометрията трябва да бъде спряно и да се вземат предвид други фактори
  • оценките на параметрите са ненадеждни, имат големи стандартни грешки и се променят с обема на наблюденията, което прави регресионния модел неподходящ за прогнозиране.

Оценка на мултиколинеарността на факторите

Да се ​​оцени мултиколинеарността на факторите можете да използвате детерминантата на матрицата от сдвоени корелационни коефициенти. Ако факторите изобщо не корелираха помежду си, тогава матрицата на коефициентите на двойна корелация между факторите би била единица, тъй като всички елементи извън диагонала биха били равни на нула. Така за уравнението, включващо три фактора

матрицата между факторите би имала резултат равен на единица.

Ако факторите са абсолютно определени линейна зависимости всички коефициенти на корелация са равни на едно, тогава детерминантата (детерминанта) на такава матрица е равна на нула. Колкото по-близо до нула е детерминантата на междуфакторната корелационна матрица, толкова по-силна е мултиколинеарността на факторите и толкова по-ненадеждни са резултатите от множествената регресия. Колкото по-близо до единица са детерминантите (детерминантата) на междуфакторната корелационна матрица, толкова по-малка е мултиколинеарността на факторите.

Външен признак за наличието на мултиколинеарност са твърде големите стойности на матричните елементи (X T X)~ 1 .Повече дефиниция на матрицата (X T X) Xи употребата му вижте гл. 4, параграф 4.2.

Основният признак на мултиколинеарност:детерминанта на корелационната матрица R x x.близо до нулата. Ако всички обяснителни променливи не са корелирани една с друга, тогава R XjX .| = 1, в противен случай 0 R x . х. |

Има няколко признака, по които може да се определи наличието на мултиколинеарност.

  • 1. Коефициент на детерминация К 2доста висока, висока f-статистика, но някои (понякога всички) от коефициентите на уравнението на множествената линейна регресия са статистически незначими (имат ниска 7-статистика).
  • 2. Високи коефициенти на двойна корелация и високи частични коефициенти на корелация.

Определение 7.1.Частичен коефициент на корелациясе нарича коефициент на корелация между две обяснителни променливи, „изчистени“ от влиянието на други променливи.

Например с три обяснителни променливи X 1y X 2, X 3частичен коефициент на корелация между X (и X 3, "пречистен" от X 2, се изчислява по формулата

Забележка 7.2.Частичният коефициент на корелация може да се различава значително от „обичайния“ (сдвоен) коефициент на корелация. За по-разумно заключение относно корелацията между двойки обяснителни променливи е необходимо да се изчислят всички частични коефициенти на корелация.

Общ израз за определяне на частичния корелационен коефициент

Къде Cjj-матрични елементи СЪС = R~ x -матрица, обратна на корелационната матрица на междуфакторната двойка R VjX . (7.1).

  • 3. Силна регресия между обяснителните променливи. Всяка от обяснителните променливи е комбинация от други обяснителни променливи (линейни или почти линейни).
  • 4. Знаците на регресионните коефициенти са противоположни на очакваните от икономическите предпоставки.
  • 5. Добавянето или премахването на наблюдения от извадката значително променя стойностите на оценките.

Нека да разгледаме няколко примера, за да илюстрираме горното.

Пример 7.4

За обема на производството приВлияят следните основни фактори: x x- броя на служителите, работещи в предприятието; х 2- себестойност на дълготрайните активи; х 3- средна заплата на служителите. Уравнението на линейната множествена регресия има формата y = b 0 + b ( x x + b 2 x 2 + b 3 x 3 .

Матрица от двойни коефициенти на корелация за този модел

Матрична детерминанта |D | = 0,302. В този модел факторите и х 2,и също X (и х 3факторите са слабо свързани, напротив, х 2и х 3са силно свързани: r^z =0,8. Вероятна силна връзка между факторите х 2и х лТова се обяснява с факта, че висококвалифицираните работници с по-високи заплати работят на скъпо оборудване.

Сдвоените коефициенти на корелация на получената променлива с факторите се оказаха равни: t yY| =0,7; g ъъъ.^ =0,8; g uhz=0,75. Пълната матрица на двойните коефициенти на корелация има формата

Всички фактори оказват значително влияние върху резултата. Тъй като регресионният модел трябва да включва фактори, които са тясно свързани с резултата и слабо свързани помежду си, в този пример два регресионни модела са подходящи едновременно: y, = f(x v x 2) и y 2 = f(x v x 3).

Пример 7.5

Нека установим наличието на мултиколинеарност за примерните данни, дадени в табл. 7.2.

Входни данни за пример 7.2

Таблица 7.2

X,

Решение.Сдвоените коефициенти на корелация, изчислени по формула (7.2), са дадени в табл. 7.3.

Таблица 73

Сдвоени коефициенти на корелация

От данните, дадени в таблицата, става ясно, че има силна корелация между променливите.G[ и х 2.Коефициентите на корелация по двойки също могат да бъдат определени с помощта на инструмента за анализ. Microsoft Excel (инструмент за корелация),

Нека проверим връзката между обяснените и обяснителните променливи; за това ще използваме инструмента „Корелация“. Microsoft Excel(можете да изчислите коефициентите на корелация g X1/,използвайки формула (7.2)). Резултатите са представени на фиг. 7.1.


ориз. 7.1.Резултати от изчисляване на корелацията между обяснените и обяснителните променливи в Microsoft Excel

Нека изчислим коефициентите на частична корелация, използвайки формула (7.4), тъй като в този пример има само три обяснителни променливи (можете да намерите коефициентите на частична корелация, използвайки формула (7.5), като първо сте намерили обратна матрица C=R():

Най-голям се оказа частичният коефициент на корелация между променливите x x има 2 от тях.Частичен коефициент на корелация g XxX ^ X2най-малкият и противоположен по знак на коефициента на двойката g x x.

отговор.Има силна корелация между променливите в модела x xи х 2.

Преглед