Tau от Kendall, което е достатъчен размер на извадката. Коефициенти на рангова корелация на Spearman, Kendall, коефициент на Fechner. Решаването на тези две уравнения дава

Потребностите на икономическата и социалната практика изискват разработването на методи за количествено описание на процесите, които дават възможност за точно записване не само на количествени, но и на качествени фактори. При условие, че стойностите на качествените характеристики могат да бъдат подредени или класирани според степента на намаляване (увеличаване) на характеристиката, е възможно да се оцени близостта на връзката между качествените характеристики. Под качествени имаме предвид характеристика, която не може да бъде измерена точно, но ви позволява да сравнявате обекти помежду си и следователно да ги подреждате в ред на намаляване или нарастване на качеството. И истинското съдържание на измерванията в скалите за ранг е редът, в който обектите са подредени според степента на изразяване на характеристиката, която се измерва.

За практически цели използвайте рангова корелациямного полезно. Например, ако се установи корелация с висок ранг между две качествени характеристики на продуктите, тогава е достатъчно продуктите да се контролират само по една от характеристиките, което намалява разходите и ускорява контрола.

Като пример можем да разгледаме наличието на връзка между наличието на търговски продукти на редица предприятия и режийните разходи за продажби. В хода на 10 наблюдения се получи следната таблица:

Нека подредим стойностите на X във възходящ ред и на всяка стойност ще бъде присвоен нейният сериен номер (ранг):

по този начин

Нека изградим следната таблица, в която са записани двойките X и Y, получени в резултат на наблюдение с техните рангове:

Означавайки разликата в ранга като, ние записваме формулата за изчисляване на примерния коефициент на корелация на Спирман:

където n е броят на наблюденията, който също е броят на двойките рангове.

Коефициентът на Спирман има следните свойства:

Ако има пълна пряка връзка между качествените характеристики X и Y в смисъл, че ранговете на обектите съвпадат за всички стойности на i, тогава примерният коефициент на корелация на Спирман е равен на 1. Наистина, замествайки го във формулата, получаваме 1.

Ако има пълна обратна връзка между качествените характеристики X и Y в смисъл, че рангът съответства на ранга, тогава коефициентът на корелация на Спирман е равен на -1.

Наистина, ако

Като заместим стойността във формулата на коефициента на корелация на Спирман, получаваме -1.

Ако няма нито пълна права линия, нито пълна обратна връзка, тогава примерният коефициент на корелация на Спирман е между -1 и 1 и колкото по-близка е стойността му до 0, толкова по-малка е връзката между характеристиките.

Използвайки данните от горния пример, ще намерим стойността на P; ще попълним таблицата със стойностите и:

Примерен коефициент на корелация на Kendall. Можете да оцените връзката между две качествени характеристики, като използвате коефициента на рангова корелация на Kendall.

Нека ранговете на обектите в извадка с размер n са равни на:

по характеристика X:

по характеристика Y: . Да приемем, че вдясно има редици, големи, вдясно има редици, големи, вдясно има редици, големи. Нека въведем обозначението за сумата от ранговете

По подобен начин въвеждаме нотацията като сбор от броя на ранговете, лежащи вдясно, но по-малки.

Примерният коефициент на корелация на Kendall се записва като:

Където n е размерът на извадката.

Коефициентът на Кендъл има същите свойства като коефициента на Спирман:

Ако има пълна пряка връзка между качествените характеристики X и Y в смисъл, че ранговете на обектите съвпадат за всички стойности на i, тогава примерният коефициент на корелация на Кендъл е равен на 1. Наистина, вдясно има n -1 редици, големи, следователно, по същия начин установяваме, Какво. Тогава. И коефициентът на Кендъл е равен на: .

Ако има пълна обратна връзка между качествените характеристики X и Y в смисъл, че рангът съответства на ранга, тогава примерният коефициент на корелация на Kendall е равен на -1. Няма по-високи рангове вдясно, затова. По същия начин. Замествайки стойността R+=0 във формулата за коефициента на Кендъл, получаваме -1.

При достатъчно голям размер на извадката и със стойности на коефициентите на рангова корелация, които не са близки до 1, има приблизително равенство:

Коефициентът на Кендъл предоставя ли по-консервативна оценка на корелацията от коефициента на Спирман? (числова стойност? винаги по-малко от). Въпреки че изчисляването на коефициента? по-малко трудоемко от изчисляването на коефициента; последният е по-лесен за преизчисляване, ако към серията се добави нов член.

Важно предимство на коефициента е, че той може да се използва за определяне на коефициента на частична рангова корелация, което позволява да се оцени степента на „чиста“ връзка между две характеристики на класиране, елиминирайки влиянието на третата:

Значение на коефициентите на рангова корелация. Когато се определя силата на ранговата корелация от извадкови данни, трябва да се разгледа следният въпрос: колко уверено може да се разчита на заключението, че съществува корелация в популацията, ако се получи определен коефициент на рангова корелация на извадката. С други думи, значимостта на наблюдаваните рангови корелации трябва да се тества въз основа на хипотезата за статистическа независимост на двете разглеждани класации.

При относително голям размер на извадката n, проверката на значимостта на коефициентите на рангова корелация може да се извърши с помощта на таблицата за нормално разпределение (Таблица 1 в допълнение). За да проверите значението на коефициента на Спирман? (за n>20) изчислете стойността

и да тестваме значимостта на коефициента на Кендъл? (за n>10) изчислете стойността

където S=R+- R-, n - размер на извадката.

След това те задават нивото на значимост?, определят критичната стойност tcr(?,k) от таблицата на критичните точки на разпределението на Стюдънт и сравняват изчислената стойност или с нея. Броят на степените на свобода се приема за k = n-2. Ако или > tcr, тогава стойностите или се считат за значими.

Коефициент на корелация на Фехнер.

И накрая, трябва да споменем коефициента на Фехнер, който характеризира елементарната степен на близост на връзката, която е препоръчително да се използва за установяване на съществуването на връзка, когато има малко количество първоначална информация. Основата на неговото изчисляване е отчитане на посоката на отклонения от средноаритметичното на всяка вариационна серия и определяне на съответствието на знаците на тези отклонения за двете серии, връзката между които се измерва.

Този коефициент се определя по формулата:

където na е броят на съвпаденията на знаците за отклонения на отделните стойности от тяхната средна аритметична стойност; nb - съответно броят на несъответствията.

Коефициентът на Фехнер може да варира в рамките на -1,0<= Кф<= +1,0.

Приложни аспекти на ранговата корелация. Както вече беше отбелязано, коефициентите на рангова корелация могат да се използват не само за качествен анализ на връзката между две характеристики на ранга, но и за определяне на силата на връзката между ранг и количествени характеристики. В този случай стойностите на количествената характеристика се подреждат и им се присвояват съответните рангове.

Има редица ситуации, когато изчисляването на коефициентите на рангова корелация също е препоръчително, когато се определя силата на връзката между две количествени характеристики. По този начин, ако разпределението на едно от тях (или и двете) значително се отклонява от нормалното разпределение, определянето на нивото на значимост на извадковия коефициент на корелация r става неправилно, докато ранговите коефициенти? и? не подлежат на такива ограничения при определяне на нивото на значимост.

Друга ситуация от този вид възниква, когато връзката между две количествени характеристики е нелинейна (но монотонна) по природа. Ако броят на обектите в извадката е малък или ако знакът на връзката е важен за изследователя, тогава използвайте корелационна връзка? може да е недостатъчно тук. Изчисляването на коефициента на рангова корелация позволява да се заобиколят тези трудности.

Практическа част

Задача 1. Корелационен и регресионен анализ

Постановка и формализиране на проблема:

Дава се емпирична извадка, съставена въз основа на множество наблюдения на състоянието на оборудването (за повреда) и броя на произведените изделия. Извадката имплицитно характеризира връзката между обема на повреденото оборудване и броя на произведените продукти. Според смисъла на извадката е ясно, че произведените продукти се произвеждат на оборудването, което остава в експлоатация, тъй като колкото по-висок е процентът на повреденото оборудване, толкова по-малко произведени продукти. Необходимо е да се проведе изследване на извадката за корелационно-регресионна зависимост, т.е. да се установи формата на зависимостта, да се оцени регресионната функция (регресионен анализ), както и да се идентифицира връзката между случайни променливи и да се оцени нейната плътност (корелация анализ). Допълнителна задача на корелационния анализ е да се оцени регресионното уравнение на една променлива спрямо друга. Освен това е необходимо да се предвиди броят на произведените продукти при 30% повреда на оборудването.

Нека формализираме дадената извадка в таблицата, обозначавайки данните „Повреда на оборудването, %“ като X, данните „Брой продукти“ като Y:

Изходни данни. Таблица 1

От физическия смисъл на проблема става ясно, че броят на произведените продукти Y директно зависи от процента на отказ на оборудването, т.е. има зависимост на Y от X. При извършване на регресионен анализ е необходимо да се намери математическа връзка (регресия), свързваща стойностите на X и Y. В този случай регресионният анализ, за ​​разлика от корелацията, предполага, че стойността X действа като независима променлива или фактор, стойността Y - като зависима променлива или ефективен атрибут. Така е необходимо да се синтезира адекватен икономико-математически модел, т.е. определете (намерете, изберете) функцията Y = f(X), характеризираща връзката между стойностите на X и Y, използвайки която ще бъде възможно да се предвиди стойността на Y при X = 30. Решението на този проблем може да се извърши с помощта на корелационно-регресионен анализ.

Кратък преглед на методите за решаване на корелационно-регресионни задачи и обосновка на избрания метод за решаване.

Методите за регресионен анализ въз основа на броя на факторите, влияещи върху получената характеристика, се разделят на едно- и многофакторни. Еднофакторно - брой независими фактори = 1, т.е. Y = F(X)

многофакторни - брой фактори > 1, т.е.

Въз основа на броя на изследваните зависими променливи (резултатни характеристики), регресионните проблеми могат също да бъдат разделени на проблеми с една и много резултатни характеристики. Като цяло може да се напише проблем с много ефективни характеристики:

Методът на корелационно-регресионния анализ се състои в намирането на параметрите на апроксимиращата (апроксимираща) зависимост на формата

Тъй като горният проблем включва само една независима променлива, т.е. изследва се зависимостта само от един фактор, влияещ върху резултата, трябва да се използва изследване на еднофакторна зависимост или сдвоена регресия.

Ако има само един фактор, зависимостта се определя като:

Формата на писане на конкретно регресионно уравнение зависи от избора на функция, която показва статистическата връзка между фактора и получената характеристика и включва следното:

линейна регресия, уравнение на формата,

параболично, уравнение на формата

кубично, уравнение на формата

хиперболично, уравнение на формата

полулогаритмично, уравнение на формата

експоненциално, уравнение на формата

степенно уравнение на формата.

Намирането на функцията се свежда до определяне на параметрите на регресионното уравнение и оценка на надеждността на самото уравнение. За да определите параметрите, можете да използвате както метода на най-малките квадрати, така и метода на най-малкия модул.

Първият от тях е да се гарантира, че сумата от квадратите на отклоненията на емпиричните стойности на Yi от изчислената средна стойност на Yi е минимална.

Методът на най-малките модули се състои в минимизиране на сумата от модулите на разликата между емпиричните стойности на Yi и изчислената средна Yi.

За да решим проблема, ще изберем метода на най-малките квадрати, тъй като той е най-простият и дава добри оценки по отношение на статистически свойства.

Технология за решаване на задачата на регресионния анализ по метода на най-малките квадрати.

Можете да определите вида на връзката (линейна, квадратична, кубична и т.н.) между променливите, като оцените отклонението на действителната стойност y от изчислената:

където са емпирични стойности, са изчислени стойности с помощта на апроксимиращата функция. Чрез оценяване на стойностите на Si за различни функции и избиране на най-малката от тях, ние избираме апроксимираща функция.

Типът на определена функция се определя чрез намиране на коефициентите, които се намират за всяка функция като решение на определена система от уравнения:

линейна регресия, уравнение на формата, система -

параболичен, уравнение на формата, система -

куб, уравнение на формата, система -

След като решим системата, намираме, с помощта на която стигаме до конкретен израз на аналитичната функция, имайки който, намираме изчислените стойности. След това има всички данни за намиране на оценка на величината на отклонението S и анализиране на минимума.

За линейна връзка оценяваме близостта на връзката между фактор X и получената характеристика Y под формата на корелационния коефициент r:

Средна стойност на показателя;

Средна стойност на фактора;

y е експерименталната стойност на показателя;

x е експерименталната стойност на фактора;

Стандартно отклонение в x;

Стандартно отклонение в y.

Ако коефициентът на корелация е r = 0, тогава се счита, че връзката между характеристиките е незначителна или липсва; ако r = 1, тогава има много висока функционална връзка между характеристиките.

Използвайки таблицата Chaddock, можете да направите качествена оценка на близостта на корелацията между характеристиките:

Таблица на Chaddock Таблица 2.

За нелинейна зависимост се определят коефициентът на корелация (0 1) и индексът на корелация R, които се изчисляват от следните зависимости.

където стойността е стойността на показателя, изчислена от регресионната зависимост.

За да оценим точността на изчисленията, използваме стойността на средната относителна грешка на приближението

С висока точност е в диапазона 0-12%.

За да оценим избора на функционалната зависимост, използваме коефициента на детерминация

Коефициентът на детерминация се използва като „обобщена“ мярка за качеството на съответствие на функционален модел, тъй като той изразява връзката между фактора и общата дисперсия, или по-точно, дела на факторната дисперсия в общата сума.

За оценка на значимостта на корелационния индекс R се използва F-тестът на Фишер. Действителната стойност на критерия се определя по формулата:

където m е броят на параметрите на регресионното уравнение, n е броят на наблюденията. Стойността се сравнява с критичната стойност, която се определя от таблицата на F-критериите, като се вземат предвид приетото ниво на значимост и броя на степените на свобода и. Ако, тогава стойността на индекса на корелация R се счита за значима.

За избраната форма на регресия се изчисляват коефициентите на регресионното уравнение. За удобство резултатите от изчисленията са включени в таблица със следната структура (като цяло броят на колоните и техният тип варират в зависимост от вида на регресията):

Таблица 3

Разрешаване на проблема.

Наблюдава се един икономически феномен - зависимостта на продукцията от процента на повреда на оборудването. Получава се набор от стойности.

Избраните стойности са описани в таблица 1.

Изграждаме графика на емпиричната зависимост на базата на дадения образец (фиг. 1)

Въз основа на външния вид на графиката определяме, че аналитичната зависимост може да бъде представена като линейна функция:

Нека изчислим коефициента на корелация на двойката, за да оценим връзката между X и Y:

Нека изградим помощна таблица:

Таблица 4

Решаваме системата от уравнения, за да намерим коефициентите и:

от първото уравнение, замествайки стойността

във второто уравнение получаваме:

Ние намираме

Получаваме формата на регресионното уравнение:

9. За да оценим плътността на намерената връзка, използваме коефициента на корелация r:

Използвайки таблицата на Chaddock, установяваме, че за r = 0,90 връзката между X и Y е много висока, следователно надеждността на регресионното уравнение също е висока. За да оценим точността на изчисленията, използваме стойността на средната относителна грешка на приближението:

Вярваме, че стойността осигурява висока степен на надеждност на регресионното уравнение.

За линейна зависимост между X и Y, индексът на детерминация е равен на квадрата на корелационния коефициент r: . Следователно, 81% от общата вариация се обяснява с промени във факторната черта X.

За оценка на значимостта на корелационния индекс R, който при линейна зависимост е равен по абсолютна стойност на корелационния коефициент r, се използва F-тестът на Fisher. Определяме действителната стойност по формулата:

където m е броят на параметрите на регресионното уравнение, n е броят на наблюденията. Тоест n = 5, m = 2.

Като вземем предвид приетото ниво на значимост =0,05 и броя на степените на свобода, получаваме критичната таблична стойност. Тъй като стойността на индекса на корелация R се счита за значима.

Нека изчислим прогнозираната стойност на Y при X = 30:

Нека начертаем намерената функция:

11. Определете грешката на коефициента на корелация по стойността на стандартното отклонение

и след това определяне на стойността на нормираното отклонение

От съотношение > 2 с вероятност от 95% можем да говорим за значимостта на резултантния коефициент на корелация.

Задача 2. Линейна оптимизация

Вариант 1.

Регионалният план за развитие предвижда въвеждането в експлоатация на 3 нефтени находища с общ обем на добив от 9 милиона тона. При първото находище обемът на добива е най-малко 1 милион тона, при второто - 3 милиона тона, при третото - 5 милиона тона. За да се постигне такава производителност е необходимо да се пробият най-малко 125 сондажа. За изпълнение на този план са отпуснати 25 милиона рубли. капитални инвестиции (показател K) и 80 км тръби (показател L).

Необходимо е да се определи оптималният (максимален) брой кладенци, за да се осигури планираната производителност на всяко поле. Изходните данни за задачата са дадени в таблицата.

Изходни данни

Изложението на проблема е дадено по-горе.

Нека формализираме условията и ограниченията, посочени в проблема. Целта на решаването на този оптимизационен проблем е да се намери максималната стойност на добива на нефт с оптимален брой кладенци за всяко поле, като се вземат предвид съществуващите ограничения на проблема.

Целевата функция, в съответствие с изискванията на проблема, ще приеме формата:

където е броят на кладенците за всяко поле.

Съществуващи ограничения на задачите за:

дължина на полагане на тръбата:

брой кладенци във всяко поле:

цена на изграждане на 1 кладенец:

Проблемите с линейната оптимизация се решават например чрез следните методи:

Графично

Симплексен метод

Използване графичен методудобен само при решаване на задачи за линейна оптимизация с две променливи. При по-голям брой променливи е необходимо да се използва алгебричен апарат. Нека разгледаме общ метод за решаване на проблеми с линейна оптимизация, наречен симплексен метод.

Симплексният метод е типичен пример за итеративни изчисления, използвани при решаването на повечето оптимизационни проблеми. Ние разглеждаме итеративни процедури от този вид, които предоставят решения на проблеми, използвайки модели за изследване на операциите.

За решаване на оптимизационна задача с помощта на симплексния метод е необходимо броят на неизвестните Xi да бъде по-голям от броя на уравненията, т.е. система от уравнения

удовлетворява отношението m

A=е равно на m.

Нека обозначим колоната на матрицата A като, а колоната от свободни членове като

Основното решение на система (1) е набор от m неизвестни, които са решение на система (1).

Накратко алгоритъмът на симплексния метод е описан, както следва:

Оригиналното ограничение, написано като неравенство на типа<= (=>) може да се изрази като равенство чрез добавяне на остатъчната променлива към лявата страна на ограничението (изваждане на излишната променлива от лявата страна).

Например от лявата страна на оригиналното ограничение

въвежда се остатъчна променлива, в резултат на което първоначалното неравенство се превръща в равенство

Ако първоначалното ограничение определя скоростта на потока на тръбите, тогава променливата трябва да се тълкува като остатъка или неизползваната част от този ресурс.

Максимизирането на целева функция е еквивалентно на минимизиране на същата функция, взета с обратен знак. Тоест в нашия случай

еквивалент

Компилира се симплексна таблица за основно решение със следната форма:

Тази таблица показва, че след решаването на проблема тези клетки ще съдържат основното решение. - частни от деление на колона на една от колоните; - допълнителни множители за нулиране на стойности в клетките на таблицата, свързани с колоната за разделителна способност. - минимална стойност на целевата функция -Z, - стойности на коефициентите в целевата функция за неизвестни.

Всяка положителна стойност се намира сред стойностите. Ако това не е така, тогава проблемът се счита за разрешен. Изберете която и да е колона от таблицата, която съдържа, тази колона се нарича „разрешителна“ колона. Ако сред елементите на разделителната колона няма положителни числа, тогава задачата е неразрешима поради неограничеността на целевата функция върху множеството от нейните решения. Ако има положителни числа в колоната за разделителна способност, преминете към стъпка 5.

Колоната се попълва с дроби, чиито числител са елементите на колоната, а знаменателят са съответните елементи на разрешаващата колона. Избира се най-малката от всички стойности. Линията, която произвежда най-малката, се нарича "разрешаваща" линия. В пресечната точка на разрешаващия ред и разрешаващата колона се намира разделящ елемент, който е подчертан по някакъв начин, например с цвят.

Въз основа на първата симплексна таблица се съставя следващата, в която:

Заменя вектор ред с вектор колона

разрешаващият низ се заменя със същия низ, разделен на разрешаващия елемент

всеки от останалите редове на таблицата се заменя със сбора на този ред с разрешаващия, умножен по специално избран допълнителен коефициент, за да се получи 0 в клетката на разрешаващата колона.

Препращаме към точка 4 с новата таблица.

Разрешаване на проблема.

Въз основа на формулировката на проблема имаме следната система от неравенства:

и целева функция

Нека преобразуваме системата от неравенства в система от уравнения, като въведем допълнителни променливи:

Нека намалим целевата функция до нейния еквивалент:

Нека изградим първоначалната симплексна таблица:

Нека изберем колоната за разделителна способност. Нека изчислим колоната:

Въвеждаме стойностите в таблицата. Като използваме най-малкото от тях = 10, определяме низа за разделителна способност: . В пресечната точка на разрешаващия ред и разрешаващата колона намираме разделящия елемент = 1. Попълваме част от таблицата с допълнителни фактори, така че: разрешаващият ред, умножен по тях, добавен към останалите редове на таблицата, образува 0s в елементите на разрешаващата колона.

Нека създадем втората симплексна таблица:

В него вземаме колоната за резолюция, изчисляваме стойностите и ги въвеждаме в таблицата. Като минимум получаваме разделителната линия. Разрешаващият елемент ще бъде 1. Намираме допълнителни фактори и попълваме колоните.

Създаваме следната симплексна таблица:

По подобен начин намираме разрешаващата колона, разрешаващият ред и разрешаващият елемент = 2. Изграждаме следната симплексна таблица:

Тъй като няма положителни стойности в линията -Z, тази таблица е крайна. Първата колона дава желаните стойности на неизвестните, т.е. оптимално основно решение:

В този случай стойността на целевата функция е -Z = -8000, което е еквивалентно на Zmax = 8000. Проблемът е решен.

Задача 3. Клъстерен анализ

Постановка на проблема:

Разделете обекти въз основа на данните, дадени в таблицата. Изберете сами метод за решение и изградете графика на зависимост от данни.

Вариант 1.

Изходни данни

Преглед на методите за решаване на този тип проблеми. Обосновка на метода на решение.

Проблемите с клъстерния анализ се решават чрез следните методи:

Методът на обединение или дървовидно клъстериране се използва при формирането на клъстери за "несходство" или "разстояние между обекти". Тези разстояния могат да бъдат определени в едномерно или многомерно пространство.

Двупосочно свързване се използва (сравнително рядко) при обстоятелства, при които данните се интерпретират не от гледна точка на „обекти“ и „свойства на обекта“, а от гледна точка на наблюдения и променливи. Както наблюденията, така и променливите се очаква да допринесат едновременно за откриването на значими клъстери.

Метод на K-средствата. Използва се, когато вече има хипотеза относно броя на клъстерите. Можете да кажете на системата да формира точно, например, три клъстера, така че да са възможно най-различни. Като цяло методът на K-средните конструира точно K различни клъстера, разположени на възможно най-голямо разстояние един от друг.

Съществуват следните методи за измерване на разстояния:

Евклидово разстояние. Това е най-често срещаният тип разстояние. Това е просто геометрично разстояние в многомерно пространство и се изчислява, както следва:

Имайте предвид, че евклидовото разстояние (и неговият квадрат) се изчислява от оригиналните данни, а не от стандартизираните данни.

Разстояние от градски блок (разстояние от Манхатън). Това разстояние е просто средната стойност на разликите в координатите. В повечето случаи тази мярка за разстояние дава същите резултати като обикновеното евклидово разстояние. Отбелязваме обаче, че за тази мярка влиянието на индивидуалните големи разлики (отклонения) е намалено (тъй като те не са повдигнати на квадрат). Разстоянието Манхатън се изчислява по формулата:

Чебишевско разстояние. Това разстояние може да бъде полезно, когато желаете да дефинирате два обекта като "различни", ако се различават по която и да е координата (във което и да е измерение). Разстоянието Чебишев се изчислява по формулата:

Силово разстояние. Понякога желаете прогресивно да увеличите или намалите теглата, свързани с измерение, за което съответните обекти са много различни. Това може да се постигне чрез степенно разстояние. Разстоянието на мощността се изчислява по формулата:

където r и p са дефинирани от потребителя параметри. Няколко примерни изчисления могат да покажат как „работи“ тази мярка. Параметърът p е отговорен за постепенното претегляне на разликите по отделните координати, параметърът r е отговорен за прогресивното претегляне на големи разстояния между обектите. Ако и двата параметъра r и p са равни на две, то това разстояние съвпада с евклидовото разстояние.

Процент на несъгласие. Тази мярка се използва, когато данните са категорични. Това разстояние се изчислява по формулата:

За да разрешим проблема, ще изберем метода на обединяване (групиране на дърво) като този, който най-добре отговаря на условията и формулировката на проблема (разделяне на обекти). От своя страна методът на присъединяване може да използва няколко варианта на комуникационни правила:

Единична връзка (метод на най-близкия съсед). При този метод разстоянието между два клъстера се определя от разстоянието между двата най-близки обекта (най-близки съседи) в различни клъстери. Тоест всеки два обекта в два клъстера са по-близо един до друг от съответното комуникационно разстояние. Това правило трябва, в известен смисъл, да свързва обекти заедно, за да образуват клъстери, а получените клъстери са склонни да бъдат представени от дълги "вериги".

Пълна връзка (метод на най-отдалечените съседи). При този метод разстоянията между клъстерите се определят от най-голямото разстояние между всеки два обекта в различни клъстери (т.е. „най-отдалечени съседи“).

Съществуват и много други методи за свързване на клъстери като тези (например непретеглено свързване по двойки, претеглено свързване по двойки и т.н.).

Технология на метода на решение. Изчисляване на показатели.

На първата стъпка, когато всеки обект е отделен клъстер, разстоянията между тези обекти се определят от избраната мярка.

Тъй като в задачата не са посочени мерните единици на характеристиките, се приема, че те съвпадат. Следователно, няма нужда да нормализираме изходните данни, така че веднага пристъпваме към изчисляване на матрицата на разстоянието.

Разрешаване на проблема.

Нека изградим графика на зависимостта въз основа на първоначалните данни (Фигура 2)

Ще приемем обичайното Евклидово разстояние като разстояние между обектите. След това по формулата:

където l са знаци; k е броят на характеристиките, разстоянието между обекти 1 и 2 е равно на:

Продължаваме да изчисляваме оставащите разстояния:

Нека изградим таблица от получените стойности:

Най-късото разстояние. Това означава, че комбинираме елементи 3,6 и 5 в един клъстер. Получаваме следната таблица:

Най-късото разстояние. Елементи 3,6,5 и 4 се комбинират в един клъстер Получаваме таблица от два клъстера:

Минималното разстояние между елементи 3 и 6 е равно. Това означава, че елементи 3 и 6 са комбинирани в един клъстер. Избираме максималното разстояние между новосформирания клъстер и останалите елементи. Например разстоянието между клъстер 1 и клъстер 3.6 е max(13.34166, 13.60147)= 13.34166. Нека създадем следната таблица:

В него минималното разстояние е разстоянието между клъстери 1 и 2. Комбинирайки 1 и 2 в един клъстер, получаваме:

Така, използвайки метода на „отдалечения съсед“, получихме два клъстера: 1,2 и 3,4,5,6, разстоянието между които е 13.60147.

Проблемът е решен.

Приложения. Разрешаване на проблеми с помощта на пакети с приложения (MS Excel 7.0)

Задача за корелационен и регресионен анализ.

Въвеждаме първоначалните данни в таблицата (фиг. 1)

Изберете менюто „Услуга / Анализ на данни“. В прозореца, който се показва, изберете реда „Регресия“ (фиг. 2).

Нека да зададем входните интервали в X и Y в следващия прозорец, да оставим нивото на надеждност на 95% и да поставим изходните данни на отделен лист „Отчетен лист“ (фиг. 3)

След изчислението получаваме окончателните данни за регресионен анализ на листа „Отчетен лист“:

Тук също се показва точкова диаграма на апроксимиращата функция или „Fit Graph“:


Изчислените стойности и отклонения се показват в таблицата съответно в колоните „Предвидено Y“ и „Остатъци“.

Въз основа на първоначалните данни и отклонения се изгражда остатъчна графика:

Проблем с оптимизацията


Въвеждаме първоначалните данни, както следва:

Въвеждаме необходимите неизвестни X1, X2, X3 съответно в клетки C9, D9, E9.

Коефициентите на целевата функция за X1, X2, X3 се въвеждат съответно в C7, D7, E7.

Въвеждаме целевата функция в клетка B11 ​​като формулата: =C7*C9+D7*D9+E7*E9.

Съществуващи ограничения на задачите

За дължина на полагане на тръбата:

въведете клетки C5, D5, E5, F5, G5

Брой кладенци във всяко поле:

X3 £ 100; въведете клетки C8, D8, E8.

Цената на изграждането на 1 кладенец:

въведете клетки C6, D6, E6, F6, G6.

Формулата за изчисляване на общата дължина C5*C9+D5*D9+E5*E9 се поставя в клетка B5, формулата за изчисляване на общата цена C6*C9+D6*D9+E6*E9 се поставя в клетка B6.


Изберете от менюто „Услуга/Търсене на решение“, въведете параметри за търсене на решение в съответствие с въведените изходни данни (фиг. 4):

Чрез бутона „Параметри“ задайте следните параметри за търсене на решение (фиг. 5):


След като търсим решение, получаваме отчет за резултатите:

Отчет с резултатите на Microsoft Excel 8.0e

Докладът е създаден: 17.11.2002 г. 1:28:30 ч

Целева клетка (максимум)

Резултат

Общо производство

Сменяеми клетки

Резултат

Брой кладенци

Брой кладенци

Брой кладенци

Ограничения

Значение

Дължина

Свързани

Цена на проекта

не е свързан.

Брой кладенци

не е свързан.

Брой кладенци

Свързани

Брой кладенци

Свързани

Първата таблица показва началната и крайната (оптималната) стойност на целевата клетка, в която е поставена целевата функция на решавания проблем. Във втората таблица виждаме началните и крайните стойности на оптимизираните променливи, които се съдържат в променливите клетки. Третата таблица в отчета за резултатите съдържа информация за ограниченията. Колоната „Стойност“ съдържа оптималните стойности на необходимите ресурси и оптимизираните променливи. Колоната "Формула" съдържа ограничения за изразходвани ресурси и оптимизирани променливи, написани под формата на връзки към клетки, съдържащи тези данни. Колоната „Състояние“ определя дали определени ограничения са обвързани или необвързани. Тук „свързани“ са ограниченията, въведени в оптималното решение под формата на строги равенства. Колоната “Разлика” за ресурсни ограничения определя баланса на използваните ресурси, т.е. разликата между необходимото количество ресурси и тяхната наличност.

По същия начин, като записваме резултата от търсенето на решение във формуляра „Доклад за стабилност“, получаваме следните таблици:

Доклад за устойчивост на Microsoft Excel 8.0e

Работен лист: [Решаване на проблема с оптимизацията.xls]Решаване на проблема с оптимизирането на производството

Докладът е създаден: 17.11.2002 г. 1:35:16 ч

Сменяеми клетки

Приемливо

Приемливо

значение

цена

Коефициент

Увеличете

Намаляване

Брой кладенци

Брой кладенци

Брой кладенци

Ограничения

Ограничение

Приемливо

Приемливо

значение

Дясна страна

Увеличете

Намаляване

Дължина

Цена на проекта

Докладът за устойчивост съдържа информация за променливите, които се променят (оптимизират) и ограниченията на модела. Посочената информация е свързана със симплексния метод, използван при оптимизацията на линейни задачи, описан по-горе в частта за решаване на задачата. Позволява ви да оцените колко чувствително е полученото оптимално решение към възможни промени в параметрите на модела.

Първата част на отчета съдържа информация за променливи клетки, съдържащи стойности за броя на ямките в полетата. Колоната „Резултатна стойност“ показва оптималните стойности на оптимизираните променливи. Колоната „Целеви коефициент“ съдържа първоначалните данни за стойностите на коефициентите на целевата функция. Следващите две колони илюстрират как тези фактори могат да се увеличават и намаляват, без да се променя намереното оптимално решение.

Втората част на доклада за устойчивост съдържа информация за ограниченията, наложени върху оптимизираните променливи. Първата колона показва изискванията за ресурси за оптималното решение. Втората съдържа сенчести цени за видовете използвани ресурси. Последните две колони съдържат данни за възможно увеличение или намаляване на обема на наличните ресурси.

Проблем с групирането.

По-горе е даден метод стъпка по стъпка за решаване на проблема. Ето таблици в Excel, илюстриращи напредъка на решаването на проблема:

"метод на най-близкия съсед"

Решаване на задачата на клъстерния анализ - "МЕТОД НА НАЙ-БЛИЗКИЯ СЪСЕД"

Изходни данни

където x1 е обемът на продукцията;

х2 - средна годишна цена на ДМА

Промишлени производствени активи

"метод на далечния съсед"

Решаване на проблема с клъстерния анализ - "МЕТОД НА ДАЛЕЧНИ СЪСЕДИ"

Изходни данни

където x1 е обемът на продукцията;

х2 - средна годишна цена на ДМА

Промишлени производствени активи

Използва се за идентифициране на връзката между количествени или качествени показатели, ако те могат да бъдат класирани. Стойностите на индикатора X се показват във възходящ ред и им се присвояват рангове. Стойностите на индикатора Y се класират и се изчислява коефициентът на корелация Kendall:

Къде С = ПQ.

П голямстойността на ранговете Y.

Q- общият брой наблюдения след текущите наблюдения с по-малъкстойността на ранговете Y. (равните рангове не се вземат предвид!)

Ако изследваните данни се повтарят (имат едни и същи рангове), тогава в изчисленията се използва коригираният коефициент на корелация на Kendall:

t- броят на свързаните рангове в серията X и Y, съответно.

19. От какво трябва да изхождаме при определяне на темата, обекта, предмета, целта, задачите и хипотезата на изследването?

Изследователската програма, като правило, има два раздела: методологичен и процедурен. Първият включва обосновка на актуалността на темата, формулиране на проблема, дефиниране на обекта и предмета, целите и задачите на изследването, формулиране на основни понятия (категориален апарат), предварителен системен анализ на обекта на изследване и формулиране на работна хипотеза. Вторият раздел разкрива стратегическия дизайн на изследването, както и дизайна и основните процедури за събиране и анализ на първични данни.

На първо място, при избора на тема за изследване трябва да се изхожда от уместността. Обосновка на релевантносттавключва индикация за необходимостта и навременността от изучаване и решаване на проблема за по-нататъшното развитие на теорията и практиката на обучението и възпитанието. Настоящите изследвания дават отговори на най-належащите въпроси в този момент, отразяват социалния ред на обществото за педагогическата наука и разкриват най-важните противоречия, които се срещат на практика. Критерият за релевантност е динамичен, гъвкав, зависим от времето, отчитайки конкретни и конкретни обстоятелства. В най-общата си форма релевантността характеризира степента на несъответствие между търсенето на научни идеи и практически препоръки (за задоволяване на определена потребност) и предложенията, които науката и практиката могат да предоставят в момента.

Най-убедителната основа, определяща темата на изследването, е общественият ред, отразяващ най-належащите, социално значими проблеми, изискващи спешни решения. Социалният ред изисква обосновка за конкретна тема. Обикновено това е анализ на степента, до която даден въпрос е развит в науката.

Ако социалният ред следва от анализа на педагогическата практика, то научен проблеме в друга равнина. Той изразява основното противоречие, което трябва да бъде разрешено със средствата на науката. Решението на проблема обикновено е цел на изследването.Целта е преформулиран проблем.

Постановката на проблема предполага избор на обектизследвания. Това може да бъде педагогически процес, област от педагогическата реалност или някаква педагогическа връзка, която съдържа противоречие. С други думи, обектът може да бъде всичко, което явно или косвено съдържа противоречие и поражда проблемна ситуация. Обектът е това, към което е насочен процесът на познание. Предмет на изследване -част, страна на обект. Това са най-значимите свойства, аспекти и характеристики на даден обект от практическа или теоретична гледна точка, които подлежат на пряко изследване.

В съответствие с целта, обекта и предмета на изследването се определя изследването задачи,които обикновено са насочени към проверка хипотези.Последното е набор от теоретично обосновани предположения, чиято истинност подлежи на проверка.

Критерий научна новостприложими за оценка на качеството на завършените изследвания. Той характеризира нови теоретични и практически изводи, модели на образованието, неговата структура и механизми, съдържание, принципи и технологии, които в този момент не са били известни и не са записани в педагогическата литература. Новостта на изследването може да има както теоретично, така и практическо значение. Теоретичната значимост на изследването се състои в създаването на концепция, получаване на хипотеза, модел, метод, модел за идентифициране на проблем, тенденция, посока. Практическото значение на изследването се състои в изготвянето на предложения, препоръки и др. Критериите за новост, теоретична и практическа значимост варират в зависимост от вида на изследването и зависят от времето на получаване на нови знания.

Един фактор, ограничаващ използването на тестове, базирани на предположението за нормалност, е размерът на извадката. Докато извадката е достатъчно голяма (например 100 или повече наблюдения), можете да приемете, че разпределението на извадката е нормално, дори ако не сте сигурни, че разпределението на променливата в популацията е нормално. Въпреки това, ако извадката е малка, тези тестове трябва да се използват само ако сте сигурни, че променливата действително има нормално разпределение. Въпреки това, няма начин да се тества това предположение в малка извадка.

Използването на критерии, базирани на предположението за нормалност, също е ограничено от скалата на измерване (вижте главата Елементарни концепции за анализ на данни). Статистически методи като t-тест, регресия и др. предполагат, че оригиналните данни са непрекъснати. Има обаче ситуации, при които данните просто се класират (измерени по порядъчна скала), вместо да се измерват точно.

Типичен пример са рейтингите на сайтове в Интернет: на първо място е сайтът с максимален брой посетители, на второ място е сайтът с максимален брой посетители сред останалите сайтове (сред сайтове, от които първият сайт е изтрит) и т.н. Познавайки рейтингите, можем да кажем, че броят на посетителите на един сайт е по-голям от броя на посетителите на друг, но колко повече не може да се каже. Представете си, че имате 5 сайта: A, B, C, D, E, които са класирани на първите 5 места. Да предположим, че през текущия месец имаме следната подредба: A, B, C, D, E, а през предходния месец: D, E, A, B, C. Въпросът е има ли значителни промени в класирането на сайтове или не? В тази ситуация, очевидно, не можем да използваме t-теста, за да сравним тези две групи от данни, и преминаваме в областта на специфични вероятностни изчисления (а всеки статистически тест съдържа вероятностни изчисления!). Разсъждаваме приблизително по следния начин: доколко е вероятно разликата в подреждането на двете площадки да се дължи на чисто случайни причини или тази разлика е твърде голяма и не може да се обясни с чиста случайност. В тези дискусии ние използваме само рангове или пермутации на сайтове и по никакъв начин не използваме специфичен тип разпределение на броя на посетителите в тях.

Непараметричните методи се използват за анализ на малки проби и за данни, измерени в лоши мащаби.

Кратък преглед на непараметричните процедури

По същество за всеки параметричен критерий има поне една непараметрична алтернатива.

Като цяло тези процедури попадат в една от следните категории:

  • тестове за разлика за независими проби;
  • разлики тестове за зависими проби;
  • оценка на степента на зависимост между променливите.

Като цяло подходът към статистическите критерии при анализа на данни трябва да бъде прагматичен и да не е обременен с ненужни теоретични разсъждения. С компютър, изпълняващ STATISTICA, можете лесно да приложите множество критерии към вашите данни. Знаейки за някои от капаните на методите, вие ще изберете правилното решение чрез експериментиране. Развитието на сюжета е съвсем естествено: ако искате да сравните стойностите на две променливи, тогава използвате t-тест. Все пак трябва да се помни, че той се основава на предположението за нормалност и равенство на дисперсиите във всяка група. Премахването на тези предположения води до непараметрични тестове, които са особено полезни за малки проби.

Развитието на t-теста води до дисперсионен анализ, който се използва, когато броят на сравняваните групи е повече от две. Съответното развитие на непараметричните процедури води до непараметричен дисперсионен анализ, въпреки че е значително по-беден от класическия дисперсионен анализ.

За да се оцени зависимостта или, казано малко помпозно, степента на близост на връзката, се изчислява корелационният коефициент на Пиърсън. Строго погледнато, използването му има ограничения, свързани например с вида на мащаба, в който се измерват данните, и нелинейността на връзката, така че непараметричните или така наречените рангови коефициенти на корелация, използвани напр. , за класирани данни, също се използват като алтернатива. Ако данните се измерват в номинална скала, тогава е естествено те да бъдат представени в таблици за непредвидени обстоятелства, които използват теста хи-квадрат на Pearson с различни вариации и корекции за прецизност.

Така че по същество има само няколко вида критерии и процедури, които трябва да знаете и да можете да използвате, в зависимост от спецификата на данните. Трябва да определите кой критерий трябва да се приложи в конкретна ситуация.

Непараметричните методи са най-подходящи, когато размерите на извадката са малки. Ако има много данни (например n >100), често няма смисъл да се използват непараметрични статистики.

Ако размерът на извадката е много малък (например n = 10 или по-малко), тогава нивата на значимост за онези непараметрични тестове, които използват нормалното приближение, могат да се считат само за груби оценки.

Разлики между независимите групи. Ако имате две проби (например мъже и жени), които искате да сравните по отношение на някаква средна стойност, като средно кръвно налягане или брой бели кръвни клетки, тогава можете да използвате t теста за независими проби.

Непараметричните алтернативи на този тест са серийният тест на Wald-Wolfowitz, Mann-Whitney )/n, където x i - i-та стойност, n - брой наблюдения. Ако дадена променлива съдържа отрицателни стойности или нула (0), средната геометрична стойност не може да бъде изчислена.

Средно хармонично

Хармоничната средна стойност понякога се използва за осредняване на честотите. Средната хармонична стойност се изчислява по формулата: GS = n/S(1/x i), където GS е средната хармонична стойност, n е броят на наблюденията, x i е стойността на номер на наблюдение i. Ако дадена променлива съдържа нула (0), средната хармонична стойност не може да бъде изчислена.

Дисперсия и стандартно отклонение

Дисперсията на извадката и стандартното отклонение са най-често използваните мерки за променливост (вариация) в данните. Дисперсията се изчислява като сумата от квадратните отклонения на стойностите на променливата от средната стойност на извадката, разделена на n-1 (но не на n). Стандартното отклонение се изчислява като корен квадратен от оценката на дисперсията.

Обхват

Диапазонът на променливата е индикатор за променливост, изчислен като максимума минус минимума.

Квартилен диапазон

Тримесечният диапазон по дефиниция е горният квартил минус долния квартил (75% персентил минус 25% персентил). Тъй като 75% персентил (горен квартил) е стойността, вляво от която са 75% от наблюденията, а 25% персентил (долен квартил) е стойността, вляво от която са 25% от наблюденията, квартилът диапазонът е интервалът около медианата, който съдържа 50% от наблюденията (променливи стойности).

Асиметрия

Изкривеността е характеристика на формата на разпределението. Разпределението е изкривено наляво, ако стойността на изкривяване е отрицателна. Разпределението е изкривено надясно, ако изкривяването е положително. Изкривяването на стандартното нормално разпределение е 0. Изкривяването е свързано с третия момент и се определя като: изкривяване = n × M 3 /[(n-1) × (n-2) × s 3 ], където M 3 е равно на: (x i -xсредно x) 3, s 3 - стандартно отклонение на трета степен, n - брой наблюдения.

Излишък

Ексцесът е характеристика на формата на разпределение, а именно мярка за остротата на неговия пик (спрямо нормално разпределение, чийто ексцес е 0). Обикновено разпределенията с по-остър пик от нормалния имат положителен ексцес; разпределенията, чийто пик е по-малко остър от пика на нормално разпределение, имат отрицателен ексцес. Ексцесът е свързан с четвъртия момент и се определя по формулата:

ексцес = /[(n-1) × (n-2) × (n-3) × s 4 ], където M j е равно на: (x-средно x, s 4 - стандартно отклонение на четвърта степен, n - брой наблюдения.

Представяне и предварителна обработка на експертни оценки

В практиката се използват няколко вида оценки:

- качествен (често-рядко, по-лошо-по-добро, да-не),

- оценки по скала (диапазони на стойности 50-75, 76-90, 91-120 и т.н.),

Точки от даден интервал (от 2 до 5, 1 -10), взаимно независими,

Класирани (обектите се поставят от експерт в в определен реди на всеки е присвоен сериен номер - ранг),

Сравнителен, получен чрез един от методите за сравнение

метод на последователно сравнение

метод за сравняване по двойки на фактори.

На следващата стъпка от обработката на експертните мнения е необходимо да се направи оценка степента на съгласие между тези мнения.

Оценките, получени от експерти, могат да се разглеждат като случайна променлива, чието разпределение отразява мненията на експертите относно вероятността от конкретен избор на събитие (фактор). Следователно, за да се анализира разпространението и последователността на експертните оценки, обобщени статистически характеристики– средни стойности и мерки за дисперсия:

Средна квадратична грешка,

Диапазон на вариация min – max,

- коефициент на вариация V = средно квадратно отклонение / средно аритмично (подходящ за всякакъв вид оценка)

V i = σ i / x i ср

За оценка мерки за сходствои мнения всяка двойка експертиМогат да се използват различни методи:

коефициенти на асоцииране, с помощта на които се отчита броя на съвпадащите и несъвпадащите отговори,

коефициенти на несъответствиеекспертни мнения,

Всички тези мерки могат да се използват или за сравняване на мненията на двама експерти, или за анализ на връзката между поредица от оценки на две характеристики.

Сдвоен коефициент на рангова корелация на Spearman:

където n е броят на експертите,

c k – разликата между оценките на i-тия и j-тия експерт за всички T фактори

Коефициентът на рангова корелация на Kendall (коефициент на съгласуваност) дава обща оценка на съгласуваността на мненията на всички експерти по всички фактори, но само за случаите, когато са използвани ранг оценки.

Доказано е, че стойността на S, когато всички експерти дават еднакви оценки на всички фактори, има максимална стойност, равна на

където n е броят на факторите,

m – брой експерти.

Коефициентът на съгласуване е равен на отношението

Освен това, ако W е близо до 1, тогава всички експерти са дали доста последователни оценки, в противен случай техните мнения не са последователни.

Формулата за изчисляване на S е дадена по-долу:

където r ij са рейтинговите оценки на i-тия фактор от j-тия експерт,

r avg е средният ранг за цялата матрица за оценка и е равен на

И следователно формулата за изчисляване на S може да приеме формата:

Ако индивидуалните оценки от един експерт съвпадат и те са стандартизирани по време на обработката, тогава се използва друга формула за изчисляване на коефициента на съответствие:



където T j се изчислява за всеки експерт (ако оценките му се повтарят за различни обекти), като се вземат предвид повторенията съгласно следните правила:

където t j е броят на групите с еднакъв ранг за j-тия експерт, и

h k е броят на равни рангове в k-тата група от свързани рангове на j-тия експерт.

ПРИМЕР. Нека 5 експерти по шест фактора отговорят на класирането, както е показано в таблица 3:

Таблица 3 – Отговори на експерти

Експерти O1 O2 O3 O4 O5 O6 Сума от ранговете по експерт
E1
E2
E3
E4
E5

Поради факта, че не получихме строго класиране (оценките на експертите се повтарят и сумите на ранговете не са равни), ще трансформираме оценките и ще получим съответните рангове (Таблица 4):

Таблица 4 – Свързани рангове на експертни оценки

Експерти O1 O2 O3 O4 O5 O6 Сума от ранговете по експерт
E1 2,5 2,5
E2
E3 1,5 1,5 4,5 4,5
E4 2,5 2,5 4,5 4,5
E5 5,5 5,5
Сума от ранговете за обект 7,5 9,5 23,5 29,5

Сега нека определим степента на съгласие между експертните мнения, като използваме коефициента на съгласуване. Тъй като ранговете са свързани, ще изчислим W по формулата (**).

Тогава r av =7*5/2=17,5

S = 10 2 +8 2 +4,5 2 +4,5 2 +6 2 +12 2 = 384,5

Нека да преминем към изчисленията на W. За да направим това, отделно изчисляваме стойностите на T j. В примера оценките са специално подбрани по такъв начин, че всеки експерт да има повтарящи се оценки: 1-вият има две, вторият има три, третият има две групи от по две оценки, а четвъртият и петият имат две еднакви оценки. От тук:

T 1 = 2 3 – 2 = 6 T 5 = 6

T 2 = 3 3 – 3 = 24

T 3 = 2 3 –2+ 2 3 –2 = 12 T 4 = 12

Виждаме, че последователността на експертните становища е доста висока и можем да преминем към следващия етап от проучването - обосновка и приемане на алтернативното решение, препоръчано от експертите.

В противен случай трябва да се върнете към стъпки 4-8.

За изчисляване на коефициента на рангова корелация на Kendall r kнеобходимо е данните да се класират по една от характеристиките във възходящ ред и да се определят съответните рангове за втората характеристика. След това за всеки ранг на втория атрибут се определя броят на следващите рангове, по-големи по стойност от взетия ранг, и се намира сумата от тези числа.

Коефициентът на рангова корелация на Kendall се дава от


Къде R i– брой рангове на втората променлива, започвайки от аз+1, чиято стойност е по-голяма от стойността аз-ти ранг на тази променлива.

Има таблици с процентни точки на разпределение на коефициента r k, което ви позволява да тествате хипотезата за значимостта на коефициента на корелация.

За големи размери на извадката, критични стойности r kне са таблични и трябва да се изчислят с помощта на приблизителни формули, които се основават на факта, че при нулевата хипотеза H 0: r k=0 и по-големи п случайна променлива

разпределени приблизително според стандартния нормален закон.

40. Зависимост между белези, измерени по номинална или ординална скала

Често възниква задачата да се провери независимостта на две характеристики, измерени по номинална или ординална скала.

Нека някои обекти имат две измерени характеристики XИ Yс броя на нивата rИ sсъответно. Удобно е да се представят резултатите от такива наблюдения под формата на таблица, наречена таблица на непредвидените характеристики.

В таблицата u i(аз = 1, ..., r) И v j (й= 1, ..., s) – стойности, приети от характеристиките, стойност n ij– броят на обектите от общия брой обекти, които имат атрибута Xприе стойността u i, и знакът Y- значение v j

Нека въведем следните случайни променливи:

u i


– броя на обектите, които имат стойност v j


Освен това има очевидни равенства



Дискретни случайни променливи XИ Yнезависим ако и само тогава

за всички двойки аз, й

Следователно хипотезата за независимостта на дискретните случайни променливи XИ Yможе да се напише така:

Като алтернатива по правило се използва хипотезата

Валидността на хипотезата H 0 трябва да се прецени въз основа на честотите на извадката n ijтаблици за непредвидени обстоятелства. Според закона големи числапри п→∞ относителните честоти са близки до съответните вероятности:



Статистиката се използва за тестване на хипотезата H 0

която, ако хипотезата е вярна, има разпределение χ 2 сек rs − (r + s− 1) степени на свобода.

Критерий за независимост χ 2 отхвърля хипотезата H 0 с ниво на значимост α, ако:


41. Регресионен анализ. Основни понятия на регресионния анализ

За математическо описаниестатистическите зависимости между изследваните променливи трябва да се решат следните задачи:

ü изберете клас функции, в които е препоръчително да търсите най-доброто (в известен смисъл) приближение на зависимостта, която ни интересува;

ü намерете оценки на неизвестните стойности на параметрите, включени в уравненията на желаната зависимост;

ü установяване на адекватността на полученото уравнение за желаната връзка;

ü идентифициране на най-информативните входни променливи.

Съвкупността от изброените задачи е обект на изследване с регресионен анализ.

Регресионната функция (или регресия) е зависимостта на математическото очакване на една случайна променлива от стойността, приета от друга случайна променлива, образувайки с първата двумерна система от случайни променливи.

Нека има система от случайни променливи ( X,Y), тогава регресионната функция Yна X

И регресионната функция Xна Y

Регресионни функции f(х) И φ (г), не са взаимно обратими, освен ако връзката между XИ Yне е функционален.

В случай п-размерен вектор с координати X 1 , X 2 ,…, Xnможе да се вземе предвид условното математическо очакване за всеки компонент. Например за X 1


наречена регресия X 1 на X 2 ,…, Xn.

За да се дефинира напълно регресионната функция, е необходимо да се знае условното разпределение на изходната променлива за фиксирани стойности на входната променлива.

Тъй като в реална ситуация те не разполагат с такава информация, те обикновено се ограничават до търсене на подходяща апроксимираща функция f a(х) За f(х), въз основа на статистически данни от формата ( x i, y i), аз = 1,…, п. Тези данни са резултатът пнезависими наблюдения г 1 ,…, y nслучайна променлива Yза стойностите на входната променлива х 1 ,…, x n, докато при регресионния анализ се приема, че стойностите на входната променлива са посочени точно.

Проблемът с избора на най-добрата апроксимираща функция f a(х), който е основен в регресионния анализ и няма формализирани процедури за неговото решаване. Понякога изборът се определя въз основа на анализ на експериментални данни, по-често от теоретични съображения.

Ако се приеме, че регресионната функция е достатъчно гладка, тогава функцията, която я приближава f a(х) може да се представи като линейна комбинация от определен набор от линейно независими базисни функции ψ k(х), к = 0, 1,…, м−1, т.е. във формата


Къде м– брой неизвестни параметри θk(в общия случай количеството е неизвестно, уточнено при изграждането на модела).

Такава функция е линейна по своите параметри, така че в разглеждания случай говорим за модел на регресионна функция, който е линеен по своите параметри.

След това задачата за намиране на най-доброто приближение за регресионната линия f(х) се свежда до намиране на такива стойности на параметрите, при които f a(х;θ) е най-адекватен на наличните данни. Един от методите, който ви позволява да решите този проблем, е методът на най-малките квадрати.

42. Метод на най-малките квадрати

Нека наборът от точки ( x i, y i), аз= 1,…, празположени в равнина по някаква права линия

След това като функция f a(х), което приближава регресионната функция f(х) = М [Y|х] естествено е да се вземе линейна функция на аргумента х:


Това означава, че основните функции, избрани тук, са ψ 0 (х)≡1 и ψ 1 (х)≡х. Този тип регресия се нарича проста линейна регресия.

Ако наборът от точки ( x i, y i), аз= 1,…, празположени по някаква крива, тогава като f a(х) естествено е да се опитате да изберете семейство параболи

Тази функция е нелинейна по параметри θ 0 и θ 1 обаче чрез функционално преобразуване (в случая логаритъм) може да се редуцира до нова функция е а(х) линейни по параметри:


43. Проста линейна регресия

Най-простият регресионен модел е прост (едномерен, еднофакторен, сдвоен) линеен модел, имащ следния вид:


Къде ε i– случайни променливи (грешки), които не са корелирани една с друга, имат нулеви математически очаквания и идентични дисперсии σ 2 , аИ b– постоянни коефициенти (параметри), които трябва да бъдат оценени от измерените стойности на реакцията y i.

За да намерите оценки на параметрите аИ bлинейна регресия, определяща правата линия, която най-добре отговаря на експерименталните данни:


Използва се методът на най-малките квадрати.

Според метод на най-малките квадрати оценки на параметрите аИ bнамира се от условието за минимизиране на сумата от квадратните отклонения на стойностите y iвертикално от „истинската“ регресионна линия:

Нека бъдат направени десет наблюдения на случайна променлива Yза фиксирани стойности на променливата X

Да се ​​минимизира гнека приравним към нула частните производни по отношение на аИ b:



В резултат на това получаваме следната система от уравнения за намиране на оценки аИ b:


Решаването на тези две уравнения дава:



Изрази за оценки на параметри аИ bможе също да бъде представен като:

След това емпиричното уравнение на регресионната линия Yна Xможе да се запише като:


Безпристрастен оценител на дисперсията σ 2 стойностни отклонения y iот монтираната права регресионна линия се дава от

Нека изчислим параметрите на регресионното уравнение


Така регресионната линия изглежда така:


И оценката на дисперсията на отклоненията на стойностите y iот монтираната права регресионна линия


44. Проверка на значимостта на регресионната линия

Намерена оценка b≠ 0 може да е реализация на случайна променлива, чието математическо очакване е равно на нула, тоест може да се окаже, че всъщност няма регресионна зависимост.

За да се справите с тази ситуация, трябва да тествате хипотезата H 0: b= 0 с конкурентна хипотеза H 1: b ≠ 0.

Тестването на значимостта на регресионна линия може да се извърши с помощта на дисперсионен анализ.

Помислете за следната идентичност:

величина y iŷ i = ε iсе нарича остатък и е разликата между две количества:

ü отклонение на наблюдаваната стойност (отговор) от общия среден отговор;

ü отклонение на прогнозираната стойност на реакцията ŷ iот същата средна стойност

Писмената самоличност може да бъде написана във формуляра


Чрез повдигане на квадрат на двете страни и сумиране аз, получаваме:


Където са посочени количествата:

пълната (обща) сума от квадратите SC n, която е равна на сумата от квадратите на отклоненията на наблюденията спрямо средната стойност на наблюденията

сумата от квадратите, определена от регресията на SC p, която е равна на сумата от квадратните отклонения на стойностите на регресионната линия спрямо средната стойност на наблюденията.

остатъчна сума на квадратите SC 0 . което е равно на сумата от квадратните отклонения на наблюденията спрямо стойностите на регресионната линия

По този начин разпространението Y-kov спрямо тяхната средна стойност може да се отдаде до известна степен на факта, че не всички наблюдения лежат на регресионната линия. Ако случаят беше такъв, тогава сборът на квадратите спрямо регресията би бил нула. От това следва, че регресията ще бъде значима, ако сумата от квадратите на SC p е по-голяма от сумата от квадратите на SC 0.

Изчисленията за тестване на значимостта на регресията се извършват в следната таблица ANOVA

Ако грешки ε iса разпределени според нормалния закон, тогава ако хипотезата H 0 е вярна: b= 0 статистика:


разпределени по закона на Фишер с брой степени на свобода 1 и п−2.

Нулевата хипотеза ще бъде отхвърлена при ниво на значимост α, ако изчислената стойност на статистиката Еще бъде по-голям от α процентния пункт f 1;п−2;α разпределения на Фишер.

45. Проверка на адекватността на регресионния модел. Остатъчен метод

Адекватността на конструирания регресионен модел означава, че никой друг модел не осигурява значително подобрение при прогнозиране на реакцията.

Ако всички стойности на отговора са получени при различни стойности х, т.е. няма няколко стойности на отговор, получени едновременно x i, тогава може да се извърши само ограничено тестване на адекватността на линейния модел. Основата за такава проверка са балансите:

Отклонения от установения модел:

защото X– едномерна променлива, точки ( x i, d i) могат да бъдат изобразени на равнина под формата на така наречената остатъчна графика. Това представяне понякога позволява да се открие някакъв модел в поведението на остатъците. В допълнение, остатъчният анализ позволява да се анализира предположението относно закона за разпределение на грешките.

В случай, че грешките са разпределени по нормалния закон и има априорна оценка на тяхната дисперсия σ 2 (оценка, получена на базата на предварително извършени измервания), тогава е възможна по-точна оценка на адекватността на модела.

С помощта на Е-Тестът на Фишер може да се използва, за да се провери дали остатъчната дисперсия е значителна s 0 2 се различава от априорната оценка. Ако е значително по-голяма, значи има неадекватност и моделът трябва да се преработи.

Ако априорната оценка σ 2 не, но измервания на реакцията Yповторени два или повече пъти с едни и същи стойности X, тогава тези повтарящи се наблюдения могат да се използват за получаване на друга оценка σ 2 (първото е остатъчната дисперсия). Твърди се, че такава оценка представлява „чиста“ грешка, тъй като if хидентични за две или повече наблюдения, тогава само произволни промени могат да повлияят на резултатите и да създадат разсейване между тях.

Получената оценка се оказва по-надеждна оценка на дисперсията от оценките, получени чрез други методи. Поради тази причина, когато планирате експерименти, има смисъл да провеждате експерименти с повторения.

Да приемем, че има мразлични значения X : х 1 , х 2 , ..., x m. Нека за всяка от тези стойности x iналични n iнаблюдения на отговора Y. Общите наблюдения са:

Тогава простият модел на линейна регресия може да бъде написан като:


Нека намерим дисперсията на „чистите“ грешки. Тази дисперсия е общата оценка на дисперсията σ 2, ако си представим стойностите на отговора y ijпри х = x iкато обем на пробата n i. В резултат на това дисперсията на „чистите“ грешки е равна на:

Тази дисперсия служи като приблизителна оценка σ 2 независимо дали монтираният модел е правилен.

Нека покажем, че сумата от квадрати на „чистите грешки“ е част от остатъчната сума от квадрати (сумата от квадрати, включени в израза за остатъчната дисперсия). Остават за йта наблюдение при x iможе да се запише като:

Ако повдигнем на квадрат двете страни на това уравнение и след това ги сумираме йи от аз, тогава получаваме:

Отляво в това равенство е остатъчният сбор от квадрати. Първият член от дясната страна е сумата от квадратите на „чистите“ грешки, вторият член може да се нарече сумата от квадратите на неадекватността. Последната сума има м−2 степени на свобода, оттук и дисперсията на неадекватността

Тестовата статистика за тестване на хипотезата H 0: простият линеен модел е адекватен, срещу хипотезата H 1: простият линеен модел е неадекватен, е случайна променлива

Ако нулевата хипотеза е вярна, стойността Еима разпределение на Фишер със степени на свобода м−2 и пм. Хипотезата за линейност на регресионната линия трябва да бъде отхвърлена на ниво на значимост α, ако получената статистическа стойност е по-голяма от α процентната точка на разпределението на Фишър със степени на свобода м−2 и пм.

46. Проверка на адекватността на регресионния модел (виж 45). Дисперсионен анализ

47. Проверка на адекватността на регресионния модел (виж 45). Коефициент на определяне

Понякога се използва коефициент на определяне на извадката, за да се характеризира качеството на регресионна линия Р 2, показваща каква част (дял) съставлява сумата от квадрати, дължаща се на регресия, SC p, в общата сума от квадрати SC p:

Колкото по-близо Р 2 до единица, колкото по-добре регресията приближава експерименталните данни, толкова по-близо са наблюденията до регресионната линия. Ако Р 2 = 0, тогава промените в отговора се дължат изцяло на влиянието на неотчетени фактори и регресионната линия е успоредна на оста х-s. В случай на проста линейна регресия, коефициентът на детерминация Р 2 е равно на квадрата на корелационния коефициент r 2 .

Максималната стойност на R 2 =1 може да бъде постигната само в случай, че наблюденията са извършени при различни стойности на x-s. Ако данните съдържат повтарящи се експерименти, тогава стойността на R 2 не може да достигне единица, независимо колко добър е моделът.

48. Доверителни интервали за прости параметри на линейна регресия

Точно както извадковата средна стойност е оценка на истинската средна (средната популация), така и извадковите параметри на регресионно уравнение аИ b- нищо повече от оценки на истинските регресионни коефициенти. Различните проби ще дадат различни оценки на средната стойност, точно както различните проби ще дадат различни оценки на регресионните коефициенти.

Ако приемем, че законът за разпределение на грешките ε iсе описват с нормален закон, оценка на параметъра bще има нормално разпределение с параметрите:


Тъй като оценката на параметъра ае линейна комбинация от независими нормално разпределени величини, то също ще има нормално разпределение с математическо очакване и дисперсия:


В този случай (1 − α) доверителен интервал за оценка на дисперсията σ 2 като се има предвид, че съотношението ( п−2)s 0 2 /σ 2, разпределени по реда на закона χ 2 със степени на свобода п−2 ще се определя от израза


49. Доверителни интервали за регресионната линия. Доверителен интервал за стойностите на зависимите променливи

Обикновено не знаем истинските стойности на регресионните коефициенти АИ b. Ние знаем само техните оценки. С други думи, истинската регресионна линия може да бъде по-висока или по-ниска, по-стръмна или по-плоска от тази, изградена от примерни данни. Изчислихме доверителни интервали за регресионните коефициенти. Можете също да изчислите доверителния регион за самата регресионна линия.

Нека за проста линейна регресия трябва да конструираме (1− α ) доверителен интервал за математическото очакване на отговора Yна стойност X = X 0 . Това математическо очакване е равно на а+bx 0 и неговата оценка

Защото тогава.

Получената оценка на математическото очакване е линейна комбинация от некорелирани нормално разпределени стойности и следователно също има нормално разпределение, центрирано в точката на истинската стойност на условното математическо очакване и дисперсията

Следователно доверителният интервал за регресионната линия при всяка стойност х 0 може да се представи като


Както можете да видите, минималният доверителен интервал се получава, когато х 0 е равна на средната стойност и нараства като х 0 се „отдалечава“ от средната във всяка посока.

За да получите набор от съвместни доверителни интервали, подходящи за цялата регресионна функция, по цялата й дължина, в горния израз вместо тн −2,α /2 трябва да се замести

Настройки