Пусть Н 0 состоит в том, что F(x) = F 0 (x); альтернативная гипотеза Н 1: F(x) ¹ F 0 (x). В критерии согласия Пирсона статистикой берется случайная величина c 2 , эмпирическое значение которой определяется по формуле

где k – число интервалов, на которые разбивается значение изучаемой СВ Х; m i – частота i интервала; p i – вероятность попадания СВ Х в i-тый интервал, вычисленная для теоретического закона распределения.

При n ® ¥ СВ стремится к распределению c 2 с l = k – r – 1 степенями свободы, где k – число интервалов, r – число параметров теоретического распределения, вычисленных по экспериментальным данным.

Требование, чтобы n ® ¥, является существенным. На практике достаточным считается объем n ³ 50 и число наблюдений в каждом интервале m i не менее 5. Если в каком-нибудь интервале m i < 5, то имеет смысл объединить соседние интервалы.

Изложим алгоритм применения критерия c 2 .

1. Находится величина

2. Для выбранного уровня a по приложению VI находят значение , где l = k – r – 1.

3. Если £ , то гипотеза Н 0 принимается, т.е. можно считать, что теоретический и эмпирический законы распределений совпадают; если
> , то гипотеза Н 0 отвергается.

П р и м е р 29.2. При посеве семян льна важным показателем является глубина заделки семян. Для оценки посева было произведено 100 измерений. Результаты измерений приведены в таблице 29.3.

Таблица 29.3.

С помощью критерия c 2 проверить гипотезу Н 0 о нормальном распределении СВ Х – глубины заделки семян на уровне значимости a = 0,01.

Решение. Найдем и S В по выборочным данным

Поскольку в крайних интервалах значение m i < 5, объединим их.

Таблица 29.4.

1. Найдем вероятности p i попадания СВ Х в i интервал по формуле

где значения найдем, используя таблицу II приложений.

Проверка: .

Вычислим значение :

2. l = k – r – 1 = 5 – 2 – 1 = 2. По таблице II найдем = 9,21.

3. Поскольку < , то гипотезу Н 0 о нормальном распределении СВ Х отвергать нет оснований.

§ 30. Проверка гипотез об однородности выборок (непараметрические критерии).

Пусть имеются две независимые выборки, произведенные из генеральных совокупностей, законы распределения которых неизвестны. Проверяемая гипотеза Н 0: F 1 (x) = F 2 (x), где F 1 (x) и F 2 (x) неизвестные функции распределения. Альтернативная гипотеза Н 1: F 1 (x) ¹ F 2 (x).

Критерий Колмогорова – Смирнова . Данный критерий применяется, если можно предполагать, что функции F 1 (x) и F 2 (x) непрерывны.

В качестве статистики критерия берется величина

где n 1 , n 2 – объемы первой и второй выборок соответственно, F 1,Э (х), F 2,Э (х) – эмпирические функции распределения первой и второй выборок.

При справедливости гипотезы Н 0 при достаточно больших выборках (n 1 ³ 50, n 2 ³ 50) распределение сходится к распределению Колмогорова (таблица VII приложений). При малых выборках для нахождения D кр используются специальные таблицы.

Проверка гипотезы Н 0 осуществляется следующим образом. Если
> D кр, то гипотеза отвергается, в противоположном случае принимается.

П р и м е р 30.1. Для изучения влияния некоторого препарата на рост поросят проведен опыт, результаты которого приведены в таблице 30.1.

Таблица 30.1.

Одновременно велось вскармливание поросят в контрольной группе без использования препарата (таблица 30.2).

Таблица 30.2.

Требуется на уровне значимости a = 0,05 проверить гипотезу Н 0 , что обе выборки описываются одной и той же функцией распределения, т.е. препарат не оказывает на рост поросят существенного влияния.

Решение. Данные вычислений занесем в таблицу, учитывая, что
n 1 = 100, n 2 = 200.

Таблица 30.3.

Используя таблицу VII приложений, найдем

D кр = D 1 - a = D 0,95 »K 0,95 = 1,36.

Поскольку D кр < , то гипотезу Н 0 следует принять, т.е. препарат не оказывает существенного влияния на рост поросят.

В случае, если выборки невелики, удобно применять критерий Вилкоксона – Уитни .

Сформулируем правило его применения (n 1 £ 25, n 2 £ 25). Для проверки гипотезы Н 0: F 1 (x) = F 2 (x) при альтернативной гипотезе Н 1: F 1 (x) ¹ F 2 (x) следует:

1. Объединить две выборки в одну и расположить варианты в возрастающем порядке, рассчитать W – сумму номеров вариант меньшей по объему выборки.

2. Найти по таблице VIII приложений w нижн.кр = w( , n 1 , n 2) и w верхн.кр =
= (n 1 + n 2 + 1) n 1 – w нижн.кр.

Если w н.кр < W < w в.кр, то нет оснований отвергнуть гипотезу, в противоположном случае гипотеза Н 0 отвергается.

Замечание 30.1. Если среди вариант есть совпадающие, то каждой из них присваивают ранги, равные среднему арифметическому порядковых номеров совпадающих вариант в общем ряде, которыми заменяют номера совпадающих варинт.

Замечание 30.2. Критерий Вилкоксона – Уитни можно использовать и для больших выборок. При этом изменяется расчет w н.кр и w в.кр (см. ).

П р и м е р 30.2. Для оценки заработной платы (в у.е.) на двух предприятиях собраны две выборки объемом n 1 = 8 и n 2 = 9:

I-е предприятие 330, 390, 400, 410, 420, 450, 460, 470

II-е предприятие 340, 400, 410, 420, 430, 440, 460, 480, 490

Используя критерий Вилкоксона – Уитни, проверить нулевую гипотезу Н 0 об одинаковой оплате труда на двух предприятиях, против гипотезы Н 1: оплата различна (a = 0,05).

Решение. Сформируем общий вариационный ряд

330 ; 340; 390 ; 400 ; 400; 410 ; 410; 420 ; 420; 430; 440; 450 ; 460 ; 460; 470 ; 480; 490

1 2 34,5 4,5 6,5 6,5 8,5 8,5 10 11 1213,5 13,5 15 16 17

Для применения изложенного выше критерия Вилкоксона – Уитни в качестве первой выборки следует взять ту, которая имеет наименьший объем n 1 = 8.

Найдем значение W. Для этого подчеркнем порядковые номера вариант меньшей по объему выборки и найдем их сумму:

W = 1 + 3 + 4,5 + 6,5 + 8,5 + 12 + 13,5 + 15 = 64.

Найдем значение w нижн.кр = w(0,025; 8; 9) = 51.

Найдем значение w верхн.кр = (n 1 +n 2 + 1) n 1 – w н.кр = (8 + 9 + 1)× 8 – 51 = 93.

Поскольку выполняется соотношение w н.кр < W < w в.кр (51 < 64 < 93), то нет оснований отвергнуть гипотезу Н 0 , т.е. оплата труда на I-м и II-м предприятиях различается незначительно.

Лекция 6. Анализ двух выборок

6.1 Параметрические критерии. 1

6.1.2 Критерий Стьюдента (t -критерий) 2

6.1.3 F - критерий Фишера. 6

6.2 Непараметрические критерии. 7

6.2.1 Критерий знаков (G -критерий) 7

Следующей задачей статистического анализа, решаемой после определения основных (выборочных) характеристик и анализа одной выборки, является совместный анализ нескольких выборок. Важнейшим вопросом, возникающем при анализе двух выборок, является вопрос о наличии различий между выборками. Обычно для этого проводят проверку статистических гипотез о принадлежности обеих выборок одной генеральной совокупности или о равенстве средних.

Если вид распределения или функция распределения выборки нам заданы, то в этом случае задача оценки различий двух групп независимых наблюдений может решаться с использованием параметрических критериев статистики: либо критерия Стьюдента (t ), если сравнение выборок ведется по средним значениям (X и У), либо с использованием критерия Фишера (F ), если сравнение выборок ведется по их дисперсиям.

Использование параметрических критериев статистики без предварительной проверки вида распределения может привести к определенным ошибкам в ходе проверки рабочей гипотезы.

Для преодоления указанных трудностей в практике педагогических исследований следует использовать непараметрические критерии статистики , такие, как критерий знаков, двухвыборочный критерий Вилкоксона, критерий Ван дер Вардена, критерий Спирмена, выбор которых, хотя и не требует большого числа членов выборки и знаний, вида распределения, но все же зависит от целого ряда условий.

Непараметрические критерии статистики - свободны от допущения о законе распределения выборок и базируются на предположении о независимости наблюдений.

6.1 Параметрические критерии

В группу параметрических критериев методов математической статистики входят методы для вычисления описательных статистик, построения графиков на нормальность распределения, проверка гипотез о принадлежности двух выборок одной совокупности. Эти методы основываются на предположении о том, что распределение выборок подчиняется нормальному (гауссовому) закону распределения. Среди параметрических критериев статистики нами будут рассмотрены критерий Стьюдента и Фишера.

6.1.1 Методы проверки выборки на нормальность

Чтобы определить,имеем ли мы дело с нормальным распределением, можно применять следующие методы:

1) в пределах осей можно нарисовать полигон частоты (эмпирическую функцию распределения) и кривую нормального распределения на основе данных исследования. Исследуя формы кривой нормального распределения и графика эмпирической функции распределения, можно выяснить те параметры, которыми последняя кривая отличается от первой;

2) вычисляется среднее, медиана и мода и на основе этого определяется отклонение от нормального распределения. Если мода, медиана и среднее арифметическое друг от другазначительно не отличаются, мы имеем дело с нормальным распределением. Если медиана значительно отличается от среднего, то мы имеем дело с асимметричной выборкой.

3) эксцесс кривой распределения должен быть равен 0. Кривыесположительнымэксцессомзначительновертикальнее кривой нормального распределения. Кривые с отрицательным эксцессом являются более покатистыми по сравнению с кривой нормального распределения;

4) послеопределения среднего значения распределения частоты и стандартного oтклонения находят следующие четыре интервала распределения сравнивают их с действительными даннымиряда:

а) - к интервалу должно относиться около 25% частоты совокупности,

б) - к интервалу должно относиться около 50% частоты совокупности,

в) - к интервалу должно относиться около 75% частоты совокупности,

г) - к интервалу должно относиться около 100% частоты совокупности.

6.1.2 Критерий Стьюдента ( t-критерий)

Критерий позволяет найти вероятность того, что оба средних значения в выборке относятся к одной и той же совокупности. Данный критерий наиболее часто используется для проверки гипотезы: «Средние двух выборок относятся к одной и той же совокупности».

При использовании критерия можно выделить два случая. В первом случае его применяют для проверки гипотезы о равенстве генеральных средних двух независимых , несвязанных выборок (так называемый двухвыборочный t-критерий ). В этом случае есть контрольная группа и экспериментальная (опытная) группа, количество испытуемых в группах может быть различно.

Во втором случае, когда одна и та же группа объектов порождает числовой материал для проверки гипотез о средних, используется так называемый парный t-критерий . Выборки при этом называют зависимыми , связанными .

а) случай независимых выборок

Статистика критерия для случая несвязанных, независимых выборок равна:

где , - средние арифметические в экспериментальной и контрольной группах,

Стандартная ошибка разности средних арифметических. Находится из формулы:

,(2)

где n 1 и n 2 соответственно величины первой и второй выборки.

Если n 1 =n 2 , то стандартная ошибка разности средних арифметических будет считаться по формуле:

(3)

где n величина выборки.

Подсчет числа степеней свободы осуществляется по формуле:

k = n 1 + n 2 – 2.(4)

При численном равенстве выборок k = 2 n - 2.

Далее необходимо сравнить полученное значение t эмп с теоретическим значением t-распределения Стьюдента (см. приложение к учебникам статистики). Если t эмп

Рассмотрим пример использования t -критерия Стьюдента для несвязных и неравных по численности выборок.

Пример 1 . В двух группах учащихся - экспериментальной и контрольной - получены следующие результаты по учебному предмету (тестовые баллы; см. табл. 1).

Таблица 1. Результаты эксперимента

Первая группа (экспериментальная) N 1 =11 человек

Вторая группа (контрольная)

N 2 =9 человек

121413161191315151814

Общее количество членов выборки: n 1 =11, n 2 =9.

Расчет средних арифметических: Х ср =13,636; Y ср =9,444

Стандартное отклонение: s x =2,460; s y =2,186

По формуле (2) рассчитываем стандартную ошибку разности арифметических средних:

Считаем статистику критерия:

Сравниваем полученное в эксперименте значение t с табличным значением с учетом степеней свободы, равных по формуле (4) числу испытуемых минус два (18).

Табличное значение t крит равняется 2,1 при допущении возможности риска сделать ошибочное суждение в пяти случаях из ста (уровень значимости=5 % или 0,05).

Если полученное в эксперименте эмпирическое значение t превышает табличное, то есть основания принять альтернативную гипотезу (H 1) о том, что учащиеся экспериментальной группы показывают в среднем более высокий уровень знаний. В эксперименте t=3,981, табличное t=2,10, 3,981>2,10, откуда следует вывод о преимуществе экспериментального обучения.

Здесь могут возникнуть такие вопросы :

1. Что если полученное в опыте значение t окажется меньше табличного? Тогда надо принять нулевую гипотезу.

2. Доказано ли преимущество экспериментального метода? Не столько доказано, сколько показано, потому что с самого начала допускается риск ошибиться в пяти случаях из ста (р=0,05). Наш эксперимент мог быть одним из этих пяти случаев. Но 95% возможных случаев говорит в пользу альтернативной гипотезы, а это достаточно убедительный аргумент в статистическом доказательстве.

3. Что если в контрольной группе результаты окажутся выше, чем в экспериментальной? Поменяем, например, местами, сделав средней арифметической экспериментальной группы, a - контрольной:

Отсюда следует вывод, что новый метод пока не проявил себя с хорошей стороны по разным, возможно, причинам. Поскольку абсолютное значение 3,9811>2,1, принимается вторая альтернативная гипотеза (Н 2) о преимуществе традиционного метода.

б) случай связанных (парных) выборок

В случае связанных выборок с равным числом измерений в каждой можно использовать более простую формулу t-критерия Стьюдента.

Вычисление значения t осуществляется по формуле:

где - разности между соответствующими значениями переменной X и переменной У, а d - среднее этих разностей;

Sd вычисляется по следующей формуле:

(6)

Число степеней свободы k определяется по формуле k=n -1. Рассмотрим пример использования t -критерия Стьюдента для связных и, очевидно, равных по численности выборок.

Если t эмп

Пример 2 . Изучался уровень ориентации учащихся на художественно-эстетические ценности. С целью активизации формирования этой ориентации в экспериментальной группе проводились беседы, выставки детских рисунков, были организованы посещения музеев и картинных галерей, проведены встречи с музыкантами, художниками и др. Закономерно встает вопрос: какова эффективность проведенной работы? С целью проверки эффективности этой работы до начала эксперимента и после давался тест. Из методических соображений в таблице 2 приводятся результаты небольшого числа испытуемых.

Таблица 2. Результаты эксперимента

Ученики (n =10 )	Баллы		Вспомогательные расчеты
Ученики (n =10 )	до начала эксперимента (Х)	в конце эксперимента (У)	d	d 2
Иванов
Новиков
Сидоров
Пирогов
Агапов
Суворов
Рыжиков
Серов
Топоров
Быстров

Среднее	14,8	21,1

Вначале произведем расчет по формуле:

Затем применим формулу (6), получим:

И, наконец, следует применить формулу (5). Получим:

Число степеней свободы: k =10-1=9 и по таблице Приложения 1 находим t крит =2.262, экспериментальное t=6,678, откуда следует возможность принятия альтернативной гипотезы (H 1) о достоверных различиях средних арифметических, т. е. делается вывод об эффективности экспериментального воздействия.

В терминах статистических гипотез полученный результат будет звучать так: на 5% уровне гипотеза Н 0 отклоняется и принимается гипотеза Н 1 .

6.1.3 F - критерий Фишера

Критерий Фишера позволяет сравнивать величины выборочных дисперсий двух независимых выборок. Для вычисления F эмп нужно найти отношение дисперсий двух выборок, причем так, чтобы большая по величине дисперсия находилась бы в числителе, а меньшая – в знаменателе. Формула вычисления критерия Фишера такова:

где - дисперсии первой и второй выборки соответственно.

Так как, согласно условию критерия, величина числителя должна быть больше или равна величине знаменателя, то значение F эмп всегда будет больше или равно единице.

Число степеней свободы определяется также просто:

k 1 =n l - 1 для первой выборки (т.е. для той выборки, величина дисперсии которой больше) и k 2 =n 2 - 1 для второй выборки.

В Приложении 1 критические значения критерия Фишера находятся по величинам k 1 (верхняя строчка таблицы) и k 2 (левый столбец таблицы).

Если t эмп >t крит, то нулевая гипотеза принимается, в противном случае принимается альтернативная.

Пример 3. В двух третьих классах проводилось тестирование умственного развития по тесту ТУРМШ десяти учащихся. Полученные значения величин средних достоверно не различались, однако психолога интересует вопрос - есть ли различия в степени однородности показателей умственного развития между классами.

Решение. Для критерия Фишера необходимо сравнить дисперсии тестовых оценок в обоих классах. Результаты тестирования представлены в таблице:

Таблица 3.

№№ учащихся	Первый класс	Второй класс










Суммы
Среднее	60,6	63,6

Рассчитав дисперсии для переменных X и Y, получаем:

s x 2 =572,83; s y 2 =174,04

Тогда по формуле (8) для расчета по F критерию Фишера находим:

По таблице из Приложения 1 для F критерия при степенях свободы в обоих случаях равных k =10 - 1 = 9 находим F крит =3,18 (<3.29), следовательно, в терминах статистических гипотез можно утверждать, что Н 0 (гипотеза о сходстве) может быть отвергнута на уровне 5%, а принимается в этом случае гипотеза Н 1 . Иc следователь может утверждать, что по степени однородности такого показателя, как умственное развитие, имеется различие между выборками из двух классов.

6.2 Непараметрические критерии

Сравнивая на глазок (по процентным соотношениям) результаты до и после какого-либо воздействия, исследователь приходит к заключению, что если наблюдаются различия, то имеет место различие в сравниваемых выборках. Подобный подход категорически неприемлем, так как для процентов нельзя определить уровень достоверности в различиях. Проценты, взятые сами по себе, не дают возможности делать статистически достоверные выводы. Чтобы доказать эффективность какого-либо воздействия, необходимо выявить статистически значимую тенденцию в смещении (сдвиге) показателей. Для решения подобных задач исследователь может использовать ряд критериев различия.Ниже будет рассмотрены непараметрические критерии: критерий знаков и критерий хи-квадрат.

6.2.1 Критерий знаков ( G-критерий)

Критерий предназначен для сравнения состояния некоторого свойства у членов двух зависимых выборок на основе измерений, сделанных по шкале не ниже ранговой.

Имеется две серии наблюдений над случайными переменными X и У, полученные при рассмотрении двух зависимых выборок . На их основе составлено N пар вида (х i , у i ), где х i , у i - результаты двукратного измерения одного и того же свойства у одного и того же объекта.

В педагогических исследованиях объектами изучения могут служить учащиеся, учителя, администрация школ. При этом х i , у i могут быть, например, балловыми оценками, выставленными учителем за двукратное выполнение одной и той же или различных работ одной и той же группой учащихся до и после применения некоторого педагогическою средства.

Элементы каждой пары х i , у i сравниваются между собой по величине, и паре присваивается знак «+» , если х i < у i , знак «-» , если х i > у i и «0» , если х i = у i .

Нулевая гипотеза формулируются следующим образом: в состоянии изучаемого свойства нет значимых различий при первичном и вторичном измерениях. Альтернативная гипотеза: законы распределения величин X и У различны, т. е. состояния изучаемого свойства существенно различны в одной и той же совокупности при первичном и вторичном измерениях этого свойства.

Статистика критерия (Т) определяется следующим образом:

допустим, что из N пар (х, у,) нашлось несколько пар, в которых значения х i и у i равны. Такие пары обозначаются знаком «0» и при подсчете значения величины Т не учитываются. Предположим, что за вычетом из числа N числа пар, обозначенных знаком «0», осталось всего n пар. Среди оставшихся n пар подсчитаем число пар, обозначенных знаком «-», т.е, пары, в которых x i < y i . Значение величины Т и равно числу пар со знаком минус.

Нулевая гипотеза принимается на уровне значимости 0,05, если наблюдаемое значение T < n - t a , где значение n - t a определяется из статистических таблиц для критерия знаков Приложения 2.

Пример 4. Учащиеся выполняли контрольную работу, направленную на проверку усвоения некоторого понятия. Пятнадцати учащимся затем предложили электронное пособие, составленное с целью формирования данного понятия у учащихся с низким уровнем обучаемости. После изучения пособия учащиеся снова выполняли ту же контрольного работу, которая оценивалась по пятибалльной системе.

Результаты двукратного выполнения работы представляют измерения по шкале порядка (пятибалльная шкала). В этих условиях возможно применение знакового критерия для выявления тенденции изменения состояния знаний учащихся после изучения пособия, так как выполняются все допущения этого критерия.

Результаты двукратного выполнения работы (в баллах) 15 учащимися запишем в форме таблицы (см. табл. 1).

Таблица 4.

Учащиеся (№)

Первое выполнение

Второе выполнение

Знак разности отметок

Проверяется гипотеза H 0 : состояние знаний учащихся не повысилось после изучения пособия. Альтернативная гипотеза: состояние знаний учащихся повысилось после изучения пособия.

Подсчитаем значение статистики критерия Т равное числу положительных разностей отметок, полученных учащимися. Согласно данным табл. 4 Т=10, n=12.

Для определения критических значений статистики критерия n-ta используем табл. Приложения 2. Для уровня значимости а = 0,05 при n =12 значение n-ta=9. Следовательно выполняется неравенство Т> n-ta (10>9). Поэтому в соответствии с правилом принятия решения нулевая гипотеза отклоняется на уровне значимости 0,05 и принимается альтернативная гипотеза, что позволяет сделать вывод об улучшении знаний учащихся после самостоятельного изучения пособия.

Пример 5. Предполагается, что изучение курса математики способствует формированию у учащихся одного из приемов логического мышления (например, приема обобщения) даже в том случае, если его формирование не проводится целенаправленно. Для проверки этого предположения был проведен следующий эксперимент.

Учащимся VII класса было предложено 5 задач, решение которых основано на использовании данного приема мышления. Считалось, что учащийся владеет этим приемом, если он дает верный ответ на 3 и более задачи.

Была разработана следующая шкала измерений: верно решена 1 или 2 задачи - оценка «0»; верно решено 3 задачи - оценка «1»; верно решено 4 задачи- оценка «2»; верно решено 5 задач - оценка «3».

Работа проводилась дважды: в конце сентября и конце мая следующего года. Ее писали 35 одних и тех же учащихся, отобранных методом случайного отбора из 7 разных школ. Результаты двукратного выполнения работы запишем в форме таблицы (см. табл. 5).

В соответствии с целями эксперимента формулируем нулевую гипотезу следующим образом: Н 0 - изучение математики не способствует формированию изучаемого приема мышления. Тогда альтернативная гипотеза будет иметь вид: Н 1 - изучение математики способствует овладению этим приемом мышления.

Таблица 5.

Согласно данным табл. 5, значение статистики Т=15 - число разностей со знаком «+». Из 35 пар 12 имеют знак «0»; значит, n = 35-12 = 23.

По таблице Приложения 2 для n =23 и уровня значимости 0,025 находим критическое значение статистики критерия, равное 16. Следовательно, верно неравенство Т

Поэтому в соответствии с правилом принятия решений приходится сделать вывод о том, что полученные результаты не дают достаточных оснований для отклонения нулевой гипотезы, т. е. мы не располагаем достаточными основаниями для отклонения утверждения о том, что изучение математики само по себе не способствует овладению выделенным приемом мышления.

6.2.2 Критерий χ2 (хи-квадрат)

Критерий χ 2 (хи-квадрат) применяется для сравнения распределений объектов двух совокупностей на основе измерений по шкале наименований в двух независимых выборках.

Предположим, что состояние изучаемого свойства (например, выполнение определенного задания) измеряется у каждого объекта по шкале наименований, имеющей только две взаимоисключающие категории (например: выполнено верно - выполнено неверно). По результатам измерения состояния изучаемого свойства у объектов двух выборок составляется четырехклеточная таблица 2X2. (см. табл. 6).

Таблица 6.

В этой таблице О ij - число объектов в i -ой выборке, попавших в j -ую категорию по состоянию изучаемого свойства; i =1,2 – число выборок; j =1,2 – число категорий;; N - общее число наблюдений, равное О 11 + О 12 + О 21 + О 22 или n 1 + n 2 .

Тогда на основе данных таблицы 2X2 (см. табл. 6) можно проверить нулевую гипотезу о равенстве вероятностей попадания объектов первой и второй совокупностей в первою (вторую) категорию шкалы измерения проверяемого свойства, например гипотезу о равенстве вероятностей верного выполнения некоторого задания учащимися контрольных и экспериментальных классов.

При проверке нулевых гипотез не обязательно, чтобы значения вероятностей р 1 и р 2 были известны, так как гипотезы только устанавливают между ними некоторые соотношения (равенство, больше или меньше).

Для проверки рассмотренных выше нулевых гипотез по данным таблицы 2X2 (см. табл. 6) подсчитывается значение статистики критерия Т по следующей общей формуле:

(9)

где n 1 , n 2 - объемывыборок, N = n 1 + n 2 - общеечисло наблюдений.

Проводится проверка гипотезы H 0 : p 1 £ p 2 - при альтернативе Н 1: р 1 >р 2 . Пусть a - принятый уровень значимости. Тогда значение статистики Т, полученное на основе экспериментальных данных, сравнивается с критическим значением статистики х 1-2 a , которое определяется по таблице c 2 c одной степенью свободы (см. Приложение 2) с учетом выбранного значения a . Если верно неравенство T < x 1-2 a , то нулевая гипотеза принимается на уровне a .Если данное неравенство не выполняется, то у нас нет достаточных оснований для отклонения нулевой гипотезы.

В связи с тем что замена точного распределения статистики Т распределением c 2 c одной степенью свободы дает достаточно хорошее приближение только для больших выборок, применение критерия ограничено некоторыми условиями.

1)сумма объемов двух выборок меньше 20;

2)хотя бы одна из абсолютных частот в таблице 2X2, составленной на основе экспериментальных данных, меньше 5.

Пример 6. Проводился эксперимент, направленный на выявление лучшего из учебников, написанных двумя авторскими коллективами в соответствии с целями обучения геометрии и содержанием программы IX класса. Для проведения эксперимента методом случайного отбора были выбраны два района, большинство школ которых относились по расположению к сельским. Учащиеся первого района (20 классов) обучались по учебнику № 1, учащиеся второго района (15 классов) обучались по учебнику №2.

Рассмотрим методику сравнения ответов учителей экспериментальных школ двух районов па один из вопросов анкеты: «Доступен ли учебник в целом для самостоятельного чтения и помогает ли он усвоить материал, который учитель не объяснял в классе (Ответ:да - нет.)

Отношение учителей к изучаемому свойству учебников измерено по шкале наименований, имеющей две категории: да, нет. Обе выборки учителей случайные и независимые.

Ответы 20 учителей первого района и 15 учителей второго района распределим на две категории и запишем в форме таблицы 2Х2 (табл. 5).

Таблица 7.

Все значения в табл. 7 не меньше 5, поэтому в соответствии с условиями использования критерия c 2 подсчет статистики критерия производится по формуле (9).

По таблице из приложения 2 для одной степени свободы (v = l ) и уровня значимости a =0,05 найдем х 1- a а =Т критич = 3,84. Отсюда верно неравенство Т наблюд <Т критич (1,86<3,84). Согласно правилу принятия решений для критерия c 2 , полученный результат не дает достаточных оснований для отклонения нулевой гипотезы, т. е. результаты проведенного опроса учителей двух экспериментальных районов не дают достаточных оснований для отклонения предположения об одинаковой доступности учебников № 1 и 2 для самостоятельного чтения учащимися.

Применение критерия хи-квадрат возможно и в том случае, когда объекты двух выборок из двух совокупностей по состоянию изучаемого свойства распределяются более чем на две категории. Например, учащиеся экспериментальных и контрольных классов распределяются на четыре категории в соответствии с отметками (в баллах: 2, 3, 4, 5), полученными учащимися за выполнение некоторой контрольной работы.

Результаты измерения состояния изучаемого свойства у объектов каждой выборки распределяются на С категорий. На основе этих данных составляется таблица 2ХС, в которой два ряда (по числу рассматриваемых совокупностей) и С колонок (по числу различных категорий состояния изучаемого свойства, принятых в исследовании).

Таблица 8.

На основе данных таблицы 8 можно проверить нулевую гипотезу о равенстве вероятностей попадания объектов первой и второй совокупностей в каждую из i ( i = l , 2, ..., С) категорий, т. е. проверить выполнение всех следующих равенств: р 11 = р 21 , p 12 = p 22 , …, p 1 c = p 2 c . Возможна, например, проверка гипотезы о равенстве вероятностей получения отметок «5», «4», «3» и «2» за выполнение учащимися контрольных и экспериментальных классов некоторого задания.

Для проверки нулевой гипотезы с помощью критерия c 2 на основе данных таблицы 2ХС подсчитывается значение статистики критерия Т по следующей формуле:

(10)

где п 1 и п 2 - объемы выборок.

Значение Т, полученное на основе экспериментальных данных, сравнивается с критическим значением х 1- a , которое определяется по таблице c 2 с k =С-1 степенью свободы с учетом выбранного уровнязначимости a . При выполнении неравенства Т> х 1- a а нулевая гипотеза отклоняется на уровне а и принимается альтернативная гипотеза. Это означает, что распределение объектов на С категорий по состоянию изучаемого свойства различно в двух рассматриваемых совокупностях.

Пример 7 . Рассмотрим методику сравнения результатов письменной работы, проверявшей усвоение одного из разделов курса учащимися первого и второго районов.

Методом случайного отбора из учащихся первого района, писавших работу, была составлена выборка объемом 50 человек, из учащихся второго района - выборка объемом 50 человек. В соответствии со специально разработанными критериями оценки выполнения работы каждый ученик мог попасть в одну из четырех категорий: плохо, посредственно, хорошо, отлично. Результаты выполнения работы двумя выборками учащихся используем для проверки гипотезы о том, что учебник № 1 способствует лучшему усвоению проверяемого раздела курса, т. е. учащиеся первого экспериментального района в средне будут получать более высокие оценки, чем учащиеся второго района.

Результаты выполнения работы учащимися обеих выборок запишем в виде таблицы 2X4 (табл. 9 ).

Таблица 9.

В соответствии с условиями использования критерия c 2 подсчет статистики критерия производится по корректированной формуле (10).

В соответствии с условиями применения двустороннего критерия хи-квадрат по таблице из приложения 2 для одной степени свободы (k Грабарь М.И., Краснянская К.А. Применение математической статистики в педагогических исследованиях. Непараметрические методы. М., «Педагогика», 1977, стр. 54

Грабарь М.И., Краснянская К.А. Применение математической статистики в педагогических исследованиях. Непараметрические методы. М., «Педагогика», 1977, стр. 57

Рассмотрим применение в MS EXCEL критерия хи-квадрат Пирсона для проверки простых гипотез.

После получения экспериментальных данных (т.е. когда имеется некая выборка ) обычно производится выбор закона распределения, наиболее хорошо описывающего случайную величину, представленную данной выборкой . Проверка того, насколько хорошо экспериментальные данные описываются выбранным теоретическим законом распределения, осуществляется с использованием критериев согласия . Нулевой гипотезой , обычно выступает гипотеза о равенстве распределения случайной величины некоторому теоретическому закону.

Сначала рассмотрим применение критерия согласия Пирсона Х 2 (хи-квадрат) в отношении простых гипотез (параметры теоретического распределения считаются известными). Затем - , когда задается только форма распределения, а параметры этого распределения и значение статистики Х 2 оцениваются/рассчитываются на основании одной и той же выборки .

Примечание : В англоязычной литературе процедура применения критерия согласия Пирсона Х 2 имеет название The chi-square goodness of fit test .

Напомним процедуру проверки гипотез:

на основе выборки вычисляется значение статистики , которая соответствует типу проверяемой гипотезы. Например, для используется t -статистика (если не известно);
при условии истинности нулевой гипотезы , распределение этой статистики известно и может быть использовано для вычисления вероятностей (например, для t -статистики это );
вычисленное на основе выборки значение статистики сравнивается с критическим для заданного значением ();
нулевую гипотезу отвергают, если значение статистики больше критического (или если вероятность получить это значение статистики () меньше уровня значимости , что является эквивалентным подходом).

Проведем проверку гипотез для различных распределений.

Дискретный случай

Предположим, что два человека играют в кости. У каждого игрока свой набор костей. Игроки по очереди кидают сразу по 3 кубика. Каждый раунд выигрывает тот, кто выкинет за раз больше шестерок. Результаты записываются. У одного из игроков после 100 раундов возникло подозрение, что кости его соперника – несимметричные, т.к. тот часто выигрывает (часто выбрасывает шестерки). Он решил проанализировать насколько вероятно такое количество исходов противника.

Примечание : Т.к. кубиков 3, то за раз можно выкинуть 0; 1; 2 или 3 шестерки, т.е. случайная величина может принимать 4 значения.

Из теории вероятности нам известно, что если кубики симметричные, то вероятность выпадения шестерок подчиняется . Поэтому, после 100 раундов частоты выпадения шестерок могут быть вычислены с помощью формулы
=БИНОМ.РАСП(A7;3;1/6;ЛОЖЬ)*100

В формуле предполагается, что в ячейке А7 содержится соответствующее количество выпавших шестерок в одном раунде.

Примечание : Расчеты приведены в файле примера на листе Дискретное .

Для сравнения наблюденных (Observed) и теоретических частот (Expected) удобно пользоваться .

При значительном отклонении наблюденных частот от теоретического распределения, нулевая гипотеза о распределении случайной величины по теоретическому закону, должна быть отклонена. Т.е., если игральные кости соперника несимметричны, то наблюденные частоты будут «существенно отличаться» от биномиального распределения .

В нашем случае на первый взгляд частоты достаточно близки и без вычислений сложно сделать однозначный вывод. Применим критерий согласия Пирсона Х 2 , чтобы вместо субъективного высказывания «существенно отличаться», которое можно сделать на основании сравнения гистограмм , использовать математически корректное утверждение.

Используем тот факт, что в силу закона больших чисел наблюденная частота (Observed) с ростом объема выборки n стремится к вероятности, соответствующей теоретическому закону (в нашем случае, биномиальному закону ). В нашем случае объем выборки n равен 100.

Введем тестовую статистику , которую обозначим Х 2:

где O l – это наблюденная частота событий, что случайная величина приняла определенные допустимые значения, E l – это соответствующая теоретическая частота (Expected). L – это количество значений, которые может принимать случайная величина (в нашем случае равна 4).

Как видно из формулы, эта статистика является мерой близости наблюденных частот к теоретическим, т.е. с помощью нее можно оценить «расстояния» между этими частотами. Если сумма этих «расстояний» «слишком велика», то эти частоты «существенно отличаются». Понятно, что если наш кубик симметричный (т.е. применим биномиальный закон ), то вероятность того, что сумма «расстояний» будет «слишком велика» будет малой. Чтобы вычислить эту вероятность нам необходимо знать распределение статистики Х 2 (статистика Х 2 вычислена на основе случайной выборки , поэтому она является случайной величиной и, следовательно, имеет свое распределение вероятностей ).

Из многомерного аналога интегральной теоремы Муавра-Лапласа известно, что при n->∞ наша случайная величина Х 2 асимптотически с L - 1 степенями свободы.

Итак, если вычисленное значение статистики Х 2 (сумма «расстояний» между частотами) будет больше чем некое предельное значение, то у нас будет основание отвергнуть нулевую гипотезу . Как и при проверке параметрических гипотез , предельное значение задается через уровень значимости . Если вероятность того, что статистика Х 2 примет значение меньше или равное вычисленному (p -значение ), будет меньше уровня значимости , то нулевую гипотезу можно отвергнуть.

В нашем случае, значение статистики равно 22,757. Вероятность, что статистика Х 2 примет значение больше или равное 22,757 очень мала (0,000045) и может быть вычислена по формулам
=ХИ2.РАСП.ПХ(22,757;4-1) или
=ХИ2.ТЕСТ(Observed; Expected)

Примечание : Функция ХИ2.ТЕСТ() специально создана для проверки связи между двумя категориальными переменными (см. ).

Вероятность 0,000045 существенно меньше обычного уровня значимости 0,05. Так что, у игрока есть все основания подозревать своего противника в нечестности (нулевая гипотеза о его честности отвергается).

При применении критерия Х 2 необходимо следить за тем, чтобы объем выборки n был достаточно большой, иначе будет неправомочна аппроксимация распределения статистики Х 2 . Обычно считается, что для этого достаточно, чтобы наблюденные частоты (Observed) были больше 5. Если это не так, то малые частоты объединяются в одно или присоединяются к другим частотам, причем объединенному значению приписывается суммарная вероятность и, соответственно, уменьшается число степеней свободы Х 2 -распределения .

Для того чтобы улучшить качество применения критерия Х 2 (), необходимо уменьшать интервалы разбиения (увеличивать L и, соответственно, увеличивать количество степеней свободы ), однако этому препятствует ограничение на количество попавших в каждый интервал наблюдений (д.б.>5).

Непрерывный случай

Критерий согласия Пирсона Х 2 можно применить так же в случае .

Рассмотрим некую выборку , состоящую из 200 значений. Нулевая гипотеза утверждает, что выборка сделана из .

Примечание : Cлучайные величины в файле примера на листе Непрерывное сгенерированы с помощью формулы =НОРМ.СТ.ОБР(СЛЧИС()) . Поэтому, новые значения выборки генерируются при каждом пересчете листа.

Соответствует ли имеющийся набор данных можно визуально оценить .

Как видно из диаграммы, значения выборки довольно хорошо укладываются вдоль прямой. Однако, как и в для проверки гипотезы применим Критерий согласия Пирсона Х 2 .

Для этого разобьем диапазон изменения случайной величины на интервалы с шагом 0,5 . Вычислим наблюденные и теоретические частоты. Наблюденные частоты вычислим с помощью функции ЧАСТОТА() , а теоретические – с помощью функции НОРМ.СТ.РАСП() .

Примечание : Как и для дискретного случая , необходимо следить, чтобы выборка была достаточно большая, а в интервал попадало >5 значений.

Вычислим статистику Х 2 и сравним ее с критическим значением для заданного уровня значимости (0,05). Т.к. мы разбили диапазон изменения случайной величины на 10 интервалов, то число степеней свободы равно 9. Критическое значение можно вычислить по формуле
=ХИ2.ОБР.ПХ(0,05;9) или
=ХИ2.ОБР(1-0,05;9)

На диаграмме выше видно, что значение статистики равно 8,19, что существенно выше критического значения – нулевая гипотеза не отвергается.

Ниже приведена , на которой выборка приняла маловероятное значение и на основании критерия согласия Пирсона Х 2 нулевая гипотеза была отклонена (не смотря на то, что случайные значения были сгенерированы с помощью формулы =НОРМ.СТ.ОБР(СЛЧИС()) , обеспечивающей выборку из стандартного нормального распределения ).

Нулевая гипотеза отклонена, хотя визуально данные располагаются довольно близко к прямой линии.

В качестве примера также возьмем выборку из U(-3; 3). В этом случае, даже из графика очевидно, что нулевая гипотеза должна быть отклонена.

Критерий согласия Пирсона Х 2 также подтверждает, что нулевая гипотеза должна быть отклонена.

Назначения критерия

Критерий χ 2 применяется в двух целях;

1) для сопоставления эмпирического распределения признака с теоретическим - равномерным, нормальным или каким-то иным;

2) для сопоставления двух, трех или более эмпирических распределений одного и того же признака 12 .

Описание критерия

Критерий χ 2 отвечает на вопрос о том, с одинаковой ли частотой встречаются разные значения признака в эмпирическом и теоретическом распределениях или в двух и более эмпирических распределениях.

Преимущество метода состоит в том, что он позволяет сопоставлять распределения признаков, представленных в любой шкале, начиная от шкалы наименований (см. п. 1.2). В самом простом случае альтернативного распределения "да - нет", "допустил брак - не допустил брака", "решил задачу - не решил задачу" и т. п. мы уже можем применить критерий χ 2 .

Допустим, некий наблюдатель фиксирует количество пешеходов, выбравших правую или левую из двух симметричных дорожек на пути из точки А в точку Б (см. Рис. 4.3).

Допустим, в результате 70 наблюдений установлено, что Э\ человек выбрали правую дорожку, и лишь 19 - левую. С помощью критерия χ 2 мы можем определить, отличается ли данное распределение выборов от равномерного распределения, при котором обе дорожки выбирались бы с одинаковой частотой. Это вариант сопоставления полученного эм пирического распределения с теоретическим. Такая задача может стоять, например, в прикладных психологических исследованиях, связанных с проектированием в архитектуре, системах сообщения и др.

Но представим себе, что наблюдатель решает совершенно другую задачу: он занят проблемами билатерального регулирования. Совпадение полученного распределения с равномерным его интересует гораздо в меньшей степени, чем совпадение или несовпадение его данных с данными других исследователей. Ему известно, что люди с преобладанием правой ноги склонны делать круг против часовой стрелки, а люди с преобладанием левой ноги - круг по ходу часовой стрелки, и что в исследовании коллег 13 преобладание левой ноги было обнаружено у 26 человек из 100 обследованных.

С помощью метода χ 2 он может сопоставить два эмпирических распределения: соотношение 51:19 в собственной выборке и соотношение 74:26 в выборке других исследователей.

Это вариант сопоставления двух эмпирических распределений по простейшему альтернативному признаку (конечно, простейшему с математической точки зрения, а отнюдь не психологической).

Аналогичным образом мы можем сопоставлять распределения выборов из трех и более альтернатив. Например, если в выборке из 50 человек 30 выбрали ответ (а), 15 человек - ответ (б) и 5 человек -ответ (в), то мы можем с помощью метода χ 2 проверить, отличается ли это распределение от равномерного распределения или от распределения ответов в другой выборке, где ответ (а) выбрали 10 человек, ответ (б) -25 человек, ответ (в) - 15 человек.

В тех случаях, если признак измеряется количественно, скажем, в баллах, секундах или миллиметрах, нам, быть может, придется объединить все обилие значений признака в несколько разрядов. Например, если время решения задачи варьирует от 10 до 300 секунд, то мы можем ввести 10 или 5 разрядов, в зависимости от объема выборки. Например, это будут разряды: 0-50 секунд; 51-100 секунд; 101-150 секунд, и т. д. Затем мы с помощью метода χ 2 будет сопоставлять частоты встречаемости разных разрядов признака, но в остальном принципиальная схема не меняется.

При сопоставлении эмпирического распределения с теоретическим мы определяем степень расхождения между эмпирическими и теоретическими частотами.

При сопоставлении двух эмпирических распределений мы определяем степень расхождения между эмпирическими частотами и теоретическими частотами, которые наблюдались бы в случае совпадения двух этих эмпирических распределений. Формулы расчета теоретических частот будут специально даны для каждого варианта сопоставлений.

Чем больше расхождение между двумя сопоставляемыми распределениями, тем больше эмпирическое значение у}.

Гипотезы

Возможны несколько вариантов гипотез, в зависимости от задач,

которые мы перед собой ставим.

Первый вариант:

Н 0: Полученное эмпирическое распределение признака не отличается от теоретического (например, равномерного) распределения.

Н 1: Полученное эмпирическое распределение признака отличается от теоретического распределения.

Второй вариант:

Н 0: Эмпирическое распределение 1 не отличается от эмпирического распределения 2.

Н 1: Эмпирическое распределение 1 отличается от эмпирического распределения 2.

Третий вариант:

Н 0: Эмпирические распределения 1, 2, 3, ... не различаются между собой.

Н 1: Эмпирические распределения 1, 2, 3, ... различаются между собой.

Критерий χ 2 позволяет проверить все три варианта гипотез.

Графическое представление критерия

Проиллюстрируем пример с выбором правой или левой дорожек на пути из точки А в точку Б. На Рис. 4.4 частота выбора левой дорожки представлена левым столбиком, а частота выбора правой дорожки - правым столбиком гистограммы 14 . На оси ординат отмеряются относительные частоты выбора, то есть частоты выбора той или иной дорожки, отнесенные к общему количеству наблюдений. Для левой дорожки относительная частота, которая называется также частостью, составляет 19/70, то есть 0,27, а для правой дорожки 51/70, то есть 0,73.

Если бы обе дорожки выбирались равновероятно, то половина испытуемых выбрала бы правую дорожку, а половина - левую. Вероятность выбора каждой из дорожек составляла бы 0,50.

Мы видим, что отклонения эмпирических частот от этой величины довольно значительны. Возможно, различия между эмпирическим и теоретическим распределением окажутся достоверными.

На Рис. 4.5 фактически представлены две гистограммы, но столбики сгруппированы так, что слева сопоставляются частоты предпочтения левой дорожки в выборе нашего наблюдателя (1) и в выборке Т.А. Доброхотовой и Н.Н. Брагиной (2), а справа - частоты предпочтения правой дорожки в этих же двух выборках.

Мы видим, что расхождения между выборками очень незначительны. Критерий χ2, скорей всего, подтвердит совпадение двух распределений.

Ограничения критерия

1.Объем выборки должен быть достаточно большим: п ≥ 30. При п <30 критерий χ2 дает весьма приближенные значения. Точность критерия повышается при больших п .

2. Теоретическая частота для каждой ячейки таблицы не должна быть меньше 5: f > 5. Это означает, что если число разрядов задано заранее и не может быть изменено, то мы не можем применять метод χ2, не накопив определенного минимального числа наблюдений. Если, например, мы хотим проверить наши предположения о том, что частота обращений в телефонную службу Доверия неравномерно распределяются по 7 дням недели, то нам потребуется 5*7=35 обращений. Таким образом, если количество разрядов (k ) задано заранее, как в данном случае, минимальное число наблюдений (n min ) определяется по формуле: n min =k *5.

3. Выбранные разряды должны "вычерпывать" все распределение, то есть охватывать весь диапазон вариативности признаков. При этом группировка на разряды должна быть одинаковой во всех сопоставляемых распределениях.

4. Необходимо вносить "поправку на непрерывность" при сопоставлении распределений признаков, которые принимают всего 2 значения. При внесении поправки значение χ 2 уменьшается (см. Пример с по правкой на непрерывность).

5. Разряды должны быть неперекрещивающимися: если наблюдение отнесено к одному разряду, то оно уже не может быть отнесено ни к какому другому разряду.

Сумма наблюдений по разрядам всегда должна быть равна общему количеству наблюдений.

Правомерен вопрос о том, что считать числом наблюдений - количество выборов, реакций, действий или количество испытуемых, которые совершают выбор, проявляют реакции или производят действия. Если испытуемый проявляет несколько реакций, и все они регистрируются, то количество испытуемых не будет совпадать с количеством реакций. Мы можем просуммировать реакции каждого испытуемого, как, например, это делается в методике Хекхаузена для исследования мотивации достижения или в Тесте фрустрационной толерантности С. Розенцвейга, и сравнивать распределения индивидуальных сумм реакций в нескольких выборках.

В этом случае числом наблюдений будет количество испытуемых. Если же мы подсчитываем частоту реакций определенного типа в целом по выборке, то получаем распределение реакций разного типа, и в этом случае количеством наблюдений будет общее количество зарегистрированных реакций, а не количество испытуемых.

С математической точки зрения правило независимости разрядов соблюдается в обоих случаях: одно наблюдение относится к одному и только одному разряду распределения.

Можно представить себе и такой вариант исследования, где мы изучаем распределение выборов одного испытуемого. В когнитивно-бихевиоральной терапии, например, клиенту предлагается всякий раз фиксировать точной время появления нежелательной реакции, например, приступов страха, депрессии, вспышек гнева, самоуничижающих мыслей и т. п. В дальнейшем психотерапевт анализирует полученные данные, выявляя часы, в которые неблагоприятные симптомы проявляются чаще, и помогает клиенту строить индивидуальную программу предупреждения неблагоприятных реакций.

Можно ли с помощью критерия χ2 доказать, что некоторые часы являются в этом индивидуальном распределении более часто встречающимися, а другие - менее часто встречающимися? Все наблюдения - зависимы, так как они относятся к одному и тому же испытуемому; в то же время все разряды - неперекрещивающиеся, так как один и тот же приступ относится к одному и только одному разряду (в данном случае - часу дня). По-видимому, применение метода χ2 будет в данном случае некоторым упрощением. Приступы страха, гнева или депрессии могут наступать неоднократно в течение дня, и может оказаться так, что, скажем, ранний утренний, 6-часовой, и поздний вечерний, 12-часовой, приступы обычно появляются вместе, в один и тот же день: в то же время дневной 3-часовой приступ появляется не ранее как через сутки после предыдущего приступа и не менее чем за двое суток до следующего и т. п. По-видимому, речь здесь может идти о сложной математической модели или вообще о чем-то таком, чего нельзя "поверить алгеброй". И тем не менее в практических целях может оказаться полезным использовать критерий для того, чтобы выявить систематическую неравномерность наступления каких-либо значимых событий, выбора, предпочтений и т. п. у одного и того же человека.

Итак, одно и то же наблюдение должно относиться только к одному разряду. Но считать ли наблюдением каждого испытуемого или каждую исследуемую реакцию испытуемого - вопрос, решение которого зависит от целей исследования (см.. напр., Ганзен В.А., Балин В.Д., 1991, с.10).

Главное же "ограничение" критерия χ 2 - то, что он кажется большинству исследователей пугающе сложным.

Попытаемся преодолеть миф о непостижимой трудности критерия χ 2 . Чтобы оживить изложение, рассмотрим шутливый литературный пример.

Критерий применяется в двух случаях:

1) для сопоставления эмпирического распределения признака с теоретическим (равномерным, нормальным или каким-то иным);

2) для сопоставления двух эмпирических распределений одного и того же признака.

Критерий отвечает на вопрос о том, с одинаковой ли частотой встречаются разные значения признака в эмпирическом и теоретическом распределениях или в двух эмпирических распределениях.

Признак может быть измерен по любой шкале, даже номинальной.

Ограничения:

2) теоретическая частота для каждой ячейки таблицы не должна быть меньше 5: f³5. Это означает, что если число разрядов задано заранее и не может быть изменено, то мы можем применять метод c 2 , только накопив определенное минимальное число наблюдений. Так, если количество разрядов (k ) задано заранее, минимальное число наблюдений (n min) определяется по формуле: n min = 5k

3) выбранные разряды должны «вычерпывать» все распределение, то есть охватывать весь диапазон вариативности признаков. При этом группировка на разряды должна быть одинаковой во всех сопоставляемых распределениях;

4) необходимо вносить поправку на непрерывность при сопоставлении распределений признаков, которые применяют всего 2 значения. При внесении поправки значение c 2 уменьшается;

5) разряды должны быть неперекрещивающимися: если наблюдение отнесено к одному разряду, то оно уже не может отнесено ни к какому другому разряду.

Вычисление критерия:

1) при сравнении эмпирического с теоретическим равномерным распределением. Для этого лучше воспользоваться таблицей 34.

Таблица 34

Разряды	f эj	f т	(f э j -f т)	(f э j -f т) 2	(f э j -f т)/f т

Здесь в 1 столбике даются наименования разрядов,

во 2 столбике даются эмпирические частоты по каждому разряду f э j , где j меняется от 1 до k ,

в 3 столбике теоретическая частота, одинаковая для каждого разряда и вычисленная по формуле f т =n/k,

в 4 столбике находится разность между эмпирической и теоретической частотами по каждому разряду,

в 5 столбике значения 4 столбика возводятся в квадрат по каждому разряду,

в 6 столбике находится отношение значений 5 столбика к теоретической частоте по каждому разряду.

Если c 2 >c 2 0,01 , то эмпирическое распределение отличается от равномерного, если c 2 £c 2 0,05 , то эмпирическое распределение не отличается от равномерного, если c 2 0,05 < c 2 £c 2 0,01, то отличие эмпирического распределения от равномерного значимо на 5% уровне.

Таблица 35

Распределение учащихся по когнитивному стилю «дифференциальность-интегральность» и расчет данных по критерию c 2

Пример. У учащихся подросткового возраста (60 человек 13-14 лет) выявлялся когнитивный стиль «дифференциальность-интегральность» по методике Г.А. Берулава. В каждом стиле выделяются три стратегии: теоретическая, деятельностная, эмоциональная. Распределение учащихся по стилям представлены в таблице 35. Можно ли утверждать, что в данной группе учащихся равномерно представлены все данные стили?

Решение: n=60 >

Сформулируем экспериментальную гипотезу: распределение учащихся по стилям «дифференциальность-интегральность» с тремя стратегиями является равномерным.

к=6, следовательно, f т =60/6=10.

Для n=к-1=6-1=5

c 2 0,05 =11,070 c 2 0,01 =15,089

c 2 >c 2 0,01 , следовательно, экспериментальная гипотеза отвергается.

Ответ: распределение учащихся по стилям «дифференциальность-интегральность» с тремя стратегиями отличается от равномерного.

2) При сравнении двух эмпирических распределений:

Вычисления также произведем с помощью таблицы 36.

Таблица 36

нр	f э1 j	f э2 j	f э1 j +f э2 j	f т1 j	f т2 j	(f э1 j -f т1 j) 2 f т1 j	(f э2 j -f т2 j) 2 f т2 j

Здесь в 1 столбце записывается наименование разрядов,

во втором столбце записываются соответствующие частоты первого эмпирического распределения (f э1 j), где j меняется от 1 до к,

в третьем столбце записываются соответствующие частоты второго эмпирического распределения (f э2 j),

в 4 столбце находится сумма эмпирических частот первого и второго распределения по каждому разряду отдельно (f э1 j +f э2 j),

в 7 столбце находится квадрат разности соответственно эмпирической частоты первого распределения с его теоретической частотой по каждому разряду и делится на эту теоретическую частоту ((f э1 j -f т1 j) 2 / f т1 j),

в 8 столбце находится квадрат разности соответственно эмпирической частоты второго распределения с его теоретической частотой по каждому разряду и делится на эту теоретическую частоту ((f э2 j -f т2 j) 2 / f т2 j).

Значение критерия есть сумма всех значений 7 и 8 столбцов, т.е.

Если c 2 >c 2 0,01 , то одно эмпирическое распределение отличается от другого, если c 2 £c 2 0,05 , то первое эмпирическое распределение не отличается от второго, если c 2 0,05 < c 2 £c 2 0,01, то отличие двух эмпирических распределений друг от друга значимо на 5% уровне.

Пример . У учащихся подросткового возраста массовой школы (25 человек) и воспитанников детского дома (25 человек) определялись особенности образа «я» по методике «Каким я кажусь себе». В результате выделилось 7 категорий высказываний о себе. Данные представлены в таблице 36. Различается ли распределение количества высказываний о себе по категориям подростков детского дома и массовой школы?

Решение: n 1 =88 (количество высказываний подростков массовой школы о себе), n 2 =111 (количество высказываний подростков детского дома о себе). n 1 , n 2 >30, следовательно, применим критерий c 2 .

Сформулируем экспериментальную гипотезу: распределение высказываний подростков детского дома и массовой школы о себе по различным категориям существенно отличаются.

Вычислим эмпирическое значение критерия в таблице 37.

Таблица 37

Количество высказываний подростков детского дома и массовой школы о себе и расчет критерия c 2

№ катег. выск.	f 1	f 2	f 1 +f 2	f т 1	f т 2	(f 1 -f т 1) 2 f т 1	(f 2 -f т 2) 2 f т2
				13,27	16,73	0,81	0,53
				19,45	24,54	0,33	0,26
				8,84	11,15	1,67	1,33
				10,17	12,83	8,27	6,55
				12,38	15,62	4,69	3,72
				15,48	19,52	0,01	0,01
				8,4	10,59	5,19	4,1

1) формально-библиографические ролевые сведения; 2) отношения к окружающим людям; 3) отношение к своему возрасту, взрослости, самостоятельности; 4) умения, интересы, способности, интеллект; 5) поведение; 6) качества личности; 7) внешность, отношение к сверстникам противоположного пола.

χ 2 эмп =0,81+0,33+1,67+8,27+4,69+0,01+5,19+0,53+0,26+1,33+6,55+3,72+0,01+4,1=37,47;

Найдем число степень свободы ν=7-1=6.

Для ν=6 χ 2 0,01 =16,812; χ 2 0,05 = 12,592.

χ 2 эмп >

Ответ: Количество высказываний о себе, относящихся к разным категориям, у подростков детского дома отличаются от количества высказываний подростков массовой школы.

Поправка на непрерывность вносится тогда, когда n=1. Формула тогда имеет следующий вид:

Пример . У студентов I курса педагогического вуза (факультетов физики и математики, биологии и химии, филологии) выявлялась принадлежность к когнитивному стилю «полезависимость-поленезависимость» по методике «Замаскированные фигуры» Готтшальтда. Результаты исследования представлены в таблице 37. Выявляются ли половые различия в принадлежности к данным стилям?

Решение: n 1 =49 (количество юношей), n 2 =53 (количество девушек), n 1 , n 2 >30, следовательно, применим критерий c 2 .

Сформулируем экспериментальную гипотезу. Юноши и девушки студенты по принадлежности к когнитивному стилю «полезависимость-поленезависимость» различаются.

Найдем эмпирическое значение критерия по таблице 38.

Таблица 38

Распределение девушек и юношей по принадлежности к стилю «полезависимость-поленезависимость» и расчет значения критерия χ 2

к=2, следовательно, n=1.

Для данного n - χ 2 0,01 =6,635; χ 2 0,05 = 3,841.

χ 2 эмп > χ 2 0,01 Þ принимается экспериментальная гипотеза.

Ответ: юноши и девушки по принадлежности к когнитивному стилю «полезависимость-поленезави-симость» различаются.

Выбор