Смысл и определение индекса множественной корреляции

Показатель множественной корреляции характеризует тесноту рассматриваемого набора факторов с исследуемым признаком, или, иначе, оценивает тесноту совместного влияния факторов на результат.

Независимо от формы связи показатель множественной корреляции может быть найден как индекс множественной корреляции:

где s 2 y – общая дисперсия результативного признака;

s ост 2 – остаточная дисперсия для уравнения у = ¦(х 1, х 2 ,….,x p).

Методика построения индекса множественной корреляции аналогична построению индекса корреляции для парной зависимости. Границы его изменения те же: от 0 до 1. Чем ближе его значение к 1, тем теснее связь результативного признака со всем набором исследуемых факторов. Величина индекса множественной корреляции должна быть больше или равна максимальному парному индексу корреляции:

При правильном включении факторов в регрессионной анализ величина индекса множественной корреляции будет существенно отличаться от индекса корреляции парной зависимости. Если же дополнительно включенные в уравнение множественной регрессии факторы третьестепенны, то индекс множественной корреляции может практически совпадать с индексом парной корреляции.

При линейной зависимости признаков формула индекса корреляции может быть представлена следующим выражением:

(3.8)

где - стандартизованные коэффициенты регрессии;

Парные коэффициенты корреляции результата с каждым фактором.

Индекс корреляции - нормированный показатель тесноты связи. Коэффициент индекса корреляции показывает долю общей вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющей переменной.Чем ближе индекс корреляции к 1 , тем теснее связь рассматриваемых признаков, тем более надежно найденное уравнение регрессии.

Общая дисперсия результативного признака y,

Остаточная дисперсия, определяемая по уравнению нелинейной регрессии.

Тест Бокса – Кокса. При сравнении моделей с использованием в качестве зависимой переменной y и ln y проводится такое преобразование масштаба наблюдений y, при котором можно непосредственно сравнивать СКО в линейной и логарифмической моделях. Выполняются следующие шаги:

Вычисляется среднее геометрическое значений y в выборке. Оно совпадает с экспонентой среднего арифметического логарифмов y.

Все значения y пересчитываются делением на среднее геометрическое, получаем значения y*.



Оцениваются две регрессии:

Для линейной модели с использованием y* в качестве зависимой переменной;

Для логарифмической модели с использованием ln y * вместо ln y .

Во всех других отношениях модели должны оставаться неизменными. Теперь значения СКО для двух регрессий сравнимы, и модель с меньшей остаточной СКО обеспечивает лучшее соответствие исходным данным.

Для проверки, обеспечивает ли одна из моделей значимо лучшее соответствие, можно вычислить величину (n/2)lnz,

где z – отношение значений остаточной СКО в перечисленных регрессиях.

Эта статистика имеет распределение хи – квадрат с одной степенью свободы. Если она превышает критическое значение при выбранном уровне значимости α, то делается вывод о наличии значимой разницы в качестве оценивания. Величина коэффициента эластичности показывает, на сколько процентов изменится результативный признак Y, если факторный признак изменится на 1 %

При парных нелинейных зависимостях для определения тесноты связи между результативным и факторным признаками и оценки степени влияния факторного признака на результативный используются индексы корреляции и детерминации.

ЗАДАНИЕ 1 : Исследуем зависимость между X (среднегодовой стоимостью основных производственных фондов, млрд. руб.) и Y (ССЧ работающих, чел.) (табл. 2).

Таблица 2

Таблица 3

Таблица 4

Так как при параболическом виде связи j= 1,23, то мы не будем рассматривать этот вид связи (j должно быть меньше или равно 1).

Таблица 5

X Вид уравнения
Теоретические данные Эмпирические данные
линейное параболическое гиперболическое
340,32 - 311,82
2,7 354,29 - 359,31
356,76 - 362,11
3,1 357,58 - 362,92
3,1 357,58 - 362,92
3,1 357,58 - 362,92
3,3 359,23 - 364,39
3,5 360,87 - 365,70
3,5 360,87 - 365,70
364,98 - 368,39
4,5 369,09 - 370,49
4,7 370,73 - 371,20
4,9 372,38 - 371,86
5,6 378,13 - 373,78
389,64 - 376,47

1. Исходя из данных таблицы (Таблица 1) к эмпирическим данным близко лежит график гиперболической зависимости, потому что корреляционное отношение при этом равно 0,14 > 0,11 корреляционное отношение при линейной зависимости, а значит его значение близко к 1.

2. О более тесной говорит коэффициент корреляции, r = 0,14

3. Коэффициент детерминации показывает долю влияния фактора, D=0,02.

4. График свидетельствует о выше приведенных выводах: Если результативный признак с увеличением факторного признака возрастает не бесконечно, а стремится к конечному пределу, то для анализа такого признака применяется уравнение гиперболы.

5. Таким образом, применяется гиперболический тип зависимости.

ЗАДАНИЕ 2 : Исследуем зависимость между X (среднегодовой стоимостью основных производственных фондов, млрд. руб.) и Y (Товарной продукцией, млрд. руб.) (табл. 6).

Таблица 6

Среднегодовая стоимость основных производственных фондов, млрд. руб. Товарная продукция, млрд. руб.
1,6
2,7 2,3
1,4
3,1 2,5
3,1
3,1 3,6
3,3 1,3
3,5 2,5
3,5 7,9
2,8
4,5 5,6
4,7 3,5
4,9 4,4
5,6
12,9

Таблица 7

Таблица 8

Так как при параболическом виде связи j= 1,81, то мы не будем рассматривать этот вид связи (j должно быть меньше или равно 1).

Таблица 9

X Вид уравнения
Теоретические данные Эмпирические данные
линейное параболическое гиперболическое
-0,83 - -0,66 1,6
2,7 2,25 - 14,87 2,3
2,79 - 17,09 1,4
3,1 2,97 - 17,81 2,5
3,1 2,97 - 17,81
3,1 2,97 - 17,81 3,6
3,3 3,33 - 19,25 1,3
3,5 3,70 - 20,67 2,5
3,5 3,70 - 20,67 7,9
4,60 - 24,17 2,8
4,5 5,51 - 27,62 5,6
4,7 5,87 - 28,98 3,5
4,9 6,23 - 30,34 4,4
5,6 7,50 - 35,07
10,03 - 44,41 12,9

1. Исходя из данных таблицы (Таблица 6) к эмпирическим данным близко лежит график линейной зависимости, потому что корреляционное отношение при этом равно 0,80 > 0,45 корреляционное отношение при гиперболической зависимости, а значит его значение близко к 1.

3. Коэффициент детерминации показывает долю влияния фактора, D=0,63.

4. График свидетельствует о выше приведенных выводах: Если с увеличением факторного признака результативный признак равномерно возрастает, то такая зависимость является линейной и выражается уравнением прямой.

5. Таким образом, применяется линейный тип зависимости.

ЗАДАНИЕ 3 : Исследуем зависимость между X (ССЧ работающих, чел.) и Y (Товарной продукцией, млрд. руб.) (табл. 10).

Таблица 10

Таблица 11

Таблица 12

Таблица 13

X Вид уравнения
Теоретические данные Эмпирические данные
линейное параболическое гиперболическое
3,55 8,72 3,53 2,3
3,55 8,72 3,87 1,3
3,55 8,72 3,92 12,9
3,55 8,72 4,09 2,5
3,55 8,72 4,13 1,4
3,55 8,72 4,13 3,6
3,55 8,72 4,20 1,6
3,55 8,72 4,23 3,5
3,55 8,72 4,26 2,8
3,55 8,72 4,38 7,9
3,55 8,72 4,40
3,55 8,72 4,45 5,6
3,55 8,72 4,47
3,55 8,72 4,55 4,4
3,55 8,72 4,66 2,5

1. Исходя из данных таблицы (Таблица 6) к эмпирическим данным близко лежит график параболической зависимости. Потому что корреляционное отношение при этом равно 0,90 > 0,09 и >0,06 корреляционное отношение при гиперболической и линейной зависимостях, а значит его значение близко к 1.

2. О более тесной говорит коэффициент корреляции, r = 0,80

3. Коэффициент детерминации показывает долю влияния фактора, D=0,80.

4. График свидетельствует о выше приведенных выводах: Если связь между признаками нелинейная и с возрастанием факторного признака происходит ускоренное возрастание или убывание результативного признака, то корреляционная зависимость может быть выражена параболой второго порядка.

5. Таким образом, применяется параболический тип зависимости.

©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-08-20


Исторически первым показателем тесноты связи был парный коэффициент корреляции, предложенный К. Пирсоном. Он основан на показателе ковариации, который представляет собой среднее значение произведения отклонений индивидуальных значений результативного и факторного признаков от своих средних значений. Показатель ковариации оценивает совместное изменение двух признаков, результата и фактора:

где - значение признака-результата у i-й единицы совокупности; - значение признака-фактора у i-й единицы совокупности; - среднее значение признака-результата; - среднее значение признака-фактора.

Показатель ковариации содержательно сложно интерпретировать. Нормированное значение показателя ковариации – это и есть показатель парной корреляции Пирсона.

, (53)

или после преобразований:

, (54)

где - стандартное отклонение признака-результата; - стандартное отклонение признака-фактора.

Достоинством коэффициента корреляции является то, что он имеет пределы изменения, следовательно, его величина легко может быть интерпретирована. Значения показателя изменяются от -1 до +1. Близость коэффициента к нулю свидетельствует об отсутствии корреляционной зависимости. Близость к единице – о тесной корреляционной зависимости. Знак коэффициента корреляции указывает на прямую, либо обратную зависимость. Величина конкретных значений интерпретируется следующим образом:

- связь практически отсутствует;

- связь заметная;

- связь умеренная;

- связь тесная.

Парный коэффициент корреляции – симметричный показатель, т.е. . Это означает, что высокое значение коэффициента корреляции не может свидетельствовать о наличии причинно-следственной связи, а говорит лишь о наличии параллельной вариации признаков (показателей). Что есть фактор, а что есть результат, не имеет значения. Наличие причинно-следственной связи обосновывается теоретическим анализом изучаемого объекта на основе положений экономической теории.

Расчет коэффициента корреляции, как и большинства статистических показателей, рассчитываемых по ограниченному объему совокупности, сопровождается оценкой его значимости (существенности). Необходимо подтвердить, что полученное значение коэффициента – не результат действия случайных факторов. Для оценки значимости рассчитывается t-статистика, как отношение оцениваемой характеристики (в данном случае - r) к ее стандартной ошибке (). Иными словами, осуществляется проверка гипотезы об отсутствии корреляционной зависимости между изучаемыми переменными, т.е. предполагается, что коэффициент корреляции в генеральной совокупности равен нулю ():

(55)

При условии справедливости нулевой гипотезы, распределение t-статистики соответствует закону распределения вероятностей Стьюдента с n-2 степенями свободы. Исходя из этого, находится табличное значение t-статистики, соответствующее заданному аналитиком уровню вероятности и полученному числу степеней свободы. Если расчетное значение t окажется больше табличного, то гипотеза об отсутствии связи должна быть отвергнута (с вероятностью ошибки =1- принятый уровень вероятности) и принята альтернативная гипотеза о значимости полученного коэффициента корреляции, т.е. о наличии статистически значимой связи между изучаемыми признаками.

В практике экономических исследований и анализа часто приходится изучать множественную корреляционную зависимость, т.е. оценивать влияние двух и более факторов на признак-результат. Теснота связи между комплексом факторов и зависимой переменной оценивается с помощью множественного коэффициента корреляции (). При двухфакторной зависимости множественный коэффициент корреляции рассчитывается следующим образом:

где - парные коэффициенты корреляции результата и каждого из факторов, - коэффициент корреляции между факторами.

Множественный коэффициент корреляции изменяется от нуля до единицы, не может быть отрицательным. Интерпретация конкретных значений множественного коэффициента корреляции аналогична интерпретации значений парного коэффициента с той только разницей, что оценивается теснота корреляционной зависимости между результативным признаком и всей совокупностью анализируемых факторов.

Квадрат коэффициента корреляции (r 2 ; ) – это показатель, который называется коэффициентом детерминации. Он характеризует долю объясненной (факторной) дисперсии результативного признака в общей дисперсии результативного признака.

При изучении множественной корреляционной зависимости рассчитываются также частные коэффициенты корреляции, характеризующие тесноту связи между результатом и одним признаком-фактором, при условии элиминирования влияния других факторов, включенных в анализ. Элиминирование выполняется путем закрепления значений факторов (кроме оцениваемого) на неизменном уровне (как правило, на среднем).

При двухфакторной корреляционной зависимости рассчитывается два частных коэффициента корреляции:

, (57)

- данный частный коэффициент характеризует степень тесноты корреляционной зависимости между результатом (y) и фактором x 1 при элиминировании фактора x 2.

, (58)

Этот коэффициент характеризует тесноту зависимости признака-результата (y) от признака- фактора x 2 при элиминировании фактора x 1.

Коэффициенты корреляции, в большей степени, пригодны для оценки линейной зависимости между изучаемыми признаками. Если связь нелинейная, то следует отдать предпочтение универсальному показателю, который называется корреляционное отношение() . Оно может быть:

Ø Эмпирическое, рассчитанное по данным аналитической группировки, как отношение межгрупповой дисперсии () к общей ():

. (59)

Ø Теоретическое, рассчитанное по результатам регрессионного анализа, как отношение факторной дисперсии () к общей ():

. (60)

Корреляционное отношение изменяется так же от нуля до единицы и интерпретируется аналогично коэффициенту корреляции. Квадрат корреляционного отношения () - коэффициента детерминации.

Для понимания сути корреляционного отношения и коэффициента детерминации, следует сформулировать правило сложения дисперсий в терминах регрессионного анализа. Оно звучит так: общая дисперсия признака-результата есть сумма факторной и остаточной дисперсий:

. (61)

Факторная дисперсия () – это аналог межгрупповой дисперсии. Показатель характеризует вариацию признака-результата, обусловленную вариацией признаков-факторов, включенных в анализ.

Остаточная дисперсия( ) – аналог внутригрупповой дисперсии. Характеризует вариацию признака-результата, обусловленную вариацией факторов, не включенных в анализ, т.е. оставшихся за пределами внимания аналитика.

Общая дисперсияпризнака-результата () обусловлена вариацией всех факторов, объективно влияющих на результат (зависимую переменную).

Коэффициент детерминации ( , )– это важный аналитический показатель, характеризующий долю факторной дисперсии в общей дисперсии результативного признака, т.е. долю объясненной вариации зависимой переменной, которую удается объяснить вариацией факторов, включенных в анализ.

Величина коэффициента детерминации реагирует на число факторов, включенных в уравнение регрессии. Поэтому для ответа на вопрос, какую часть дисперсии результативного признака удается объяснить в каждом конкретном случае, исходят из величины скорректированного коэффициента детерминации. Корректировка коэффициента осуществляется с учетом числа степеней свободы, т.е. с учетом объема изучаемой совокупности и числа факторов, включенных в анализ:

, (62)

где - коэффициента детерминации, скорректированный с учетом числа степеней свободы; n – объем изучаемой совокупности; k – число факторов, включенных в анализ.

Оценка корреляционной зависимости может быть также дана на основе индекса корреляции ( - «ро»), который рассчитывается с использованием величины остаточной дисперсии по следующей формуле:

. Суть данного показателя также вытекает из правила сложения дисперсий, т.е. - аналог коэффициента корреляции, а - коэффициента детерминации.

Корреляционное отношение

Коэффициент корреляции является полноценным показателем тесноты связи лишь в случае линейной зависимости между переменными. Однако часто возникает необходимость в достоверном показателе интенсивности связи при любой форме зависимости.

Для получения такого показателя вспомним правило сложения дисперсий (19)

где S 2 y -- общая дисперсия переменной

S " 2 iy -- средняя групповых дисперсий S у , или остаточная дисперсия --

Остаточной дисперсией измеряют ту часть колеблемости Y, которая возникает из-за изменчивости неучтенных факторов, не зависящих от X.

Межгрупповая дисперсия выражает ту часть вариации Y, которая обусловлена изменчивостью X. Величина

получила название эмпирического корреляционного отношения Y по X. Чем теснее связь, тем большее влияние на вариацию переменной доказывает изменчивость X по сравнению с неучтенными факторами, тем выше з yx .

Величина з 2 ух , называемая эмпирическим коэффициентом детерминации, показывает, какая часть общей вариации Y обусловлена вариацией X. Аналогично вводится эмпирическое корреляционное отношение X по Y.

Отметим основные свойства корреляционных отношений (при достаточно большом объеме выборки п):

1. Корреляционное отношение есть неотрицательная величина, не превосходящая 1: 0?з? 1.

2. Если з = 0, то корреляционная связь отсутствует.

3. Если з= 1, то между переменными существует функциональная зависимость.

4. з xy ? з xy т.е. в отличие от коэффициента корреляции r (для которого r yx = r xy = r ) при вычислении корреляционного отношения существенно, какую переменную считать независимой, а какую -- зависимой.

Эмпирическое корреляционное отношение з xy является показателем рассеяния точек корреляционного поля относительно эмпирической линии регрессии, выражаемой ломаной, соединяющей значения y i . Однако в связи с тем, что закономерное изменение у, нарушается случайными зигзагами ломаной, возникающими вследствие остаточного действия неучтенных факторов, R xy преувеличивает тесноту связи. Поэтому наряду с з xy рассматривается показатель тесноты связи R yx , характеризующий рассеяние точек корреляционного поля относительно линии регрессии у х.

Показатель R yx получил название теоретического корреляционного отношения или индекса корреляции Y по X

где дисперсии д 2 у и s " y 2 определяются по (20) - (22), в которых групповые средние y i , заменены условными средними у хi , вычисленными по уравнению регрессии. Подобно R yx вводится и индекс корреляции X по Y

Достоинством рассмотренных показателей з и R является то, что они могут быть вычислены при любой форме связи между переменными. Хотя з и завышает тесноту связи по сравнению с R, но для его вычисления не нужно знать уравнение регрессии. Корреляционные отношения з и R связаны с коэффициентом корреляции r следующим образом:

Покажем, что в случае линейной модели, т.е. зависимости

у х - у = b yx (x - х), индекс корреляции R xy равен коэффициенту корреляции r (по абсолютной величине): R yx = |r| (или R yx= |r|), для простоты n i = 1. По формуле (26)


(так как из уравнения регрессии y xi -y=b yx (x i -x)

Теперь, учитывая формулы дисперсии, коэффициентов регрессии и корреляции, получим:

Индекс корреляции

Коэффициент индекса корреляции показывает долю общей вариации зависимой переменной, обусловленной регрессией или изменчивостью объясняющей переменной. Чем ближе индекс корреляции к 1, тем теснее наблюдения примыкают к линии регрессии, тем лучше регрессия описывает зависимость переменных.

Проверка значимости корреляционного отношения з основана на том, что статистика

(где т -- число интервалов по группировочному признаку) имеет F-распределение Фишера - Снедекора с к1=т- 1 и k 2 =n - т степенями свободы. Поэтому з значимо отличается от нуля, если F >F a,k1,k2 , где F a,k1,k2 - табличное значение F-критерия на уровне значимости б при числе степеней свободы к 1 = т - 1 и к 2 = п - т.

Индекс корреляции R двух переменных значим, если значение статистики:

больше табличного F a,k1,k2 , где к1=1 и k 2 = n - 2.

Коррелированность и зависимость случайных величин

Две случайные величины x и у называют коррелированными, если их корреляционный момент (или, что то же, коэффициент корреляции) отличен от нуля; X и у называют некоррелированными величинами, если их корреляционный момент равен нулю. Две коррелированные величины также и зависимы. Действительно, допустив противное, мы должны заключить, что K xy =0, а это противоречит условию, так как для коррелированных величин K xy ?0. Обратное предположение не всегда имеет место, т. е. если две величины зависимы, то они могут быть как коррелированными, так и некоррелированными. Другими словами, корреляционный момент двух зависимых величин может быть не равен нулю, но может и равняться нулю.

Итак, из коррелированности двух случайных величин следует их зависимость, но из зависимости еще не вытекает коррелированность из независимости двух величин следует их некоррелированность, но из некоррелированности еще нельзя заключить о независимости этих величин.

1. Парная корреляция 1

2. Множественная корреляция 26

1. Парная корреляция

При парной корреляции устанавливают зависимость меж­ду двумя признаками, один из которых является факторным, другой  результатив­ным. Связь между ними может иметь различный характер. Поэтому важно правильно установить форму связи между признаками и в соответствии с этим по­добрать математическое уравнение, выражающее эту связь.

Вопрос о форме связи можно решить несколькими спосо­бами: на основе логического анализа, по данным статистичес­кой группировки или графическим способом. При парной корреляции предпочтителен последний способ, так как он позволяет выявить не только характер связи, но дает пред­ставление о степени связи.

После того, как определен вид уравнения связи, необхо­димо найти числовые значения его параметров. При вычисле­нии параметров применяют различные методы: метод наи­меньших квадратов, метод средних, метод наименьшего пре­дельного уклонения и др. Наиболее распространенным явля­ется метод наименьших квадратов. При его использовании находят такие значения параметров уравнения регрессии, при которых сумма квадратов отклонений фактических данных от расчетных является минимальной:

где y – фактическое значение результативного признака;

расчетное значение результативного признака.

Для этого решают систему нормальных уравнений, кото­рые строятся следующим образом. Исходное уравнение пере­множают сначала на коэффициент при первом неизвестном и полученные данные суммируют. Затем исходное уравнение перемножают на коэффициент при втором неизвестном, полу­ченные данные также суммируют и т. д.

Рассмотрим, как получается система нормальных уравне­ний для уравнения линейной регрессии
.

В данном уравнении коэффициент при первом неизвестном а 0 равен 1. Следовательно, исходное уравнение после перемножения сохраняет прежний вид:

,

а после суммирования

.

Коэффициент при втором неизвестном a 1 равен x . Умно­жая на него все члены исходного уравнения, получим:

,

а после суммирования

.

Значения
,
,
и
рассчитывают по данным на­блюдения, а неизвестные параметрыa 0 и a 1 путем решения системы уравнений:

Правила получения системы нормальных уравнений распространяются на все виды уравнений регрессии. После того, как определены параметры уравнения регрес­сии, необходимо его оценить, то есть проверить, насколько оно соответствует изучаемой совокупности и как тесно связан результативный признак с фактором, обусловливающим его уровень. Для этого сравнивают вариацию значений результа­тивного признака, рассчитанных по уравнению регрессии, то есть зависящих от факторного признака, с вариацией факти­ческих (исходных) значений результативного признака. Чем ближе первая вариация будет ко второй, тем в большей сте­пени уравнение регрессии отражает связь между признаками, тем теснее они связаны.

Показатель, характеризующий отношение вариаций рас­четных и исходных значений результативного признака, на­зывают индексом корреляции. Его рассчитывают по формуле:

,

где I – индекс корреляции;

общая дисперсия результативного признака (средний квадрат отклонений фактических значений у от средней );

факторная дисперсия результативного признака, рассчитанного по уравнению регрессии (средний квадрат отклонений расчетных значений от средней);

n – численность совокупности.

Индекс корреляции изменяется в пределах от 0 до 1. Он показывает, что чем ближе его значение к 1, тем сильнее связь между признаками, и тем лучше уравнение регрессии описывает взаимосвязь между признаками. При индексе кор­реляции равном 1 взаимосвязь между признаками является функциональной. Если же индекс корреляции равен 0, то связь между признаками отсутствует.

Поскольку факторная дисперсия показывает вариацию результативного признака, зависящую от факторного призна­ка, то можно рассчитать остаточную дисперсию, показываю­щую вариацию других неучтенных факторов. Она равна раз­нице между общей и факторной дисперсиями:

где  остаточная дисперсия.

Остаточная дисперсия показывает вариацию фактических значений результативного признака относительно расчетных значений, то есть колеблемость фактических значений относи­тельно линии регрессии. Чем меньше будет эта колеблемость, тем в большей степени уравнение регрессии отражает связь между признаками.

Формула индекса корреляции, рассчитанного на основе ос­таточной и общей дисперсий, имеет вид:

.

Для линейной регрессии индекс корреляции называют коэффициентом корреляции. Формула его при парной корре­ляции после преобразования имеет вид:

,

где r – коэффициент корреляции;


средние значения факторного и результативного признаков;

среднее значение произведений факторного и результативного признаков;


средние квадратические отклонения факторного и результативного признаков.

В отличие от индекса корреляции коэффициент корреля­ции показывает не только тесноту связи, но и ее направление, поскольку меняется в пределах от −1 до +1. Если коэффи­циент корреляции положительный, то связь между призна­ками прямая (прямо пропорциональная), если отрицательный, то связь обратная (обратно пропорциональная).

Квадраты индекса корреляции и коэффициента корреля­ции называют соответственно индексом детерминации (I 2) и коэффициентом детерминации (r 2). Индекс детерминации и коэффициент детерминации показывают, какая доля общей вариации результативного признака определяется изучаемым фактором.

Так как надежность изучения связей в значительной сте­пени зависит от количества сопоставляемых данных, необхо­димо измерять существенность полученного уравнения регрес­сии и индекса (коэффициента) корреляции. Показатели кор­реляции, исчисленные для ограниченной по объему совокуп­ности, могут быть искажены действием случайных факторов.

Существенность индекса (коэффициента) корреляции, а, следовательно, всего уравнения регрессии, может быть оцене­на с помощью дисперсионного анализа (F -критерия Фишера). При этом сравнивают факторную и остаточную дисперсии с учетом числа степеней свободы вариации. F -критерий в данном случае рассчиты­вают по формуле:

,

где
 выборочная факторная дисперсия;

выборочная остаточная дисперсия;

n – численность выборочной совокупности;

k – число параметров в уравнении регрессии.

Значение F -критерия можно получить также, используя значения индекса или коэффициента корреляции:

;
.

Полученное значение F-критерия сравнивают с табличным значением. При этом для факторной дисперсии число степеней свободы вариации составляет
, а для остаточной дисперсии
Если фактическое значе­ниеF -критерия больше табличного, следовательно, связь между признаками достоверна и уравнение регрессии в пол­ной мере отражает эту связь. Если фактическое значение F -критерия меньше табличного, то можно сделать вывод, что связь между признаками носит случайный характер.

Для оценки значимости индекса (коэффициента) корреля­ции и уравнения регрессии также используют t -критерий Стьюдента, который для больших выборок рассчитывают по формулам:


Для малых выборок формулы имеют вид:


Также, как при дисперсионном анализе, фактическое зна­чение t -критерия сравнивают с табличным с учетом числа степеней свободы вариации = n k . Если фактическое значение t -критерия больше табличного, то связь достоверна, если меньше, то связь несущественна.

Рассмотрим методику корреляционного анализа для пар­ной корреляции.

Пример 1 . По выборочным данным получены сведения о среднегодовом удое коров и расходе кормов на голову (табл. 7.1).