1 корреляционный анализ и сферы его применения. Корреляционно-регрессионный анализ: пример, задачи, применение. Метод корреляционно-регрессионного анализа

Изучение реальной действительности показывает, что практически каждое общественное явление находится в тесной связи и взаимодействии с другими явлениями, какими бы случайными они не казались на первый взгляд. Так, например, уровень урожайности сельскохозяйственных культур зависит от множества природных и экономических факторов, тесно связанных между собой.

Исследования и измерения взаимосвязей и взаимозависимостей социально-экономических явлений является одной из важнейших задач статистики.

Для исследования взаимосвязей между явлениями статистика использует ряд методов и приемов: статистические группировки (простые и комбинационные). индексный, корреляционный и дисперсионный анализ, балансовый, табличный, графический и др. Содержание, специфика и возможности применения некоторых из перечисленных методов уже были рассмотрены в предыдущих разделах учебника. Индексный и графический методы рассматриваются соответственно в 11 и 12 главах.

Наряду с уже рассмотренными методами изучения взаимосвязей особое место занимает метод корреляции, который является логическим продолжением таких методов как аналитическое группировки, дисперсионный анализ и сопоставление параллельных рядов. В сочетании с этими методами он предоставляет статистическому анализу законченный, завершенный характер.

Основателями теории корреляции являются английские статистики Ф.Гальтон (1822-1911 гг.) и К.Пірсон (1857-1936 гг.).

Срок корреляция происходит от английского слова correlation - соотношение, соответствие (взаимосвязь, взаимозависимость) между признаками, которая проявляется при массовом наблюдении изменения средней величины одного признака в зависимости от значения другой. Признаки, связанные между собой корреляционным связью, называют корельованими.

Корреляционный анализ дает возможность измерить степень влияния факторных признаков на результативные, установить единую меру тесноты связи и роль изучаемого фактора (факторов) в общем изменении результативного признака. Корреляционный метод позволяет получить количественные характеристики степени связи между двумя и большим числом признаков, а потому в отличие от рассмотренных выше методов, дает более широкое представление о связи между ними.

Связи между факторами достаточно разнообразны. При этом одни признаки выступают в роли факторов, действующих на другие, вызывая их изменение, вторые-в роли действия этих факторов. Первые из них называют факторными признаками, вторые -результативными.

Исследуя связи между признаками, необходимо выделить прежде всего два вида связей: 1) функциональный (полный) и 2) корреляционная (статистическая) связь.

Функциональным называют такую связь между признаками, при которой каждому значению одной переменной (аргумента) соответствует строго определенное значение другой переменной (функции). Такие связи наблюдаются в математике, физике, химии, астрономии и других науках.

Например, площадь круга (8 = яР2) и длина окружности (С = 27ГЇР) полностью определяется величиной радиуса, площади треугольника и прямоугольника - длина их сторон и т.д. Так, с увеличением радиуса окружности на 1 см его длина увеличивается на 6,28 см, на 2 см - на 12,56 см и т.д.

В сельскохозяйственном производстве примером функциональной связи может быть связь между выручкой от продажи продукции, цене реализации 1 ц и количеством реализованной продукции; валовому сбору, урожайности и размеру посевной площади; фондоотдачей, стоимостью валовой продукции и основных фондов; заработной платой и количеством отработанного времени при повременной оплате и т.д.

Функциональная связь проявляется как в совокупности в целом, так и в каждой ее единицы абсолютно точно и выражается с помощью аналитических формул.

В социально-экономических явлениях функциональные связи между признаками случаются редко. Здесь чаще всего имеют место следующие связи между переменными величинами, при которых численному значению одной из них соответствует несколько значений другого. Такая связь между признаками получил название корреляционной (статистической) связи. Например, известно, что с увеличением доз минеральных удобрений и улучшением их структуры (соотношения), как правило, урожайность сельскохозяйственных культур повышается, но хорошо известно, что прирост урожайности в каждом отдельном случае будет разным при одинаковых нормах внесения удобрений. Кроме того, одни и те же нормы удобрений, даже при очень выровненных условиях, часто по-разному влияют на урожайность. Кроме самих удобрений на величину формирования урожайности влияют также другие факторы, прежде всего, такие как качество почвы, осадки, сроки и способы сева и уборки и т.д. Известна закономерность между урожайностью и удобрениями проявится при достаточно большом количестве наблюдений и при сравнении достаточно большого количества средних значений результативного и факторного признаков.

Примером корреляционной связи в сельскохозяйственном производстве может быть связь между продуктивностью животных и уровнем кормления, качеством кормов, породностью скота; между стажем работы и производительностью труда рабочих и т.д.

Корреляционная связь является неполным, он проявляется при большом количестве наблюдений, при сравнении средних значений результативного и факторного признаков. В этом отношении выявление корреляционных зависимостей связано с действием закона больших чисел: только при достаточно большом количестве наблюдений индивидуальные особенности и второстепенные факторы сгладятся и зависимость между результативным и факторным признаками, если она имеет место, окажется достаточно отчетливо.

С помощью корреляционного анализа решают следующие основные задачи:

а) определение среднего изменения результативного признака под влиянием одного или нескольких факторов (в абсолютном или относительном выражении);

б) характеристика степени зависимости результативного признака от одного из факторов при фиксированном значении других факторов, включенных в корреляционной модели;

в) определение тесноты связи между результативными и факторными признаками (как со всеми факторами, так и с каждым фактором в отдельности при исключении влияния других);

г) определение и разложения общего объема вариации результативного признака на соответствующие части и установление роли каждого отдельного фактора в этой вариации;

д) статистическая оценка выборочных показателей корреляционной связи. Корреляционная связь выражается соответствующими математическими уравнениями. По направлению связь между корелюючими признакам может быть прямым и обратным. При прямой связи оба признака изменяются в одном направлении, то есть с увеличением факторного признака возрастает результативная и наоборот (например, связь между качеством почвы и урожайностью, уровнем кормления и продуктивностью животных, стажем работы и производительностью труда). При обратном связи оба признака изменяются в разных направлениях (например, связь между урожайностью и себестоимостью продукции, производительностью труда и себестоимостью продукции).

По форме или аналитическим выражением различают связи прямолинейные (или просто линейные) и нелинейные (или криволинейные). Если связь между признаками выражается уравнением прямой линии, то ее называют линейной связью; если же она выражается уравнением какой-либо кривой (параболы, гиперболы, показательной, степенной и т.д.), то такую связь называют нелинейной или криволинейным.

в Зависимости от количества исследуемых признаков различают парную (простую) и множественную корреляцию. При парной корреляции изучают связь между двумя признаками (результативным и факторным), при множественной корреляции - связь между тремя и большим числом признаков (результативным и двумя и большим числом факторов).

С помощью метода корреляционного анализа решается две главных задачи: 1) определение формы и параметров уравнения связи; 2) измерение тесноты связи.

Первая задача решается нахождением уравнения связи и определению его параметров. Второе - с помощью расчета различных показателей тесноты связи (коэффициент корреляции, корреляционного отношения, индекса корреляции и др.).

Схематично корреляционный анализ можно разделить на пять этапов:

1) постановка задачи, установление наличия связи между исследуемыми признаками;

2) отбор наиболее существенных факторов для анализа;

3) определение характера связи, его направления и формы, выбор математического уравнения для выражения существующих связей;

4) расчет числовых характеристик корреляционной связи (определение параметров уравнения и показателей тесноты связи);

5) статистическая оценка выборочных показателей связи.

Научно обоснованное применение корреляционного метода требует прежде всего глубокого понимания сущности взаимосвязей социально-экономических явлений. Сам метод не устанавливает наличие и причин возникновения связей между изучаемыми явлениями, его назначение состоит в их количественном измерении. На первом этапе корреляционного анализа осуществляется общее ознакомление с исследуемым объектом и явлениями, уточняются цель и задачи исследования, устанавливается теоретическая возможность причинно-следственной связи между признаками.

Установление причинных зависимостей в изучаемом явлении предшествует собственно корреляционному анализа. Поэтому применению методов корреляции должен предшествовать глубокий теоретический анализ, который охарактеризует основной процесс, протекающий в исследуемом явлении, определит существенные связи между отдельными его сторонами и характер их взаимодействия.

Предварительный анализ данных создает основу для формулирования конкретной задачи исследования связей, отбора важнейших факторов, установление возможной формы взаимосвязи признаков и тем самым приводит к математической формализации - к выбору математического уравнения, которое наиболее полно реализует существующие связи.

Одним из важнейших вопросов корреляционного анализа является отбор результативной и факторной (факторных) признаков. Факторные и результативные признаки, отбираемые для корреляционного анализа, должны быть существенными, первые должны непосредственно влиять на другие. Отбор факторов для включения их в корреляционную модель должен базироваться прежде всего на теоретических основах и практическом опыте анализа исследуемого социально-экономического явления. Большую помощь в решении этой задачи могут оказать такие статистические приемы и методы, как сопоставление параллельных рядов, построение таблиц распределения численностей по двум признакам (корреляционных таблиц, построение статистических группировок как по результативным признаком с анализом взаимосвязанных с ним факторов, так и по факторным признаком (или комбинацией факторных признаков) с анализом их влияния на результативный признак.

Отбор факторов для парных корреляционных моделей не сложный: из множества факторов, влияющих на результативный признак, отбирается один из важнейших факторов, который в основном определяет вариацию результативного признака или же фактор, существенность влияния которого на результативный признак предполагается изучить или проверить. Отбор факторов для множественных корреляционных моделей имеет ряд особенностей и ограничений. Они будут рассмотрены при изложении вопросов множественной корреляции.

Одной из главных проблем построения корреляционной модели является определение формы связи и на этой основе установление типа аналитической функции, отражающей механизм связи результативного признака с факторным (факторными). Под формой корреляционной связи понимают тип аналитического уравнения, выражающего зависимость между исследуемыми признаками.

Выбор того или иного уравнения для исследования связей между признаками является наиболее трудным и ответственным заданием, от которого зависят результаты корреляционного анализа. Все дальнейшие найретельніші расчеты могут быть обезцінені, если форма связи выбрана неверно. Важность этого этапа заключается в том, что правильно установленная форма связи позволяет подобрать и построить наиболее адекватную модель и на основе ее решения получить статистически достоверные и надежные характеристики.

Установление формы связи между признаками в большинстве случаев обосновывается теорией или практическим опытом предыдущих исследований. Если форма связи неизвестна, то при парной корреляции математическое уравнение может быть установлено с помощью составления корреляционных таблиц, построения статистических группировок, просмотра различных функций на ЭВМ и выбор такого уравнения, которое дает наименьшую сумму квадратов отклонений фактических данных от выровненных (теоретических) значений и др.

в Зависимости от исходных данных теоретической линией регрессии могут быть различные типы кривых или прямая линия. Так, если изменение результативного признака под влиянием фактора характеризуется постоянными приращениями, то это указывает на линейный характер связи, если же изменения результативного признака под влиянием фактора характеризуется постоянными коэффициентами роста, то есть основание предположить криволинейный связь.

Особое место в обосновании формы связи при проведении корреляционного анализа относится графиков, построенных в системе прямоугольных координат на основе эмпирических данных. Графическое изображение фактических данных дает наглядное представление о наличии и форму связи между исследуемыми признаками.

Согласно правилам математики при построении графика на оси абсцисс откладывают значения факторного признака, а на оси ординат - значения результативного признака. Отложив на пересечении соответствующих значений двух признаков точки, получим точечный график, который называют корреляционным полем. По характеру размещения точек на корреляционному поле делают вывод о направление и форму связи. Достаточно взглянуть на график, чтобы прийти к выводу о наличие и форму связи между признаками. Если точки концентрируются вокруг мнимой оси направленного слева, снизу, направо, вверх, то связь прямая, если к напротив слева, сверху, направо, вниз - связь обратная. Если точки разбросаны по всему полю, то это свидетельствует о том, что связь между признаками отсутствует или очень слабый. Характер размещения точек на корреляционному поле указывает также и на наличие прямолинейного или криволинейного связи между исследуемыми признаками.

С помощью графика подбирают соответствующее математическое уравнение для количественной оценки связи между результативным и факторным признаками. Уравнение, отражающее связь между признаками, называют уравнением регрессии или корреляционным уравнением. Если уравнение регрессии связывает только два признака, то оно называется уравнением парной регрессии. Если уравнение связи отражает зависимость результативного признака от двух и более факторных признаков, оно называется уравнением множественной регрессии. Кривые, построенные на основе уравнений регрессии, называют кривыми регрессии или линиями регрессии.

Различают эмпирическую и теоретическую линии регрессии. Если на корреляционному поле соединить точки отрезками прямой линии, то получим ломаную линию с некоторой тенденцией, которая называется эмпирической линией регрессии. в Теоретической линией регрессии называется та линия, вокруг которой концентрируются точки корреляционного поля и которая указывает основное направление, основную тенденцию связи. Теоретическая линия регрессии должна отражать изменение средних величин результативного признака по мере изменения величин факторного признака при условии полного взаємопогашення всех других - случайных по отношению к фактору - причин. Следовательно, эта линия должна быть проведена так, чтобы сумма отклонений точек корреляционного поля от соответствующих точек теоретической линии равнялась нулю, а сумма квадратов отклонений была бы минимальной величине. Поиск, построение, анализ и практическое применение теоретической линии регрессии называют регрессионным анализом.

По эмпирической линией регрессии не всегда удается установить форму связи и добрать уравнения регрессии. В таких случаях строят и решают различные уравнения регрессии. Затем оценивают их адекватность и подбирают такое уравнение, которое обеспечивает наилучшую аппроксимацию (приближение) фактических данных к теоретическим и достаточную статистическую достоверность и надежность.

Если подходить строго, регресійно-корреляционный анализ следует расчленить на регрессионный и корреляционный. Регрессионный анализ решает вопрос построения, разрешения и оценки уравнений регрессии, а при корреляционному анализе этих вопросов присоединяется еще круг вопросов, связанных с определением тесноты связи между результативным и факторным (факторными) признакам. В дальнейшем изложении регресійно-корреляционный анализ рассматривается как единое целое и называется просто корреляционный анализ.

Чтобы результаты корреляционного анализа нашли практическое применение и дали научно обоснованные результаты, должны выполняться определенные требования в отношении объекта исследования и качества исходной статистической информации. Основные из этих требований следующие:

Качественная однородность исследуемой совокупности, что предполагает близость формирование результативных и факторных признаков. Необходимость выполнения этого условия вытекает из содержания параметров уравнения связи. Из математической статистики известно, что параметры являются средними величинами. В качественно однородной совокупности они будут типичными характеристиками, в качественно разнородной - искаженными, что искажают характер связи. Количественная однородность совокупности заключается в отсутствии единиц наблюдения, которые за своими числовыми характеристиками существенно отличаются от основной массы данных. Такие единицы наблюдения следует исключать из совокупности и изучать отдельно;

Достаточно большое число наблюдений, поскольку связи между признаками обнаруживаются только в результате действия закона больших чисел. Количество единиц наблюдения должна в 6 - 8 раз превышать число включенных в модель факторов;

Случайность и независимость отдельных единиц совокупности друг от друга. Это означает, что значения признаков в одних единиц совокупности не должны зависеть от значений других единиц данной совокупности;

Устойчивость и независимость действия отдельных факторов;

Постоянство дисперсии результативного признака при изменении факторных признаков; - нормальное распределение признаков.

Основные понятия корреляционного анализа

Выделяют несколько видов связи между переменными:

Корреляционная зависимость предполагает взаимную согласован­ность изменений переменных величин, а также то, что эти изменения можно измерить однократно или многократно (в данном случае гово­рят о плотности связи переменных, но не о причинно-следственных связях); например, в современном российском обществе чем выше возраст, тем ниже социальный статус человека; отдельные проявления геронтократии эту закономерность не нарушают.

Функциональное воздействие предполагает, что изменения не­зависимой переменной сопровождаются все более ускоряющимися изменениями зависимой переменной (причинно-следственные свя­зи фиксируют влияние независимой переменной на зависимую); на­пример, чем более радикальными политическими взглядами обладает человек, тем в большей степени он не приемлет существующий поли­тический режим; в то же время нельзя утверждать, что чем в большей степени человек негативно оценивает власть, тем более радикальными взглядами он обладает.

Функциональная зависимость - связь переменных, означающая, что изменение одной переменной оказывает воздействие на изменение другой, которая в свою очередь воздействует на первую переменную, т.е. это связи взаимодействия; например, информированность челове­ка о политике напрямую связана с интересом к ней; чем больше чело­век политикой интересуется, тем больше в ней разбирается.

Связь может быть нелинейной и немонотонной.

Каким бы в итоге ни оказался тип связи между переменными, не­обходимо убедиться в ее наличии в принципе. Корреляционный ана­лиз применяется для выяснения взаимодействия и тенденций измене­ния характеристик изучаемого явления.

Первоначальной стадией его развития считается период 1870- 1880-х годов, а автором понятия «коэффициент корреляции» - Фрэнсис Гальтон. Наиболее серьезные разработки в области корре­ляционного анализа на рубеже XIX-XX вв. выполнил Карл Пирсон. Традиционно кбрреляционный анализ используется для проверки ги­потезы о статистической зависимости двух или нескольких перемен­ных. В качестве вспомогательного средства анализ корреляций можно использовать при проверке пригодности экспериментальных гипотез и для включения переменных в факторный и регрессионный анализ. Корреляционный анализ осуществляется с помощью сравнения и со­поставления рядов распределения, построенных на основании группи­ровок по различным признакам.

Корреляция - наличие статистической взаимосвязи признаков, когда каждому определенному значению одного признака X соответ­ствует определенное значение У (или комплекс значений К-ряда рас­пределения). Корреляционный анализ выясняет функциональную за­висимость между переменными величинами, которая характеризуется тем, что каждому значению одной из них соответствует вполне опреде- тенпое значение другой. Однако корреляционный анализ не предпо­лагает выявления каузальных связей, поэтому при интерпретации ре- 1ультатов формулировки типа «переменная х влияет на переменную у» или «переменная х зависит от переменной у» недопустимы.

Различают парную и множественную корреляции. Парная корреля­ция характеризует тип, форму и плотность связи между двумя призна­ками, множественная - между несколькими.

Корреляционная зависимость возникает чаще всего там, где одно явление находится под воздействием большого числа факторов, дей­ствующих с разной силой, поэтому существуют специальные меры корреляционной связи, называемые коэффициентами корреляции. Ко­эффициенты (в статистике их общее количество исчисляется десят­ками) показывают степень взаимосвязи явлений (плотность корреля­ционной связи, иногда исследователи говорят об интенсивности связи) и характер этой связи (направленность ). Связь может быть прямой и обратной. Например, чем старше избиратель, тем более активно он участвует в выборах. Чем выше уровень доходов людей, тем в меньшей степени они склонны участвовать в выборах в качестве избирателей (обратная связь). Чем выше коэффициент корреляции между двумя переменными, тем точнее можно предсказать значения одной из них по значениям другой. Характер связи также определяется в категориях «монотонная » (направление изменения одной переменной не меняется при изменении второй переменной) и «немонотонная » связь. Помимо оценки плотности и направленности связи необходимо учитывать на­дежность (достоверность ) связи.

Корреляционный анализ последовательно решает три практиче­ские задачи:

    определение корреляционного поля и составление корреляци­онной (в данном случае это комбинированная) таблицы;

    вычисление выборочных корреляционных отношений или ко­эффициентов корреляции;

    проверка статистической гипотезы значимости связи.

Коэффициент корреляции не содержит информации о том, явля­ется ли данная связь между ними причинно-следственной или сопут­ствующей (порожденной общей причиной). Этот вопрос исследователь должен решать самостоятельно на основе содержательных представле­ний о структуре, динамике изучаемых социальных объектов, корре­ляций между изучаемыми признаками, использовать иные способы статистического анализа (регрессионный, факторный, дискриминант­ный, путевой и т.д.). Но величина коэффициента позволяет оценить плотность связи как меньшую (незначимую) или большую. По знаку коэффициента корреляции для порядковых рядов мы можем сказать, является ли эта связь прямой или обратной (для номинальных рядов знак коэффициента не несет смысловой нагрузки).

Для установления корреляционной связи между двумя призна­ками необходимо доказать, что все другие переменные не оказывают воздействия на отношения двух переменных, являющихся предметом изучения. В противном случае возникает ситуация ложной корреляции. Секрет возникновения ложной корреляции заключается в том, что у двух явлений, связь которых формально подкрепляется наличием ста­тистической связи, есть общая причина, в равной степени влияющая на каждое из них.

Корреляционному анализу предшествует стадия расчета стати­стики х 2 - Но на основании полученного значения статистики х 2 мы ни­чего не можем сказать о плотности связи анализируемых переменных. Цля решения такой задачи необходимо обратиться к коэффициентам корреляционной связи.

Традиционным для выполнения корреляционного анализа являет­ся обращение к коэффициенту корреляции Пирсона (Pearson) Р (в ли­тературе он обозначается и через г).

Если при описании политического объекта определяется лишь на­личие или отсутствие признака или если изучается связь между аль­тернативными признаками, то корреляционные таблицы (таблицы сопряженного признака) - 4-клеточные. В этом случае применяются коэффициент Юла(О) и коэффициент контингенции (ф). Они основаны на принципе совместного появления событий (значений признаков у объекта исследования) и пригодны для анализа любых признаков (ме­трических, порядковых и даже номинальных).

В случае если номинальные шкалы имеют большее число значений, чем два, то для определения зависимости между признаками пользуют­ся коэффициентами сопряженности Пирсона (Р ), Чупрова (7) и Кра­мера (К). При этом определенное значение имеет размерность таблицы с на к, в которой отображены значения двух признаков. Коэффициенты Чупрова и Крамера считаются более «строгими», чем коэффициент со­пряженности Пирсона. Но поскольку вычисления в них строятся с уче­том статистики х 2 , то все связанные с ней ограничения распространя­ются и на эти коэффициенты.

Множественный коэффициент корреляции (IV), который иногда называют коэффициентом конкордации, применяется для оценки со­гласованности двух или нескольких рядов ранжированных значений переменных.

Вариантов расчета коэффи­циентов корреляции между признаками в статистическом пакете SPSS два.

Функциональная зависимость и корреляция . Еще Гиппократ в VI в. до н. э. обратил внимание на наличие связи между телосложением и темпераментом людей, между строением тела и предрасположенностью к тем или иным заболеваниям. Определенные виды подобной связи выявлены также в животном и растительном мире. Так, существует зависимость между телосложением и продуктивностью у сельскохозяйственных животных; известна связь между качеством семян и урожайностью культурных растений и т.д. Что же касается подобных зависимостей в экологии, то существуют зависимости между содержанием тяжелых металлов в почве и снежном покрове от их концентрации в атмосферном воздухе и т.п. Поэтому естественно стремление использовать эту закономерность в интересах человека, придать ей более или менее точное количественное выражение.

Как известно, для описания связей между переменными величинами применяют математические понятие функции f , которая ставит в соответствие каждому определенному значению независимой переменной x определенное значение зависимой переменной y , т.е. . Такого рода однозначные зависимости между переменными величинамиx и y называют функциональными . Однако такого рода связи в природных объектах встречаются далеко не всегда. Поэтому зависимость между биологическими, а также и экологическими признаками имеет не функциональный, а статистический характер, когда в массе однородных индивидов определенному значению одного признака, рассматриваемого в качестве аргумента, соответствует не одно и то же числовое значение, а целая гамма распределяющихся в вариационный ряд числовых значений другого признака, рассматриваемого в качестве зависимой переменной, или функции. Такого рода зависимость между переменными величинами называется корреляционной или корреляцией..

Функциональные связи легко обнаружить и измерить на единичных и групповых объектах, однако этого нельзя проделать с корреляционными связями, которые можно изучать только на групповых объектах методами математической статистики. Корреляционная связь между признаками бывает линейной и нелинейной, положительной и отрицательной. Задача корреляционного анализа сводится к установлению направления и формы связи между варьирующими признаками, измерению ее тесноты и, наконец, к проверке достоверности выборочных показателей корреляции.

Зависимость между переменными X и Y можно выразить аналитически (с помощью формул и уравнений) и графически (как геометрическое место точек в системе прямоугольных координат). График корреляционной зависимости строят по уравнению функции или, которая называетсярегрессией . Здесь и– средние арифметические, найденные при условии, чтоX или Y примут некоторые значения x или y . Эти средние называются условными .

11.1. Параметрические показатели связи

Коэффициент корреляции . Сопряженность между переменными величинами x и y можно установить, сопоставляя числовые значения одной из них с соответствующими значениями другой. Если при увеличении одной переменной увеличивается другая, это указывает на положительную связь между этими величинами, и наоборот, когда увеличение одной переменной сопровождается уменьшением значения другой, это указывает на отрицательную связь .

Для характеристики связи, ее направления и степени сопряженности переменных применяют следующие показатели:

    линейной зависимость – коэффициент корреляции ;

    нелинейный – корреляционной отношение .

Для определения эмпирического коэффициента корреляции используют следующую формулу:

. (1)

Здесь s x и s y – средние квадратические отклонения.

Коэффициент корреляции можно вычислить, не прибегая к расчету средних квадратических отклонений, что упрощает вычислительную работу, по следующей аналогичной формуле:

. (2)

Коэффициент корреляции – безразмерное число, лежащее в пределах от –1 до +1. При независимом варьировании признаков, когда связь между ними полностью отсутствует, . Чем сильнее сопряженность между признаками, тем выше значение коэффициента корреляции. Следовательно, приэтот показатель характеризует не только наличие, но и степень сопряженности между признаками. При положительной или прямой связи, когда большим значениям одного признака соответствуют большие же значения другого, коэффициент корреляции имеет положительный знак и находится в пределах от 0 до +1, при отрицательной или обратной связи, когда большим значениям одного признака соответствуют меньшие значения другого, коэффициент корреляции сопровождается отрицательным знаком и находится в пределах от 0 до –1.

Коэффициент корреляции нашел широкое применение в практике, но он не является универсальным показателем корреляционных связей, так как способен характеризовать только линейные связи, т.е. выражаемые уравнением линейной регрессии (см. тему 12). При наличии нелинейной зависимости между варьирующими признаками применяют другие показатели связи, рассмотренных ниже.

Вычисление коэффициента корреляции . Это вычисление производят разными способами и по-разному в зависимости от числа наблюдений (объема выборки). Рассмотрим отдельно специфику вычисления коэффициента корреляции при наличии малочисленных выборок и выборок большого объема.

Малые выборки . При наличии малочисленных выборок коэффициент корреляции вычисляют непосредственно по значениям сопряженных признаков, без предварительной группировки выборочных данных в вариационные ряды. Для этого служат приведенные выше формулы (1) и (2). Более удобными, особенно при наличии многозначных и дробных чисел, которыми выражаются отклонения вариант х i и y i от средних и, служат следующие рабочие формулы:

где ;

;

Здесь x i и y i – парные варианты сопряженных признаков x и y ; и –средние арифметические;– разность между парными вариантами сопряженных признаковx и y ; n – общее число парных наблюдений, или объем выборочной совокупности.

Эмпирический коэффициент корреляции, как и любой другой выборочный показатель, служит оценкой своего генерального параметра ρ и как величина случайная сопровождается ошибкой:

Отношение выборочного коэффициента корреляции к своей ошибке служит критерием для проверки нулевой гипотезы – предположения о том, что в генеральной совокупности этот параметр равен нулю, т.е. . Нулевую гипотезу отвергают на принятом уровне значимостиα , если

Значения критических точек t st для разных уровней значимости α и чисел степеней свободы приведены в табл.1 Приложений.

Установлено, что при обработке малочисленных выборок (особенно когда n < 30 ) расчет коэффициента корреляции по формулам (1) – (3) дает несколько заниженные оценки генерального параметра ρ , т.е. необходимо внести следующую поправку:

z-преобразование Фишера . Правильное применение коэффициента корреляции предполагает нормальное распределение двумерной совокупности сопряженных значений случайных величин x и y . Из математической статистики известно, что при наличии значительной корреляции между переменными величинами, т.е. когда R xy > 0,5 выборочное распределение коэффициента корреляции для большего числа малых выборок, взятых из нормально распределяющейся генеральной совокупности, значительно отклоняются от нормальной кривой.

Учитывая это обстоятельство, Р. Фишер нашел более точный способ оценки генерального параметра по значению выборочного коэффициента корреляции. Этот способ сводится к замене R xy преобразованной величиной z, которая связана с эмпирическим коэффициентом корреляции, следующим образом:

Распределение величины z является почти неизменным по форме, так как мало зависит от объема выборки и от значения коэффициента корреляции в генеральной совокупности, и приближается к нормальному распределению.

Критерием достоверности показателя z является следующее отношение:

Нулевая гипотеза отвергается на принятом уровне значимости α и числе степеней свободы . Значения критических точекt st приведены в табл.1 Приложений.

Применение z-преобразования позволяет с большей уверенностью оценивать статистическую значимость выборочного коэффициента корреляции, а также и разность между эмпирическими коэффициентами , когда в этом возникает необходимость.

Минимальный объем выборки для точной оценки коэффициента корреляции. Можно рассчитать объем выборки для заданного значения коэффициента корреляции, который был бы достаточен для опровержения нулевой гипотезы (если корреляция между признаками Y и X действительно существует). Для этого служит следующая формула:

где n – искомый объем выборки; t – величина, заданная по принятому уровню значимости (лучше для α = 1%); z – преобразованный эмпирический коэффициент корреляции.

Большие выборки . При наличии многочисленных исходных данных их приходится группировать в вариационные ряды и, построив корреляционную решетку, разность по ее клеткам (ячейкам) общие частоты сопряженных рядов. Корреляционная решетка образуется пересечением строк и столбцов, число которых равно числу групп или классов коррелируемых рядов. Классы располагаются в верхней строке и в первой (слева) столбце корреляционной таблицы, а общие частоты, обозначаемые символом f xy , – в клетках корреляционной решетки, составляющей основную часть корреляционной таблицы.

Классы, помещенные в верхней строке таблицы, обычно располагаются слева направо в возрастающем порядке, а в первом столбце таблицы – сверху вниз в убывающем порядке. При таком расположении классов вариационных рядов их общие частоты (при наличии положительной связи между признаками Y и X ) будут распределяться по клеткам решетки в виде эллипса по диагонали от нижнего левого угла к верхнему правому углу решетки или (при наличии отрицательной связи между признаками) в направлении от верхнего левого угла к нижнему правому углу решетки. Если же частоты f xy распределяются по клеткам корреляционной решетки более или менее равномерно, не образуя фигуры эллипса, это будет указывать на отсутствие корреляции между признаками.

Распределение частот f xy по клеткам корреляционной решетки дает лишь общее представление о наличии или отсутствии связи между признаками. Судить о тесноте или менее точно лишь по значению и знаку коэффициента корреляции . При вычислении коэффициента корреляции с предварительной группировки выборочных данных в интервальные вариационные ряды не следует брать слишком широкие классовые интервалы. Грубая группировка гораздо сильнее сказывается на значении коэффициента корреляции, чем это имеет место при вычислении средних величин и показателей вариации.

Напомним, что величина классового интервала определяется по формуле

где x max , x min – максимальная и минимальная варианты совокупности; К – число классов, на которые следует разбить вариацию признака. Опыт показал, что в области корреляционного анализа величину К можно поставить в зависимость от объема выборки примерно следующим образом (табл.1).

Таблица 1

Объем выборки

Значение К

50 ≥ n > 30

100 ≥ n > 50

200 ≥ n > 100

300 ≥ n > 200

Как и другие статистические характеристики, вычисляемые с предварительной группировкой исходных данных в вариационные ряды, коэффициент корреляции определяют разными способами, дающими совершенно идентичные результаты.

Способ произведений . Коэффициент корреляции можно вычислить используя основные формулы (1) или (2), внеся в них поправку на повторяемость вариант в димерной совокупности. При этом, упрощая символику, отклонения вариант от их средних обозначим через а , т.е. и. Тогда формула (2) с учетом повторяемости отклонений примет следующее выражение:

Достоверность этого показателя оценивается с помощью критерия Стьюдента, который представляет отношение выборочного коэффициента корреляции к своей ошибке, определяемой по формуле

Отсюда и если эта величина превышает стандартное значение критерия Стьюдентаt st для степени свободы и уровне значимостиα (см. Таблицу 2 Приложений), то нулевую гипотезу отвергают.

Способ условных средних . При вычислении коэффициента корреляции отклонения вариант (“классов”) можно находить не только от средних арифметических и, но и от условных средних А х и A y . При этом способе в числитель формулы (2) вносят поправку и формула приобретает следующий вид:

где f xy – частоты классов одного и другого рядов распределения; и, т.е. отклонения классов от условных средних, отнесенные к величине классовых интерваловλ ; n – общее число парных наблюдений, или объем выборки; и– условные моменты первого порядка, гдеf x – частоты ряда Х , а f y – частоты ряда Y ; s x и s y – средние квадратические отклонения рядов X и Y , вычисляемые по формуле .

Способ условных средних имеет преимущество перед способом произведений, так как позволяет избегать операции с дробными числами и придавать один и тот же (положительный) знак отклонениям a x и a y , что упрощает технику вычислительной работы, особенно при наличии многозначных чисел.

Оценка разности между коэффициентами корреляции . При сравнении коэффициентов корреляции двух независимых выборок нулевая гипотеза сводится к предположению о том, что в генеральной совокупности разница между этими показателями равна нулю. Иными словами, следует исходить из предположения, что разница, наблюдаемая между сравниваемыми эмпирическими коэффициентами корреляции, возникла случайно.

Для проверки нулевой гипотезы служит t-критерий Стьюдента, т.е. отношение разности между эмпирическими коэффициентами корреляции R 1 и R 2 к своей статистической ошибке, определяемой по формуле:

где s R1 и s R2 – ошибки сравниваемых коэффициентов корреляции.

Нулевая гипотеза опровергается при условии, что для принятого уровне значимостиα и числе степеней свободы .

Известно, что более точную оценку достоверности коэффициента корреляции получают при переводе R xy в число z . Не является исключением и оценка разности между выборочными коэффициентами корреляции R 1 и R 2 , особенно в тех случаях, когда последние вычислены на выборках сравнительно небольшого объема (n < 100 ) и по своему абсолютному значению значительно превышают 0,50.

Разность оценивают с помощью t-критерия Стьюдента, который строят по отношению этой разности к своей ошибке, вычисляемой по формуле

Нулевую гипотезу отвергают, если дляи принятого уровня значимостиα.

Корреляционное отношение . Для измерения нелинейной зависимости между переменными x и y используют показатель, который называют корреляционным отношением , который описывает связь двусторонне. Конструкция корреляционного отношения предполагает сопоставление двух видов вариации: изменчивости отдельных наблюдений по отношению к частным средним и вариации самих частных средних по сравнению с общей средней величиной. Чем меньшую часть составит первый компонент по отношению ко второму, тем теснота связи окажется большей. В пределе, когда никакой вариации отдельных значений признака возле частных средних не будет наблюдаться, теснота связи окажется предельно большой. Аналогичным образом, при отсутствии изменчивости частных средних теснота связи окажется минимальной. Так как это соотношение вариации может быть рассмотрено для каждого из двух признаков, получается два показателя тесноты связи – h yx и h xy . Корреляционное отношение является величиной относительной и может принимать значения от 0 до 1. При этом коэффициенты корреляционного отношения обычно не равны друг другу, т.е. . Равенство между этими показателями осуществимо только при строго линейной зависимости между признаками. Корреляционное отношение является универсальным показателем: оно позволяет характеризировать любую форму корреляционной связи – и линейную, и нелинейную.

Коэффициенты корреляционного отношения h yx и h xy определяют рассмотренными выше способами, т.е. способом произведений и способом условных средних.

Любой закон природы или общественного развития может быть представлен описанием совокупности взаимосвязей. Если эти зависимости стохастичны, а анализ осуществляется по выборке из генеральной совокупности, то данная область исследований относится к задачам статистического исследования зависимостей, которые включают в себя корреляционный, регрессионный, дисперсионный, ковариационный анализ и анализ таблиц сопряженности.

    Существует ли связь между исследуемыми переменными?

    Как измерить тесноту связей?

Общая схема взаимосвязи параметров при статистическом исследовании приведена на рис. 1.

На рисунке S – модель исследуемого реального объекта, Объясняющие (независимые, факторные) переменные описывают условия функционирования объекта. Случайные факторы – это факторы, влияние которых трудно учесть или влиянием которых в данный момент пренебрегают. Результирующие (зависимые, объясняемые) переменные характеризуют результат функционирования объекта.

Выбор метода анализа взаимосвязи осуществляется с учетом природы анализируемых переменных.

Корреляционный анализ - метод обработки статистическихданных, заключающийся в изучении связи между переменными.

Цель корреляционного анализа - обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют. Корреляция отражает лишь линейную зависимость величин, но не отражает их функциональной связности. Например, если вычислить коэффициент корреляции между величинами A = sin(x) и B = cos(x), то он будет близок к нулю, т.е. зависимость между величинами отсутствует.

При исследования корреляции используются графический и аналитический подходы.

Графический анализ начинается с построения корреляционного поля. Корреляционное поле (или диаграмма рассеяния) является графической зависимостью между результатами измерений двух признаков. Для ее построения исходные данные наносят на график, отображая каждую пару значений (xi,yi) в виде точки с координатами xi и yi в прямоугольной системе координат.

Визуальный анализ корреляционного поля позволяет сделать предположение о форме и направлении взаимосвязи двух исследуемых показателей. По форме взаимосвязи корреляционные зависимости принято разделять на линейные (см. рис. 1) и нелинейные (см. рис. 2). При линейной зависимости огибающая корреляционного поля близка к эллипсу. Линейная взаимосвязь двух случайных величин состоит в том, что при увеличении одной случайной величины другая случайная величина имеет тенденцию возрастать (или убывать) по линейному закону.

Направление связи является положительным, если увеличение значения одного признака приводит к увеличению значения второго (см. рис. 3) и отрицательным, если увеличение значения одного признака приводит к уменьшению значения второго (см. рис. 4).

Зависимости, имеющие только положительные или только отрицательные направленности, называются монотонными.

Определение корреляционного анализа

При решении задач экономического характера, а именно прогнозирования, зачастую используется корреляционный анализ. В его основе находятся некоторые значения случайной величины, представленной переменной, которая зависит от случая и может принимать некоторые значения с определенной вероятностью. При этом соответствующий закон распределения может показывать частоту конкретных значений в их общей совокупности. Корреляционный анализ в статистике базируется на стохастической зависимости при проведении исследований взаимосвязи между некоторыми экономическими показателями.

Разновидности корреляционного анализа

Корреляционный анализ оперирует и с функциональной (полной), и с искаженной иными факторами (неполной) зависимостями указанной взаимосвязи. Примером первого вида (функциональной зависимости) служит выпуск и потребление готовой продукции в условиях дефицита. Неполную зависимость можно увидеть, например, между производительностью труда и стажем работы рабочих. При этом больший опыт оказывает влияние на ее качество, однако под влиянием определенных факторов (здоровье или образование) данная зависимость искажается.

Использование корреляционного анализа в статистике

Корреляционный анализ широко используется в математической статистике.

При этом основной его задачей является определение тесноты связи и характера между независимыми (факторными) и зависимыми (результативными) признаками в процессе или явлении. Корреляционная связь обнаруживается лишь при масштабном факторном сопоставлении. Так, ее теснота может быть определена с помощью определенного коэффициента корреляции, специально рассчитываемого и располагающегося в интервале [-1;+1]. Характер связи между указанными показателями может быть определен по корреляционному полю. В случае, когда Y является зависимым признаком, X - независимым, то при принятии каждого случая в виде X(j) корреляционное поле будет иметь координаты (x j ;y j).

Корреляционный анализ в экономике

Экономическая деятельность субъектов хозяйствования зависит от огромного количества различных факторов. При этом необходимо рассматривать именно их комплекс, так как каждый из них отдельно не может определить изучаемое явление во всей его полноте. Поэтому лишь набор факторов в их тесной взаимосвязи дает четкое представление об исследуемом объекте. Многофакторный корреляционный анализ может состоять из нескольких этапов. В первую очередь определяются те факторы, с помощью которых оказывается максимальное воздействие на исследуемый показатель, и выбираются самые существенные для проведения анализа. Второй этап предусматривает сбор и оценку исходной информации, которая необходима для корреляционного анализа. На третьем проводится изучение характера, а также моделируется связь между итоговыми показателями и прочими факторами. Другими словами, обосновывается сформированное математическое уравнение, наиболее точно выражающее сущность анализируемой зависимости. И последний этап предусматривает оценку результатов проведенного корреляционного анализа с практическим его применением.