Корреляционный анализ.

Понятие взаимосвязи довольно распространено в психологических исследованиях. С ним приходится оперировать психологу тогда, когда появляется необходимость сопоставить измерения двух или нескольких показателей признаков или явлений, чтобы сделать какие-либо выводы.

Характер взаимосвязи между изучаемыми явлениями может быть однозначным, т.е. таким, когда определенному значению одною признака соответствует четкое и определенное значение другого. Так, например, в субтесте на поиск закономерностей тестов психических функций количество набранных «сырых» баллов определяется по формуле:
Xi = Sтз - Sоз / Sтз + Sпз * Sbс,
где Xi - значение варианты, Sтз - количество априорно заданных закономерностей (соответствий) в субтесте, Sоз - количество ошибочно указанных соответствий испытуемым, Sоз - количество не указанных (пропущенных) соответствий испытуемым, Sbс - количество всех просмотренных испытуемыми слов в тесте.

Такая взаимосвязь получила название функциональной: здесь один показатель является функцией другого, который представляет собой аргумент по отношению к первому.

Однако однозначная четкая взаимосвязь встречается не всегда. Чаще приходится сталкиваться с таким положением, при котором одному значению признака могут соответствовать несколько значений другого. Эти значения варьируют в пределах более или менее очерченных границ. Такой вид взаимосвязи получил название корреляционной или соотносительной.

Применяется несколько видов выражения корреляционной взаимосвязи. Так, для выражения взаимосвязи между признаками, имеющими количественный характер варьирования своих значений, используют меры центральной тенденции: табулирование с последующим вычислением коэффициента парной корреляции, коэффициент множественной и частной корреляции, коэффициент множественной детерминации, корреляционное отношение.

Если необходимо изучить взаимосвязь между признаками, варьирование которых носит качественный характер (результаты проективных методов исследования личности, исследования по методу Семантического дифференциала, исследования с использованием Открытых шкал и т.д.), то используют коэффициент качественной альтернативной корреляции (тетрахорический показатель), критерий Пирсона x2, показатели сопряженности (контингенции) Пирсона и Чупрова.

Для определения качественно-количественной корреляции, т.е. такой корреляции, когда один признак имеет качественное варьирование, а другой - количественное.применяются специальные методы.

Коэффициент корреляции (термин впервые введен Ф. Гальто-ном в 1888 г.) - показатель силы связи между двумя сопоставляемыми вариантами выборки (выборок). По какой бы формуле не вычислялся коэффициент корреляции, его величина колеблется в пределах от -1 до +1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной - минус 1. Обычно это прямая линия, проходящая через точки пересечения значений каждой пары данных.

Если значения вариант не выстраиваются на прямой, а образуют «облако», то коэффициент корреляции по абсолютной величине становится меньше единицы и по мере округления «облака» приближается к нулю. Если коэффициент корреляции равен 0, обе варианты полностью независимы друг от друга.

Всякое вычисленное (эмпирическое) значение коэффициента корреляции должно быть проверено на достоверность (статистическую значимость) по соответствующим таблицам критических значений коэффициента корреляции. Если эмпирическое значение меньше или равно табличному для 5-процентного уровня (Р = 0,05), корреляция не является значимой. Если вычисленное значение коэффициента корреляции больше табличного для Р = 0,01, корреляция статистически значима (достоверна).

В случае, когда величина коэффициента заключена между 0,05 > Р > 0.01, на практике говорят о значимости корреляции для Р = 0,05.

Коэффициент корреляции Браве-Пирсона (г) - это предложенный в 1896 г. параметрический показатель, для вычисления которого сравнивают средние арифметические и средние квадратические значения вариант. Для вычисления этого коэффициента применяют следующую формулу (у разных авторов она может выглядеть по-разному):
r= (E Xi Xi1) - NXap X1ap / N-1 Qx Qx1,

где E Xi Xi1 - сумма произведений значений попарно сопоотавимых вариантов, n-колличество сравниваемых пар, NXap, X1ap - средние арифметические вариант Xi, Xi; соответственно, Qx, Qx, -средние квадратические отклонения распределений х и х.

Коэффициент корреляции рангов Спирмена Rs (коэффициент ранговой корреляции, коэффициент Спирмена) является простейшей формой коэффициента корреляции и измеряет связь между рангами (местами) данной варианты по разным признакам, не учитывая ее собственного значения. Здесь исследуется скорее качественная связь, чем количественная.

Обычно этот непараметрический критерий используется в случаях, когда нужно сделать выводы не столько об интервалах между данными, сколько об их рангах, а также тогда, когда кривые распределения крайне асимметричны и не позволяют использовать такие параметрические критерии, как коэффициент корреляции Браве-Пирсона (в этих случаях бывает необходимо превратить количественные данные в порядковые). Если коэффициент Rs близок к +1, то это означает, что два ряда ранжированной по тем или иным признакам выборки практически совпадают, а если этот коэффициент близок к - 1, можно говорить о полной обратной зависимости.

Как и вычисление коэффициента корреляции Браве-Пирсона, вычисления коэффициента Rs удобнее представлять в табличной форме.

Регрессия обобщает понятие функциональной взаимосвязи на случай стохастического (вероятностного) характера зависимости между значениями вариант. Целью решения категории регрессионных задач является оценка значения непрерывной выходной вариативности по значениям входных вариант.

1) корреляционный анализ как средство получения информации;

2) особенности процедур определения коэффициентов линейной и ранговой корреляции.

Корреляционный анализ (от лат. «соотношение», «связь») применяется для проверки гипотезы о статистической зависимости значений двух или нескольких переменных в том случае, если исследователь может их регистрировать (измерять), но не контролировать (изменять).

Когда повышение уровня одной переменной сопровождается повышением уровня другой, то речь идет о положительной корреляции. Если же рост одной переменной происходит при снижении уровня другой, то говорят оботрицательной корреляции. При отсутствии связи переменных мы имеем дело снулевой корреляцией.

При этом переменными могут быть данные тестирований, наблюдений, экспериментов, социально-демографические характеристики, физиологические параметры, особенности поведения и т. д. К примеру, использование метода позволяет нам дать количественно выраженную оценку взаимосвязи таких признаков, как: успешность обучения в вузе и степень профессиональных достижений по его окончании, уровень притязаний и стресс, количество детей в семье и качества их интеллекта, черты личности и профессиональная ориентация, продолжительность одиночества и динамика самооценки, тревожность и внутригрупповой статус, социальная адаптированность и агрессивность при конфликте...

В качестве вспомогательных средств, процедуры корреляции незаменимы при конструировании тестов (для определения валидности и надежности измерения), а также как пилотажные действия по проверке пригодности экспериментальных гипотез (факт отсутствия корреляции позволяет отвергнуть предположение о причинно-следственной связи переменных).

Усиление интереса в психологической науке к потенциалу корреляционного анализа обусловлено целым рядом причин. Во-первых, становится допустимым изучение широкого круга переменных, экспериментальная проверка которых затруднена или невозможна. Ведь по этическим соображениям, к примеру, нельзя провести экспериментальные исследования самоубийств, наркомании, деструктивных родительских воздействий, влияния авторитарных сект. Во-вторых, возможно получение за короткое время ценных обобщений данных о больших количествах исследуемых лиц. В-третьих, известно, что многие феномены изменяют свою специфику во время строгих лабораторных экспериментов. А корреляционный анализ предоставляет исследователю возможность оперировать информацией, полученной в условиях, максимально приближенных к реальным. В-четвертых, осуществление статистического изучения динамики той или иной зависимости нередко создает предпосылки к достоверному прогнозированию психологических процессов и явлений.

Однако следует иметь в виду, что применение корреляционного метода связано и с весьма существенными принципиальными ограничениями.

Так, известно, что переменные вполне могут коррелировать и при отсутствии причинно-следственной связи между собой.

Это иногда возможно в силу действия случайных причин, при неоднородности выборки, из-за неадекватности исследовательского инструментария поставленным задачам. Такая ложная корреляция способна стать, скажем, «доказательством» того, что женщины дисциплинированнее мужчин, подростки из неполных семей более склонны к правонарушениям, экстраверты агрессивнее интровертов и т. п. Действительно, стоит отобрать в одну группу мужчин, работающих в высшей школе, и женщин, предположим, из сферы обслуживания, да еще и протестировать тех и других на знание научной методологии, то мы получим выражение заметной зависимости качества информированности от пола. Можно ли доверять такой корреляции?

Еще чаще, пожалуй, в исследовательской практике встречаются случаи, когда обе переменные изменяются под влиянием некоей третьей или даже нескольких скрытых детерминант.

Если мы обозначим цифрами переменные, а стрелками - направления от причин к следствиям, то увидим целый ряд возможных вариантов:

1 2 3 4

1 2 3 4

1 2 3 4

1 2 3 4 и т. д.

Невнимание к воздействию реальных, но неучтенных исследователями факторов позволило представить обоснования того, что интеллект - сугубо наследуемое образование (психогенетический подход) или, напротив, что он обусловлен лишь влиянием социальных составляющих развития (социогенетический подход). В психологии, следует заметить, нераспространены феномены, имеющие однозначную первопричину.

Кроме того, факт наличия взаимосвязи переменных не дает возможности выявить по итогам корреляционного исследования причину и следствие даже в тех случаях, когда промежуточных переменных не существует.

Например, при изучении агрессивности детей было установлено, что склонные к жестокости дети чаще сверстников смотрят фильмы со сценами насилия. Означает ли это, что такие сцены развивают агрессивные реакции или, наоборот, подобные фильмы привлекают самых агрессивных детей? В рамках корреляционного исследования дать правомерный ответ на этот вопрос невозможно.

Необходимо запомнить: наличие корреляций не является показателем выраженности и направленности причинно-следственных отношений.

Другими словами, установив корреляцию переменных, мы можем судить не о детерминантах и производных, а лишь о том, насколько тесно взаимосвязаны изменения переменных и каким образом одна из них реагирует на динамику другой.

При использовании данного метода оперируют той или иной разновидностью коэффициента корреляции. Его числовое значение обычно изменяется от -1 (обратная зависимость переменных) до +1 (прямая зависимость). При этом нулевое значение коэффициента соответствует полному отсутствию взаимосвязи динамики переменных.

Например, коэффициент корреляции +0,80 отражает наличие более выраженной зависимости между переменными, чем коэффициент +0,25. Аналогично, зависимость между переменными, характеризуемая коэффициентом -0,95, гораздо теснее, чем та, где коэффициенты имеют значения +0,80 или + 0,25 («минус» указывает нам только на то, что рост одной переменной сопровождается уменьшением другой).

В практике психологических исследований показатели коэффициентов корреляции обычно не достигают +1 или -1. Речь может идти только о той или иной степени приближения к данному значению. Часто корреляция считается выраженной, если ее коэффициент выше 0,60. При этом недостаточной корреляцией, как правило, считаются показатели, располагающиеся в интервале от -0,30 до +0,30.

Однако, сразу следует оговорить, что интерпретация наличия корреляции всегда предполагает определение критических значений соответствующего коэффициента. Рассмотрим этот момент более подробно.

Вполне может получиться так, что коэффициент корреляции равный +0,50 в некоторых случаях не будет признан достоверным, а коэффициент, составляющий +0,30, окажется при определенных условиях характеристикой несомненной корреляции. Многое здесь зависит от протяженности рядов переменных (т. е. от количества сопоставляемых показателей), а также от заданной величины уровня значимости (или от принятой за приемлемую вероятность ошибки в расчетах).

Ведь, с одной стороны, чем больше выборка, тем количественно меньший коэффициент будет считаться достоверным свидетельством корреляционных отношений. А с другой стороны, если мы готовы смириться со значительной вероятностью ошибки, то можем посчитать за достаточную небольшую величину коэффициента корреляции.

Существуют стандартные таблицы с критическими значениями коэффициентов корреляции. Если полученный нами коэффициент окажется ниже, чем указанный в таблице для данной выборки при установленном уровне значимости, то он считается статистически недостоверным.

Работая с такой таблицей, следует знать, что пороговой величиной уровня значимости в психологических исследованиях обычно считается 0,05(или пять процентов). Разумеется, риск ошибиться будет еще меньше, если эта вероятность составляет 1 на 100 или, еще лучше, 1 на 1000.

Итак, не сама по себе величина подсчитанного коэффициента корреляции служит основанием для оценки качества связи переменных, а статистическое решение о том, можно ли считать вычисленный показатель коэффициента достоверным.

Зная это, обратимся к изучению конкретных способов определения коэффициентов корреляции.

Значительный вклад в разработку статистического аппарата корреляционных исследований внес английский математик и биолог Карл Пирсон (1857-1936), занимавшийся в свое время проверкой эволюционной теории Ч. Дарвина.

Обозначение коэффициента корреляции Пирсона (r) происходит от понятия регрессии - операции по сведению множества частных зависимостей между отдельными значениями переменных к их непрерывной (линейной) усредненной зависимости.

Формула для расчета коэффициента Пирсона имеет такой вид:

где x , y - частные значения переменных,-(сигма) - обозначение суммы, а
- средние значения тех же самых переменных. Рассмотрим порядок использования таблицы критических значений коэффициентов Пирсона. Как мы видим, в левой ее графе указано число степеней свободы. Определяя нужную нам строчку, мы исходим из того, что искомая степень свободы равнаn -2, гдеn - количество данных в каждом из коррелируемых рядов. В графах же, расположенных с правой стороны, указаны конкретные значения модулей коэффициентов.

Число степеней «свободы»

Уровни значимости

Причем, чем правее расположен столбик чисел, тем выше достоверность корреляции, увереннее статистическое решение о её значимости.

Если у нас, например, коррелируют два ряда цифр по 10 единиц в каждом из них и получен по формуле Пирсона коэффициент, равный +0,65, то он будет считаться значимым на уровне 0,05 (так как больше критического значения в 0,632 для вероятности 0,05 и меньше критического значения 0,715 для вероятности 0,02). Такой уровень значимости свидетельствует о существенной вероятности повторения данной корреляции в аналогичных исследованиях.

Теперь приведем пример вычисления коэффициента корреляции Пирсона. Пусть в нашем случае необходимо определить характер связи между выполнением одними и теми же лицами двух тестов. Данные по первому из них обозначены как x , а по второму - какy .

Для упрощения расчетов введены некоторые тождества. А именно:

При этом мы имеем следующие результаты испытуемых (в тестовых баллах):

Испытуемые

Четвертый

Одиннадцатый

Двенадцатый


;

;

Заметим, что число степеней свободы равно в нашем случае 10. Обратившись к таблице критических значений коэффициентов Пирсона, узнаем, что при данной степени свободы на уровне значимости 0,999 будет считаться достоверным любой показатель корреляции переменных выше, чем 0,823. Это дает нам право считать полученный коэффициент свидетельством несомненной корреляции рядов x иy .

Применение линейного коэффициента корреляции становится неправомерным в тех случаях, когда вычисления производятся в пределах не интервальной, а порядковой шкалы измерения. Тогда используют коэффициенты ранговой корреляции. Разумеется, результаты при этом получаются менее точными, так как сопоставлению подлежат не сами количественные характеристики, а лишь порядки их следования друг за другом.

Среди коэффициентов ранговой корреляции в практике психологических исследований довольно часто применяют тот, который предложен английским ученым Чарльзом Спирменом (1863-1945), известным разработчиком двухфакторной теории интеллекта.

Используя соответствующий пример, рассмотрим действия, необходимые для определения коэффициента ранговой корреляции Спирмена .

Формула его вычисления выглядит следующим образом:

;

где d -разности между рангами каждой переменной из рядовx иy ,

n - число сопоставляемых пар.

Пусть x иy - показатели успешности выполнения испытуемыми некоторых видов деятельности(оценки индивидуальных достижений). При этом мы располагаем следующими данными:

Испытуемые

Четвертый

Заметим, что вначале производится раздельное ранжирование показателей в рядах x иy . Если при этом встречается несколько равных переменных, то им присваивается одинаковый усредненный ранг.

Затем осуществляется попарное определение разности рангов. Знак разности несущественен, так как по формуле она возводится в квадрат.

В нашем примере сумма квадратов разностей рангов
равна 178. Подставим полученное число в формулу:

Как мы видим, показатель коэффициента корреляции в данном случае составляет ничтожно малую величину. Тем не менее, сопоставим его с критическими значениями коэффициента Спирмена из стандартной таблицы.

Вывод: между указанными рядами переменных x иy корреляция отсутствует.

Надо заметить, что использование процедур ранговой корреляции предоставляет исследователю возможность определять соотношения не только количественных, но и качественных признаков, в том, разумеется, случае, если последние могут быть упорядочены по возрастанию выраженности(ранжированы).

Нами были рассмотрены наиболее распространенные, пожалуй, на практике способы определения коэффициентов корреляции. Иные, более сложные или реже применяемые разновидности данного метода при необходимости можно найти в материалах пособий, посвященных измерениям в научных исследованиях.

ОСНОВНЫЕ ПОНЯТИЯ: корреляция; корреляционный анализ; коэффициент линейной корреляции Пирсона; коэффициент ранговой корреляции Спирмена; критические значения коэффициентов корреляции.

Вопросы для обсуждения:

1. Каковы возможности корреляционного анализа в психологических исследованиях? Что можно и что нельзя выявить с помощью данного метода?

2. Какова последовательность действий при определении коэффициентов линейной корреляции Пирсона и ранговой корреляции Спирмена?

Упражнение 1:

Установите, являются ли статистически достоверными следующие показатели корреляции переменных:

а) коэффициент Пирсона +0,445 для данных двух тестирований в группе, состоящей из 20 испытуемых;

б) коэффициент Пирсона -0,810 при числе степеней свободы равном 4;

в) коэффициент Спирмена +0,415 для группы из 26 человек;

г) коэффициент Спирмена +0,318 при числе степеней свободы равном 38.

Упражнение 2:

Определите коэффициент линейной корреляции между двумя рядами показателей.

Ряд 1: 2, 4, 5, 5, 3, 6, 6, 7, 8, 9

Ряд 2: 2, 3, 3, 4, 5, 6, 3, 6, 7, 7

Упражнение 3:

Сделайте выводы о статистической достоверности и степени выраженности корреляционных отношений при числе степеней свободы равном 25, если известно, что
составляет: а) 1200; б) 1555; в) 2300

Упражнение 4:

Выполните всю последовательность действий, необходимых для определения коэффициента ранговой корреляции между предельно обобщёнными показателями успеваемости школьников («отличник», «хорошист» и т.д.) и характеристиками выполнения ими теста умственного развития (ШТУР). Сделайте интерпретацию полученных показателей.

Упражнение 5:

С помощью коэффициента линейной корреляции рассчитайте показатели ретестовой надежности имеющегося в вашем распоряжении теста интеллекта. Выполните исследование в студенческой группе с интервалом времени между тестированиями в 7-10 дней. Сформулируйте выводы.

При наличии двух рядов значений, подвергающихся ранжированию, рационально рассчитывать ранговую корреляцию Спирмена.

Такие ряды могут представляться:

  • парой признаков, определяемых в одной и той же группе исследуемых объектов;
  • парой индивидуальных соподчиненных признаков, определяемых у 2 исследуемых объектов по одинаковому набору признаков;
  • парой групповых соподчиненных признаков;
  • индивидуальной и групповой соподчиненностью признаков.

Метод предполагает проведение ранжирования показателей в отдельности для каждого из признаков.

Наименьшее значение имеет наименьший ранг.

Этот метод относится к непараметрическому статистическому методу, предназначенному для установления существования связи изучаемых явлений:

  • определение фактической степени параллелизма между двумя рядами количественных данных;
  • оценка тесноты выявленной связи, выражаемой количественно.

Корреляционный анализ

Статистический метод, предназначенный для выявления существования зависимости между 2 и более случайными величинами (переменными), а также ее силы, получил название корреляционного анализа.

Получил свое название от correlatio (лат.) – соотношение.

При его использовании возможны варианты развития событий:

  • наличие корреляции (положительная либо отрицательная);
  • отсутствие корреляции (нулевая).

В случае установления зависимости между переменными речь идет об их коррелировании. Иными словами, можно сказать, что при изменении значения Х, обязательно будет наблюдаться пропорциональное изменение значения У.

В качестве инструментов используются различные меры связи (коэффициенты).

На их выбор оказывает влияние:

  • способ измерения случайных чисел;
  • характер связи между случайными числами.

Существование корреляционной связи может отображаться графически (графики) и с помощью коэффициента (числовое отображение).

Корреляционная связь характеризуется такими признаками:

  • сила связи (при коэффициенте корреляции от ±0,7 до ±1 – сильная; от ±0,3 до ±0,699 – средняя; от 0 до ±0,299 – слабая);
  • направление связи (прямая или обратная).

Цели корреляционного анализа

Корреляционный анализ не позволяет установить причинную зависимость между исследуемыми переменными.

Он проводится с целью:

  • установления зависимости между переменными;
  • получения определенной информации о переменной на основе другой переменной;
  • определения тесноты (связи) этой зависимости;
  • определение направления установленной связи.

Методы корреляционного анализа


Данный анализ может выполняться с использованием:

  • метода квадратов или Пирсона;
  • рангового метода или Спирмена.

Метод Пирсона применим для расчетов требующих точного определения силы, существующей между переменными. Изучаемые с его помощью признаки должны выражаться только количественно.

Для применения метода Спирмена или ранговой корреляции нет жестких требований в выражении признаков – оно может быть, как количественным, так и атрибутивным. Благодаря этому методу получается информация не о точном установлении силы связи, а имеющая ориентировочный характер.

В рядах переменных могут содержаться открытые варианты. Например, когда стаж работы выражается такими значениями, как до 1 года, более 5 лет и т.д.

Коэффициент корреляции

Статистическая величина характеризующая характер изменения двух переменных получила название коэффициента корреляции либо парного коэффициента корреляции. В количественном выражении он колеблется в пределах от -1 до +1.

Наиболее распространены коэффициенты:

  • Пирсона – применим для переменных принадлежащих к интервально шкале;
  • Спирмена – для переменных порядковой шкалы.

Ограничения использования коэффициента корреляции

Получение недостоверных данных при расчете коэффициента корреляции возможно в тех случаях, когда:

  • в распоряжении имеется достаточное количество значений переменной (25-100 пар наблюдений);
  • между изучаемыми переменными установлено, например, квадратичное соотношение, а не линейное;
  • в каждом случае данные содержат больше одного наблюдения;
  • наличие аномальных значений (выбросов) переменных;
  • исследуемые данные состоят из четко выделяемых подгрупп наблюдений;
  • наличие корреляционной связи не позволяет установить какая из переменных может рассматриваться в качестве причины, а какая – в качестве следствия.

Проверка значимости корреляции

Для оценки статистических величин используется понятие их значимости или же достоверности, характеризующей вероятность случайного возникновения величины либо крайних ее значений.

Наиболее распространенным методом определения значимости корреляции является определение критерия Стьюдента.

Его значение сравнивается с табличным, количество степенней свободы принимается как 2. При получении расчетного значения критерия больше табличного, свидетельствует о значимости коэффициента корреляции.

При проведении экономических расчетов достаточным считается доверительный уровень 0,05 (95%) либо 0,01 (99%).

Ранги Спирмена

Коэффициент ранговой корреляции Спирмена позволяет статистически установить наличие связи между явлениями. Его расчет предполагает установление для каждого признака порядкового номера – ранга. Ранг может быть возрастающим либо убывающим.

Количество признаков, подвергаемых ранжированию, может быть любым. Это достаточно трудоемкий процесс, ограничивающий их количество. Затруднения начинаются при достижении 20 признаков.

Для расчета коэффициента Спирмена пользуются формулой:

в которой:

n – отображает количество ранжируемых признаков;

d – не что иное как разность между рангами по двум переменным;

а ∑(d2) – сумма квадратов разностей рангов.

Применение корреляционного анализа в психологии

Статистическое сопровождение психологических исследований позволяет сделать их более объективными и высоко репрезентативными. Статистическая обработка данных полученных в ходе психологических экспериментов способствует извлечению максимума полезной информации.

Наиболее широкое применение в обработке их результатов получил корреляционный анализ.

Уместным является проведение корреляционного анализа результатов, полученных при проведении исследований:

  • тревожности (по тестам R. Temml, M. Dorca, V. Amen);
  • семейных взаимоотношений («Анализ семейных взаимоотношений» (АСВ) опросник Э.Г. Эйдемиллера, В.В. Юстицкиса);
  • уровня интернальности-экстернальности (опросник Е.Ф. Бажина, Е.А. Голынкиной и А.М. Эткинда);
  • уровня эмоционального выгорания у педагогов (опросник В.В. Бойко);
  • связи элементов вербального интеллекта учащихся при разно профильном обучении (методика К.М. Гуревича и др.);
  • связи уровня эмпатии (методика В.В. Бойко) и удовлетворенностью браком (опросник В.В. Столина, Т.Л. Романовой, Г.П. Бутенко);
  • связи между социометрическим статусом подростков (тест Jacob L. Moreno) и особенностями стиля семейного воспитания (опросник Э.Г. Эйдемиллера, В.В. Юстицкиса);
  • структуры жизненных целей подростков, воспитанных в полных и неполных семьях (опросник Edward L. Deci, Richard M. Ryan Ryan).

Краткая инструкция к проведению корреляционного анализа по критерию Спирмена

Проведение корреляционного анализа с использованием метода Спирмена выполняется по следующему алгоритму:

  • парные сопоставимые признаки располагаются в 2 ряда, один из которых обозначается с помощью Х, а другой У;
  • значения ряда Х располагаются в порядке возрастания либо убывания;
  • последовательность расположения значений ряда У определяется их соответствием значений ряда Х;
  • для каждого значения в ряду Х определить ранг — присвоить порядковый номер от минимального значения к максимальному;
  • для каждого из значений в ряду У также определить ранг (от минимального к максимальному);
  • вычислить разницу (D) между рангами Х и У, прибегнув к формуле D=Х-У;
  • полученные значения разницы возводятся в квадрат;
  • выполнить суммирование квадратов разниц рангов;
  • выполнить расчеты по формуле:

Пример корреляции Спирмена

Необходимо установить наличие корреляционной связи между рабочим стажем и показателем травматизма при наличии следующих данных:

Наиболее подходящим методом анализа является ранговый метод, т.к. один из признаков представлен в виде открытых вариантов: рабочий стаж до 1 года и рабочий стаж 7 и более лет.

Решение задачи начинается с ранжирования данных, которые сводятся в рабочую таблицу и могут быть выполнены вручную, т.к. их объем не велик:

Рабочий стаж Число травм Порядковые номера (ранги) Разность рангов Квадрат разности рангов
d(х-у)
до 1 года 24 1 5 -4 16
1-2 16 2 4 -2 4
3-4 12 3 2,5 +0,5 0,25
5-6 12 4 2,5 +1,5 2,5
7 и более 6 5 1 +4 16
Σ d2 = 38,5

Появление дробных рангов в колонке связано с тем, что в случае появления вариант одинаковых по величине находится среднее арифметическое значение ранга. В данном примере показатель травматизма 12 встречается дважды и ему присваиваются ранги 2 и 3, находим среднее арифметическое этих рангов (2+3)/2= 2,5 и помещаем это значение в рабочую таблицу для 2 показателей.
Выполнив подстановку полученных значений в рабочую формулу и произведя несложные расчёты получаем коэффициент Спирмена равный -0,92

Отрицательное значение коэффициента свидетельствует о наличии обратной связи между признаками и позволяет утверждать, что небольшой стаж работы сопровождается большим числом травм. Причем, сила связи этих показателей достаточно большая.
Следующим этапом расчётов является определение достоверности полученного коэффициента:
рассчитывается его ошибка и критерий Стьюдента

Исследуя природу, общество, экономику, необходимо считаться со взаимосвязью наблюдаемых процессов и явлений. При этом полнота описания так или иначе определяется количественными характеристиками причинно-следственных связей между ними. Оценка наиболее существенных из них, а также воздействия одних факторов на другие является одной из основных задач статистики.

Формы проявления взаимосвязей весьма разнообразны. В качестве двух самых общих их видов выделяют функциональную (полную) и корреляционную (неполную) связи. В первом случае величине факторного признака строго соответствует одно или несколько значений функции. Достаточно часто функциональная связь проявляется в физике, химии. В экономике примером может служить прямо пропорциональная зависимость между производительностью труда и увеличением производства продукции.

Корреляционная связь (которую также называют неполной, или статистической) проявляется в среднем, для массовых наблюдений, когда заданным значениям зависимой переменной соответствует некоторый ряд вероятных значений независимой переменной. Объяснение тому – сложность взаимосвязей между анализируемыми факторами, на взаимодействие которых влияют неучтенные случайные величины. Поэтому связь между признаками проявляется лишь в среднем, в массе случаев. При корреляционной связи каждому значению аргумента соответствуют случайно распределенные в некотором интервале значения функции.

Например, некоторое увеличение аргумента повлечет за собой лишь среднее увеличение или уменьшение (в зависимости от направленности) функции, тогда как конкретные значения у отдельных единиц наблюдения будут отличаться от среднего. Такие зависимости встречаются повсеместно. Например, в сельском хозяйстве это может быть связь между урожайностью и количеством внесенных удобрений. Очевидно, что последние участвуют в формировании урожая. Но для каждого конкретного поля, участка одно и то же количество внесенных удобрений вызовет разный прирост урожайности, так как во взаимодействии находится еще целый ряд факторов (погода, состояние почвы и др.), которые и формируют конечный результат. Однако в среднем такая связь наблюдается – увеличение массы внесенных удобрений ведет к росту урожайности.

По направлению связи бывают прямыми, когда зависимая переменная растет с увеличением факторного признака, и обратными, при которых рост последнего сопровождается уменьшением функции. Такие связи также можно назвать соответственно положительными и отрицательными.

Относительно своей аналитической формы связи бывают линейными и нелинейными. В первом случае между признаками в среднем проявляются линейные соотношения. Нелинейная взаимосвязь выражается нелинейной функцией, а переменные связаны между собой в среднем нелинейно.

Существует еще одна достаточно важная характеристика связей с точки зрения взаимодействующих факторов. Если характеризуется связь двух признаков, то ее принято называть парной . Если изучаются более чем две переменные – множественной .

Указанные выше классификационные признаки наиболее часто встречаются в статистическом анализе. Но кроме перечисленных различают также непосредственные, косвенные и ложные связи. Собственно, суть каждой из них очевидна из названия. В первом случае факторы взаимодействуют между собой непосредственно. Для косвенной связи характерно участие какой-то третьей переменной, которая опосредует связь между изучаемыми признаками. Ложная связь – это связь, установленная формально и, как правило, подтвержденная только количественными оценками. Она не имеет под собой качественной основы или же бессмысленна.

По силе различаются слабые и сильные связи. Эта формальная характеристика выражается конкретными величинами и интерпретируется в соответствии с общепринятыми критериями силы связи для конкретных показателей.

В наиболее общем виде задача статистики в области изучения взаимосвязей состоит в количественной оценке их наличия и направления, а также характеристике силы и формы влияния одних факторов на другие. Для ее решения применяются две группы методов, одна из которых включает в себя методы корреляционного анализа, а другая – регрессионный анализ. В то же время ряд исследователей объединяет эти методы в корреляционно-регрессионный анализ, что имеет под собой некоторые основания: наличие целого ряда общих вычислительных процедур, взаимодополнения при интерпретации результатов и др.

Поэтому в данном контексте можно говорить о корреляционном анализе в широком смысле – когда всесторонне характеризуется взаимосвязь. В то же время выделяют корреляционный анализ в узком смысле – когда исследуется сила связи – и регрессионный анализ, в ходе которого оцениваются ее форма и воздействие одних факторов на другие.

Задачи собственно корреляционного анализа сводятся к измерению тесноты связи между варьирующими признаками, определению неизвестных причинных связей и оценке факторов оказывающих наибольшее влияние на результативный признак.

Задачи регрессионного анализа лежат в сфере установления формы зависимости, определения функции регрессии, использования уравнения для оценки неизвестных значении зависимой переменной.

Решение названных задач опирается на соответствующие приемы, алгоритмы, показатели, применение которых дает основание говорить о статистическом изучении взаимосвязей.

Следует заметить, что традиционные методы корреляции и регрессии широко представлены в разного рода статистических пакетах программ для ЭВМ. Исследователю остается только правильно подготовить информацию, выбрать удовлетворяющий требованиям анализа пакет программ и быть готовым к интерпретации полученных результатов. Алгоритмов вычисления параметров связи существует множество, и в настоящее время вряд ли целесообразно проводить такой сложный вид анализа вручную. Вычислительные процедуры представляют самостоятельный интерес, но знание принципов изучения взаимосвязей, возможностей и ограничений тех или иных методов интерпретации результатов является обязательным условием исследования.

Методы оценки тесноты связи подразделяются на корреляционные (параметрические) и непараметрические. Параметрические методы основаны на использовании, как правило, оценок нормального распределения и применяются в случаях, когда изучаемая совокупность состоит из величин, которые подчиняются закону нормального распределения. На практике это положение чаще всего принимается априори. Собственно, эти методы – параметрические – и принято называть корреляционными.

Непараметрические методы не накладывают ограничений на закон распределения изучаемых величин. Их преимуществом является и простота вычислений.

Определение корреляционного анализа

При решении задач экономического характера, а именно прогнозирования, зачастую используется корреляционный анализ. В его основе находятся некоторые значения случайной величины, представленной переменной, которая зависит от случая и может принимать некоторые значения с определенной вероятностью. При этом соответствующий закон распределения может показывать частоту конкретных значений в их общей совокупности. Корреляционный анализ в статистике базируется на стохастической зависимости при проведении исследований взаимосвязи между некоторыми экономическими показателями.

Разновидности корреляционного анализа

Корреляционный анализ оперирует и с функциональной (полной), и с искаженной иными факторами (неполной) зависимостями указанной взаимосвязи. Примером первого вида (функциональной зависимости) служит выпуск и потребление готовой продукции в условиях дефицита. Неполную зависимость можно увидеть, например, между производительностью труда и стажем работы рабочих. При этом больший опыт оказывает влияние на ее качество, однако под влиянием определенных факторов (здоровье или образование) данная зависимость искажается.

Использование корреляционного анализа в статистике

Корреляционный анализ широко используется в математической статистике.

При этом основной его задачей является определение тесноты связи и характера между независимыми (факторными) и зависимыми (результативными) признаками в процессе или явлении. Корреляционная связь обнаруживается лишь при масштабном факторном сопоставлении. Так, ее теснота может быть определена с помощью определенного коэффициента корреляции, специально рассчитываемого и располагающегося в интервале [-1;+1]. Характер связи между указанными показателями может быть определен по корреляционному полю. В случае, когда Y является зависимым признаком, X - независимым, то при принятии каждого случая в виде X(j) корреляционное поле будет иметь координаты (x j ;y j).

Корреляционный анализ в экономике

Экономическая деятельность субъектов хозяйствования зависит от огромного количества различных факторов. При этом необходимо рассматривать именно их комплекс, так как каждый из них отдельно не может определить изучаемое явление во всей его полноте. Поэтому лишь набор факторов в их тесной взаимосвязи дает четкое представление об исследуемом объекте. Многофакторный корреляционный анализ может состоять из нескольких этапов. В первую очередь определяются те факторы, с помощью которых оказывается максимальное воздействие на исследуемый показатель, и выбираются самые существенные для проведения анализа. Второй этап предусматривает сбор и оценку исходной информации, которая необходима для корреляционного анализа. На третьем проводится изучение характера, а также моделируется связь между итоговыми показателями и прочими факторами. Другими словами, обосновывается сформированное математическое уравнение, наиболее точно выражающее сущность анализируемой зависимости. И последний этап предусматривает оценку результатов проведенного корреляционного анализа с практическим его применением.