Корреляционно-регрессионный анализ в Excel: инструкция выполнения.

Основные понятия корреляционного анализа

Выделяют несколько видов связи между переменными:

Корреляционная зависимость предполагает взаимную согласован­ность изменений переменных величин, а также то, что эти изменения можно измерить однократно или многократно (в данном случае гово­рят о плотности связи переменных, но не о причинно-следственных связях); например, в современном российском обществе чем выше возраст, тем ниже социальный статус человека; отдельные проявления геронтократии эту закономерность не нарушают.

Функциональное воздействие предполагает, что изменения не­зависимой переменной сопровождаются все более ускоряющимися изменениями зависимой переменной (причинно-следственные свя­зи фиксируют влияние независимой переменной на зависимую); на­пример, чем более радикальными политическими взглядами обладает человек, тем в большей степени он не приемлет существующий поли­тический режим; в то же время нельзя утверждать, что чем в большей степени человек негативно оценивает власть, тем более радикальными взглядами он обладает.

Функциональная зависимость - связь переменных, означающая, что изменение одной переменной оказывает воздействие на изменение другой, которая в свою очередь воздействует на первую переменную, т.е. это связи взаимодействия; например, информированность челове­ка о политике напрямую связана с интересом к ней; чем больше чело­век политикой интересуется, тем больше в ней разбирается.

Связь может быть нелинейной и немонотонной.

Каким бы в итоге ни оказался тип связи между переменными, не­обходимо убедиться в ее наличии в принципе. Корреляционный ана­лиз применяется для выяснения взаимодействия и тенденций измене­ния характеристик изучаемого явления.

Первоначальной стадией его развития считается период 1870- 1880-х годов, а автором понятия «коэффициент корреляции» - Фрэнсис Гальтон. Наиболее серьезные разработки в области корре­ляционного анализа на рубеже XIX-XX вв. выполнил Карл Пирсон. Традиционно кбрреляционный анализ используется для проверки ги­потезы о статистической зависимости двух или нескольких перемен­ных. В качестве вспомогательного средства анализ корреляций можно использовать при проверке пригодности экспериментальных гипотез и для включения переменных в факторный и регрессионный анализ. Корреляционный анализ осуществляется с помощью сравнения и со­поставления рядов распределения, построенных на основании группи­ровок по различным признакам.

Корреляция - наличие статистической взаимосвязи признаков, когда каждому определенному значению одного признака X соответ­ствует определенное значение У (или комплекс значений К-ряда рас­пределения). Корреляционный анализ выясняет функциональную за­висимость между переменными величинами, которая характеризуется тем, что каждому значению одной из них соответствует вполне опреде- тенпое значение другой. Однако корреляционный анализ не предпо­лагает выявления каузальных связей, поэтому при интерпретации ре- 1ультатов формулировки типа «переменная х влияет на переменную у» или «переменная х зависит от переменной у» недопустимы.

Различают парную и множественную корреляции. Парная корреля­ция характеризует тип, форму и плотность связи между двумя призна­ками, множественная - между несколькими.

Корреляционная зависимость возникает чаще всего там, где одно явление находится под воздействием большого числа факторов, дей­ствующих с разной силой, поэтому существуют специальные меры корреляционной связи, называемые коэффициентами корреляции. Ко­эффициенты (в статистике их общее количество исчисляется десят­ками) показывают степень взаимосвязи явлений (плотность корреля­ционной связи, иногда исследователи говорят об интенсивности связи) и характер этой связи (направленность ). Связь может быть прямой и обратной. Например, чем старше избиратель, тем более активно он участвует в выборах. Чем выше уровень доходов людей, тем в меньшей степени они склонны участвовать в выборах в качестве избирателей (обратная связь). Чем выше коэффициент корреляции между двумя переменными, тем точнее можно предсказать значения одной из них по значениям другой. Характер связи также определяется в категориях «монотонная » (направление изменения одной переменной не меняется при изменении второй переменной) и «немонотонная » связь. Помимо оценки плотности и направленности связи необходимо учитывать на­дежность (достоверность ) связи.

Корреляционный анализ последовательно решает три практиче­ские задачи:

    определение корреляционного поля и составление корреляци­онной (в данном случае это комбинированная) таблицы;

    вычисление выборочных корреляционных отношений или ко­эффициентов корреляции;

    проверка статистической гипотезы значимости связи.

Коэффициент корреляции не содержит информации о том, явля­ется ли данная связь между ними причинно-следственной или сопут­ствующей (порожденной общей причиной). Этот вопрос исследователь должен решать самостоятельно на основе содержательных представле­ний о структуре, динамике изучаемых социальных объектов, корре­ляций между изучаемыми признаками, использовать иные способы статистического анализа (регрессионный, факторный, дискриминант­ный, путевой и т.д.). Но величина коэффициента позволяет оценить плотность связи как меньшую (незначимую) или большую. По знаку коэффициента корреляции для порядковых рядов мы можем сказать, является ли эта связь прямой или обратной (для номинальных рядов знак коэффициента не несет смысловой нагрузки).

Для установления корреляционной связи между двумя призна­ками необходимо доказать, что все другие переменные не оказывают воздействия на отношения двух переменных, являющихся предметом изучения. В противном случае возникает ситуация ложной корреляции. Секрет возникновения ложной корреляции заключается в том, что у двух явлений, связь которых формально подкрепляется наличием ста­тистической связи, есть общая причина, в равной степени влияющая на каждое из них.

Корреляционному анализу предшествует стадия расчета стати­стики х 2 - Но на основании полученного значения статистики х 2 мы ни­чего не можем сказать о плотности связи анализируемых переменных. Цля решения такой задачи необходимо обратиться к коэффициентам корреляционной связи.

Традиционным для выполнения корреляционного анализа являет­ся обращение к коэффициенту корреляции Пирсона (Pearson) Р (в ли­тературе он обозначается и через г).

Если при описании политического объекта определяется лишь на­личие или отсутствие признака или если изучается связь между аль­тернативными признаками, то корреляционные таблицы (таблицы сопряженного признака) - 4-клеточные. В этом случае применяются коэффициент Юла(О) и коэффициент контингенции (ф). Они основаны на принципе совместного появления событий (значений признаков у объекта исследования) и пригодны для анализа любых признаков (ме­трических, порядковых и даже номинальных).

В случае если номинальные шкалы имеют большее число значений, чем два, то для определения зависимости между признаками пользуют­ся коэффициентами сопряженности Пирсона (Р ), Чупрова (7) и Кра­мера (К). При этом определенное значение имеет размерность таблицы с на к, в которой отображены значения двух признаков. Коэффициенты Чупрова и Крамера считаются более «строгими», чем коэффициент со­пряженности Пирсона. Но поскольку вычисления в них строятся с уче­том статистики х 2 , то все связанные с ней ограничения распространя­ются и на эти коэффициенты.

Множественный коэффициент корреляции (IV), который иногда называют коэффициентом конкордации, применяется для оценки со­гласованности двух или нескольких рядов ранжированных значений переменных.

Вариантов расчета коэффи­циентов корреляции между признаками в статистическом пакете SPSS два.

1) корреляционный анализ как средство получения информации;

2) особенности процедур определения коэффициентов линейной и ранговой корреляции.

Корреляционный анализ (от лат. «соотношение», «связь») применяется для проверки гипотезы о статистической зависимости значений двух или нескольких переменных в том случае, если исследователь может их регистрировать (измерять), но не контролировать (изменять).

Когда повышение уровня одной переменной сопровождается повышением уровня другой, то речь идет о положительной корреляции. Если же рост одной переменной происходит при снижении уровня другой, то говорят оботрицательной корреляции. При отсутствии связи переменных мы имеем дело снулевой корреляцией.

При этом переменными могут быть данные тестирований, наблюдений, экспериментов, социально-демографические характеристики, физиологические параметры, особенности поведения и т. д. К примеру, использование метода позволяет нам дать количественно выраженную оценку взаимосвязи таких признаков, как: успешность обучения в вузе и степень профессиональных достижений по его окончании, уровень притязаний и стресс, количество детей в семье и качества их интеллекта, черты личности и профессиональная ориентация, продолжительность одиночества и динамика самооценки, тревожность и внутригрупповой статус, социальная адаптированность и агрессивность при конфликте...

В качестве вспомогательных средств, процедуры корреляции незаменимы при конструировании тестов (для определения валидности и надежности измерения), а также как пилотажные действия по проверке пригодности экспериментальных гипотез (факт отсутствия корреляции позволяет отвергнуть предположение о причинно-следственной связи переменных).

Усиление интереса в психологической науке к потенциалу корреляционного анализа обусловлено целым рядом причин. Во-первых, становится допустимым изучение широкого круга переменных, экспериментальная проверка которых затруднена или невозможна. Ведь по этическим соображениям, к примеру, нельзя провести экспериментальные исследования самоубийств, наркомании, деструктивных родительских воздействий, влияния авторитарных сект. Во-вторых, возможно получение за короткое время ценных обобщений данных о больших количествах исследуемых лиц. В-третьих, известно, что многие феномены изменяют свою специфику во время строгих лабораторных экспериментов. А корреляционный анализ предоставляет исследователю возможность оперировать информацией, полученной в условиях, максимально приближенных к реальным. В-четвертых, осуществление статистического изучения динамики той или иной зависимости нередко создает предпосылки к достоверному прогнозированию психологических процессов и явлений.

Однако следует иметь в виду, что применение корреляционного метода связано и с весьма существенными принципиальными ограничениями.

Так, известно, что переменные вполне могут коррелировать и при отсутствии причинно-следственной связи между собой.

Это иногда возможно в силу действия случайных причин, при неоднородности выборки, из-за неадекватности исследовательского инструментария поставленным задачам. Такая ложная корреляция способна стать, скажем, «доказательством» того, что женщины дисциплинированнее мужчин, подростки из неполных семей более склонны к правонарушениям, экстраверты агрессивнее интровертов и т. п. Действительно, стоит отобрать в одну группу мужчин, работающих в высшей школе, и женщин, предположим, из сферы обслуживания, да еще и протестировать тех и других на знание научной методологии, то мы получим выражение заметной зависимости качества информированности от пола. Можно ли доверять такой корреляции?

Еще чаще, пожалуй, в исследовательской практике встречаются случаи, когда обе переменные изменяются под влиянием некоей третьей или даже нескольких скрытых детерминант.

Если мы обозначим цифрами переменные, а стрелками - направления от причин к следствиям, то увидим целый ряд возможных вариантов:

1 2 3 4

1 2 3 4

1 2 3 4

1 2 3 4 и т. д.

Невнимание к воздействию реальных, но неучтенных исследователями факторов позволило представить обоснования того, что интеллект - сугубо наследуемое образование (психогенетический подход) или, напротив, что он обусловлен лишь влиянием социальных составляющих развития (социогенетический подход). В психологии, следует заметить, нераспространены феномены, имеющие однозначную первопричину.

Кроме того, факт наличия взаимосвязи переменных не дает возможности выявить по итогам корреляционного исследования причину и следствие даже в тех случаях, когда промежуточных переменных не существует.

Например, при изучении агрессивности детей было установлено, что склонные к жестокости дети чаще сверстников смотрят фильмы со сценами насилия. Означает ли это, что такие сцены развивают агрессивные реакции или, наоборот, подобные фильмы привлекают самых агрессивных детей? В рамках корреляционного исследования дать правомерный ответ на этот вопрос невозможно.

Необходимо запомнить: наличие корреляций не является показателем выраженности и направленности причинно-следственных отношений.

Другими словами, установив корреляцию переменных, мы можем судить не о детерминантах и производных, а лишь о том, насколько тесно взаимосвязаны изменения переменных и каким образом одна из них реагирует на динамику другой.

При использовании данного метода оперируют той или иной разновидностью коэффициента корреляции. Его числовое значение обычно изменяется от -1 (обратная зависимость переменных) до +1 (прямая зависимость). При этом нулевое значение коэффициента соответствует полному отсутствию взаимосвязи динамики переменных.

Например, коэффициент корреляции +0,80 отражает наличие более выраженной зависимости между переменными, чем коэффициент +0,25. Аналогично, зависимость между переменными, характеризуемая коэффициентом -0,95, гораздо теснее, чем та, где коэффициенты имеют значения +0,80 или + 0,25 («минус» указывает нам только на то, что рост одной переменной сопровождается уменьшением другой).

В практике психологических исследований показатели коэффициентов корреляции обычно не достигают +1 или -1. Речь может идти только о той или иной степени приближения к данному значению. Часто корреляция считается выраженной, если ее коэффициент выше 0,60. При этом недостаточной корреляцией, как правило, считаются показатели, располагающиеся в интервале от -0,30 до +0,30.

Однако, сразу следует оговорить, что интерпретация наличия корреляции всегда предполагает определение критических значений соответствующего коэффициента. Рассмотрим этот момент более подробно.

Вполне может получиться так, что коэффициент корреляции равный +0,50 в некоторых случаях не будет признан достоверным, а коэффициент, составляющий +0,30, окажется при определенных условиях характеристикой несомненной корреляции. Многое здесь зависит от протяженности рядов переменных (т. е. от количества сопоставляемых показателей), а также от заданной величины уровня значимости (или от принятой за приемлемую вероятность ошибки в расчетах).

Ведь, с одной стороны, чем больше выборка, тем количественно меньший коэффициент будет считаться достоверным свидетельством корреляционных отношений. А с другой стороны, если мы готовы смириться со значительной вероятностью ошибки, то можем посчитать за достаточную небольшую величину коэффициента корреляции.

Существуют стандартные таблицы с критическими значениями коэффициентов корреляции. Если полученный нами коэффициент окажется ниже, чем указанный в таблице для данной выборки при установленном уровне значимости, то он считается статистически недостоверным.

Работая с такой таблицей, следует знать, что пороговой величиной уровня значимости в психологических исследованиях обычно считается 0,05(или пять процентов). Разумеется, риск ошибиться будет еще меньше, если эта вероятность составляет 1 на 100 или, еще лучше, 1 на 1000.

Итак, не сама по себе величина подсчитанного коэффициента корреляции служит основанием для оценки качества связи переменных, а статистическое решение о том, можно ли считать вычисленный показатель коэффициента достоверным.

Зная это, обратимся к изучению конкретных способов определения коэффициентов корреляции.

Значительный вклад в разработку статистического аппарата корреляционных исследований внес английский математик и биолог Карл Пирсон (1857-1936), занимавшийся в свое время проверкой эволюционной теории Ч. Дарвина.

Обозначение коэффициента корреляции Пирсона (r) происходит от понятия регрессии - операции по сведению множества частных зависимостей между отдельными значениями переменных к их непрерывной (линейной) усредненной зависимости.

Формула для расчета коэффициента Пирсона имеет такой вид:

где x , y - частные значения переменных,-(сигма) - обозначение суммы, а
- средние значения тех же самых переменных. Рассмотрим порядок использования таблицы критических значений коэффициентов Пирсона. Как мы видим, в левой ее графе указано число степеней свободы. Определяя нужную нам строчку, мы исходим из того, что искомая степень свободы равнаn -2, гдеn - количество данных в каждом из коррелируемых рядов. В графах же, расположенных с правой стороны, указаны конкретные значения модулей коэффициентов.

Число степеней «свободы»

Уровни значимости

Причем, чем правее расположен столбик чисел, тем выше достоверность корреляции, увереннее статистическое решение о её значимости.

Если у нас, например, коррелируют два ряда цифр по 10 единиц в каждом из них и получен по формуле Пирсона коэффициент, равный +0,65, то он будет считаться значимым на уровне 0,05 (так как больше критического значения в 0,632 для вероятности 0,05 и меньше критического значения 0,715 для вероятности 0,02). Такой уровень значимости свидетельствует о существенной вероятности повторения данной корреляции в аналогичных исследованиях.

Теперь приведем пример вычисления коэффициента корреляции Пирсона. Пусть в нашем случае необходимо определить характер связи между выполнением одними и теми же лицами двух тестов. Данные по первому из них обозначены как x , а по второму - какy .

Для упрощения расчетов введены некоторые тождества. А именно:

При этом мы имеем следующие результаты испытуемых (в тестовых баллах):

Испытуемые

Четвертый

Одиннадцатый

Двенадцатый


;

;

Заметим, что число степеней свободы равно в нашем случае 10. Обратившись к таблице критических значений коэффициентов Пирсона, узнаем, что при данной степени свободы на уровне значимости 0,999 будет считаться достоверным любой показатель корреляции переменных выше, чем 0,823. Это дает нам право считать полученный коэффициент свидетельством несомненной корреляции рядов x иy .

Применение линейного коэффициента корреляции становится неправомерным в тех случаях, когда вычисления производятся в пределах не интервальной, а порядковой шкалы измерения. Тогда используют коэффициенты ранговой корреляции. Разумеется, результаты при этом получаются менее точными, так как сопоставлению подлежат не сами количественные характеристики, а лишь порядки их следования друг за другом.

Среди коэффициентов ранговой корреляции в практике психологических исследований довольно часто применяют тот, который предложен английским ученым Чарльзом Спирменом (1863-1945), известным разработчиком двухфакторной теории интеллекта.

Используя соответствующий пример, рассмотрим действия, необходимые для определения коэффициента ранговой корреляции Спирмена .

Формула его вычисления выглядит следующим образом:

;

где d -разности между рангами каждой переменной из рядовx иy ,

n - число сопоставляемых пар.

Пусть x иy - показатели успешности выполнения испытуемыми некоторых видов деятельности(оценки индивидуальных достижений). При этом мы располагаем следующими данными:

Испытуемые

Четвертый

Заметим, что вначале производится раздельное ранжирование показателей в рядах x иy . Если при этом встречается несколько равных переменных, то им присваивается одинаковый усредненный ранг.

Затем осуществляется попарное определение разности рангов. Знак разности несущественен, так как по формуле она возводится в квадрат.

В нашем примере сумма квадратов разностей рангов
равна 178. Подставим полученное число в формулу:

Как мы видим, показатель коэффициента корреляции в данном случае составляет ничтожно малую величину. Тем не менее, сопоставим его с критическими значениями коэффициента Спирмена из стандартной таблицы.

Вывод: между указанными рядами переменных x иy корреляция отсутствует.

Надо заметить, что использование процедур ранговой корреляции предоставляет исследователю возможность определять соотношения не только количественных, но и качественных признаков, в том, разумеется, случае, если последние могут быть упорядочены по возрастанию выраженности(ранжированы).

Нами были рассмотрены наиболее распространенные, пожалуй, на практике способы определения коэффициентов корреляции. Иные, более сложные или реже применяемые разновидности данного метода при необходимости можно найти в материалах пособий, посвященных измерениям в научных исследованиях.

ОСНОВНЫЕ ПОНЯТИЯ: корреляция; корреляционный анализ; коэффициент линейной корреляции Пирсона; коэффициент ранговой корреляции Спирмена; критические значения коэффициентов корреляции.

Вопросы для обсуждения:

1. Каковы возможности корреляционного анализа в психологических исследованиях? Что можно и что нельзя выявить с помощью данного метода?

2. Какова последовательность действий при определении коэффициентов линейной корреляции Пирсона и ранговой корреляции Спирмена?

Упражнение 1:

Установите, являются ли статистически достоверными следующие показатели корреляции переменных:

а) коэффициент Пирсона +0,445 для данных двух тестирований в группе, состоящей из 20 испытуемых;

б) коэффициент Пирсона -0,810 при числе степеней свободы равном 4;

в) коэффициент Спирмена +0,415 для группы из 26 человек;

г) коэффициент Спирмена +0,318 при числе степеней свободы равном 38.

Упражнение 2:

Определите коэффициент линейной корреляции между двумя рядами показателей.

Ряд 1: 2, 4, 5, 5, 3, 6, 6, 7, 8, 9

Ряд 2: 2, 3, 3, 4, 5, 6, 3, 6, 7, 7

Упражнение 3:

Сделайте выводы о статистической достоверности и степени выраженности корреляционных отношений при числе степеней свободы равном 25, если известно, что
составляет: а) 1200; б) 1555; в) 2300

Упражнение 4:

Выполните всю последовательность действий, необходимых для определения коэффициента ранговой корреляции между предельно обобщёнными показателями успеваемости школьников («отличник», «хорошист» и т.д.) и характеристиками выполнения ими теста умственного развития (ШТУР). Сделайте интерпретацию полученных показателей.

Упражнение 5:

С помощью коэффициента линейной корреляции рассчитайте показатели ретестовой надежности имеющегося в вашем распоряжении теста интеллекта. Выполните исследование в студенческой группе с интервалом времени между тестированиями в 7-10 дней. Сформулируйте выводы.

Определение корреляционного анализа

При решении задач экономического характера, а именно прогнозирования, зачастую используется корреляционный анализ. В его основе находятся некоторые значения случайной величины, представленной переменной, которая зависит от случая и может принимать некоторые значения с определенной вероятностью. При этом соответствующий закон распределения может показывать частоту конкретных значений в их общей совокупности. Корреляционный анализ в статистике базируется на стохастической зависимости при проведении исследований взаимосвязи между некоторыми экономическими показателями.

Разновидности корреляционного анализа

Корреляционный анализ оперирует и с функциональной (полной), и с искаженной иными факторами (неполной) зависимостями указанной взаимосвязи. Примером первого вида (функциональной зависимости) служит выпуск и потребление готовой продукции в условиях дефицита. Неполную зависимость можно увидеть, например, между производительностью труда и стажем работы рабочих. При этом больший опыт оказывает влияние на ее качество, однако под влиянием определенных факторов (здоровье или образование) данная зависимость искажается.

Использование корреляционного анализа в статистике

Корреляционный анализ широко используется в математической статистике.

При этом основной его задачей является определение тесноты связи и характера между независимыми (факторными) и зависимыми (результативными) признаками в процессе или явлении. Корреляционная связь обнаруживается лишь при масштабном факторном сопоставлении. Так, ее теснота может быть определена с помощью определенного коэффициента корреляции, специально рассчитываемого и располагающегося в интервале [-1;+1]. Характер связи между указанными показателями может быть определен по корреляционному полю. В случае, когда Y является зависимым признаком, X - независимым, то при принятии каждого случая в виде X(j) корреляционное поле будет иметь координаты (x j ;y j).

Корреляционный анализ в экономике

Экономическая деятельность субъектов хозяйствования зависит от огромного количества различных факторов. При этом необходимо рассматривать именно их комплекс, так как каждый из них отдельно не может определить изучаемое явление во всей его полноте. Поэтому лишь набор факторов в их тесной взаимосвязи дает четкое представление об исследуемом объекте. Многофакторный корреляционный анализ может состоять из нескольких этапов. В первую очередь определяются те факторы, с помощью которых оказывается максимальное воздействие на исследуемый показатель, и выбираются самые существенные для проведения анализа. Второй этап предусматривает сбор и оценку исходной информации, которая необходима для корреляционного анализа. На третьем проводится изучение характера, а также моделируется связь между итоговыми показателями и прочими факторами. Другими словами, обосновывается сформированное математическое уравнение, наиболее точно выражающее сущность анализируемой зависимости. И последний этап предусматривает оценку результатов проведенного корреляционного анализа с практическим его применением.

КУРСОВАЯ РАБОТА

Тема: Корреляционный анализ

Введение

1. Корреляционный анализ

1.1 Понятие корреляционной связи

1.2 Общая классификация корреляционных связей

1.3 Корреляционные поля и цель их построения

1.4 Этапы корреляционного анализа

1.5 Коэффициенты корреляции

1.6 Нормированный коэффициент корреляции Браве-Пирсона

1.7 Коэффициент ранговой корреляции Спирмена

1.8 Основные свойства коэффициентов корреляции

1.9 Проверка значимости коэффициентов корреляции

1.10 Критические значения коэффициента парной корреляции

2. Планирование многофакторного эксперимента

2.1 Условие задачи

2.2 Определение центр плана (основной уровень) и уровня варьирования факторов

2.3 Построение матрицы планирования

2.4 Проверка однородности дисперсии и равноточности измерения в разных сериях

2.5 Коэффициенты уравнения регрессии

2.6 Дисперсия воспроизводимости

2.7 Проверка значимости коэффициентов уравнения регрессии

2.8 Проверка адекватности уравнения регрессии

Заключение

Список литературы

ВВЕДЕНИЕ

Планирование эксперимента -математико-статистическая дисциплина, изучающая методы рациональной организации экспериментальных исследований - от оптимального выбора исследуемых факторов и определения собственно плана эксперимента в соответствии с его целью до методов анализа результатов. Начало планирования эксперимента положили труды английского статистика Р.Фишера (1935), подчеркнувшего, что рациональное планирование экспериментадаёт не менее существенный выигрыш в точности оценок, чем оптимальная обработка результатов измерений. В 60-х годах 20 века сложилась современная теория планирования эксперимента. Её методы тесно связаны с теорией приближения функций и математическим программированием. Построены оптимальные планы и исследованы их свойства для широкого класса моделей.

Планирование эксперимента – выбор плана эксперимента, удовлетворяющего заданным требованиям, совокупность действий направленных на разработку стратегии экспериментирования (от получения априорной информации до получения работоспособной математической модели или определения оптимальных условий). Это целенаправленное управление экспериментом, реализуемое в условиях неполного знания механизма изучаемого явления.

В процессе измерений, последующей обработки данных, а также формализации результатов в виде математической модели, возникают погрешности и теряется часть информации, содержащейся в исходных данных. Применение методов планирования эксперимента позволяет определить погрешность математической модели и судить о ее адекватности. Если точность модели оказывается недостаточной, то применение методов планирования эксперимента позволяет модернизировать математическую модель с проведением дополнительных опытов без потери предыдущей информации и с минимальными затратами.

Цель планирования эксперимента – нахождение таких условий и правил проведения опытов при которых удается получить надежную и достоверную информацию об объекте с наименьшей затратой труда, а также представить эту информацию в компактной и удобной форме с количественной оценкой точности.

Среди основных методов планирования, применяемых на разных этапах исследования, используют:

Планирование отсеивающего эксперимента, основное значение которого выделение из всей совокупности факторов группы существенных факторов, подлежащих дальнейшему детальному изучению;

Планирование эксперимента для дисперсионного анализа, т.е. составление планов для объектов с качественными факторами;

Планирование регрессионного эксперимента, позволяющего получать регрессионные модели (полиномиальные и иные);

Планирование экстремального эксперимента, в котором главная задача – экспериментальная оптимизация объекта исследования;

Планирование при изучении динамических процессов и т.д.

Целью изучения дисциплины является подготовка студентов к производственно-технической деятельности по специальности с применением методов теории планирования и современных информационных технологий.

Задачи дисциплины: изучение современных методов планирования, организации и оптимизации научного и промышленного эксперимента, проведения экспериментов и обработки полученных результатов.

1. КОРРЕЛЯЦИОННЫЙ АНАЛИЗ

1.1 Понятие корреляционной связи

Исследователя нередко интересует, как связаны между собой две или большее количество переменных в одной или нескольких изучаемых выборках. Например, может ли рост влиять на вес человека или может ли давление влиять на качество продукции?

Такого рода зависимость между переменными величинами называется корреляционной, или корреляцией. Корреляционная связь - это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.

Известно, например, что в среднем между ростом людей и их весом наблюдается положительная связь, и такая, что чем больше рост, тем больше вес человека. Однако из этого правила имеются исключения, когда относительно низкие люди имеют избыточный вес, и, наоборот, астеники, при высоком росте имеют малый вес. Причиной подобных исключений является то, что каждый биологический, физиологический или психологический признак определяется воздействием многих факторов: средовых, генетических, социальных, экологических и т.д.

Корреляционные связи - это вероятностные изменения, которые можно изучать только на представительных выборках методами математической статистики. Оба термина - корреляционная связь и корреляционная зависимость - часто используются как синонимы. Зависимость подразумевает влияние, связь - любые согласованные изменения, которые могут объясняться сотнями причин. Корреляционные связи не могут рассматриваться как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого.

Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака.

Задача корреляционного анализа сводится к установлению направления (положительное или отрицательное) и формы (линейная, нелинейная) связи между варьирующими признаками, измерению ее тесноты, и, наконец, к проверке уровня значимости полученных коэффициентов корреляции.

Корреляционные связи различаютсяпо форме, направлению и степени (силе).

По форме корреляционная связь может быть прямолинейной или криволинейной. Прямолинейной может быть, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии. Криволинейной может быть, например, связь между уровнем мотивации и эффективностью выполнения задачи (рисунок 1). При повышении мотивации эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.

Рисунок 1 - Связь между эффективностью решения задачи и силой мотивационной тенденции

По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной"). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака - низкие значения другого (рисунок 2). При отрицательной корреляции соотношения обратные (рисунок 3). При положительной корреляции коэффициент корреляции имеет положительный знак, при отрицательной корреляции - отрицательный знак.

Рисунок 2 – Прямая корреляция

Рисунок 3 – Обратная корреляция


Рисунок 4 – Отсутствие корреляции

Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции.

1.2 Общая классификация корреляционных связей

В зависимости от коэффициента корреляции различают следующие корреляционные связи:

Сильная, или тесная при коэффициенте корреляции r>0,70;

Средняя (при 0,50

Умеренная (при 0,30

Слабая (при 0,20

Очень слабая (при r<0,19).

1.3 Корреляционные поля и цель их построения

Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (x i , y i) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений x i и y i . При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения x i и y i . Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами x i и y i графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.
Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: μ x , μ y – средние значения (математические ожидания); σ x ,σ y – стандартные отклонения случайных величин Х и Y и р – коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.
Если р = 0, то значения, x i , y i , полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рисунок 5, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.


Рисунок 5 - Графическая интерпретация взаимосвязи между показателями

Если р = 1 или р = -1, то между случайными величинами Х и Y существует линейная функциональная зависимость (Y = c + dX). В этом случае говорят о полной корреляции. При р = 1 значения x i , y i определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением x i значения y i также увеличиваются), при р = -1 прямая имеет отрицательный наклон (рисунок 5, б). В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xi , y i , попадают в область, ограниченную некоторым эллипсом (рисунок 5, в, г), причем при p > 0 имеет место положительная корреляция (с увеличением x i значения y i имеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к , тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии. Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию (риунок 5, д).

Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции.

Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X), где признак Y – зависимая переменная, или функция от независимой переменной X, называемой аргументом. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.

1.4 Этапы корреляционного анализа

Практическая реализация корреляционного анализа включает следующие этапы:

а) постановка задачи и выбор признаков;

б) сбор информации и ее первичная обработка (группировки, исключение аномальных наблюдений, проверка нормальности одномерного распределения);

в) предварительная характеристика взаимосвязей (аналитические группировки, графики);

г) устранение мультиколлинеарности (взаимозависимости факторов) и уточнение набора показателей путем расчета парных коэффициентов корреляции;

д) исследование факторной зависимости и проверка ее значимости;

е) оценка результатов анализа и подготовка рекомендаций по их практическому использованию.

1.5 Коэффициенты корреляции

Коэффициенты корреляции является общепринятой в математической статистике характеристикой связи между двумя случайными величинами. Коэффициент корреляции - показатель степени взаимозависимости, статистической связи двух переменных; изменяется в пределах от -1 до +1. Значение коэффициента корреляции 0 указывает на возможное отсутствие зависимости, значение +1 свидетельствует о согласованности переменных.

Различают следующие коэффициенты корреляции:

Дихотомический - показатель связи признаков (переменных) измеряемых по дихотомическим шкалам наименований;

Пирсона (Pearson product-moment correlation) - коэффициент корреляции, используемый для континуальных переменных;

Ранговой корреляции Спирмена (Spearmen"s rank-order correlation) - коэффициент корреляции для переменных, измеренных в порядковых (ранговых) шкалах;

Точечно-бисериальной корреляции (point-biserial correlation) - коэффициент корреляции, применяемый в случае анализа отношения переменных, одна из которых измерена в континуальной шкале, а другая - в строго дихотомической шкале наименований;

J - коэффициент корреляции, используемый в случае, если обе переменные измерены в дихотомической шкале наименований.

Тетрахорический (четырехпольный) (tetrachoric) - коэффициент корреляции, используемый в случае, если обе переменные измерены в континуальных шкалах.

Линейная связь между переменными X i и X j оценивается коэффициентом корреляции:

,


где X i и X j – исследуемые переменные; mX i и mX j – математические ожидания переменных; σ X и σ X – дисперсии переменных.

Выборочный коэффициент корреляции определяют по формуле:

,

или по преобразованной формуле:

,

где i =1, 2, ..., n, j = 1, 2, ..., m, u = 1, 2, ..., N; N – число опытов(объем выборки); x i , x j – оценки математических ожиданий; S Xi , S Xj – оценки среднеквадратических отклонений.

Только при совместной нормальной распределенности исследуемых случайных величин X i и X j коэффициент корреляции имеет определенный смысл связи между переменными. В противном случае коэффициент корреляции может только косвенно характеризовать эту связь.

1.6 Нормированный коэффициент корреляции Браве-Пирсона

В качестве оценки генерального коэффициента корреляции р используется коэффициент корреляции r Браве-Пирсона. Для его определения принимается предположение о двумерном нормальном распределении генеральной совокупности, из которой получены экспериментальные данные. Это предположение может быть проверено с помощью соответствующих критериев значимости. Следует отметить, что если по отдельности одномерные эмпирические распределения значений x i и y i согласуются с нормальным распределением, то из этого еще не следует, что двумерное распределение будет нормальным. Для такого заключения необходимо еще проверить предположение о линейности связи между случайными величинами Х и Y. Строго говоря, для вычисления коэффициента корреляции достаточно только принять предположение о линейности связи между случайными величинами, и вычисленный коэффициент корреляции будет мерой этой линейной связи.
Коэффициент корреляции Браве–Пирсона () относится к параметрическим коэффициентам и для практических расчетов вычисляется по формуле:

Из формулы видно, что для вычисления необходимо найти средние значения признаков Х и Y, а также отклонения каждого статистического данного от его среднего . Зная эти значения, находятся суммы . Затем, вычислив значение , необходимо определить достоверность найденного коэффициента корреляции, сравнив его фактическое значение с табличным для f = n –2. Если , то можно говорить о том, что между признаками наблюдается достоверная взаимосвязь. Если , то между признаками наблюдается недостоверная корреляционная взаимосвязь.

Пример 1.10 студентам были даны тесты на наглядно-образное и вербальное мышление. Измерялось среднее время решения заданий теста в секундах. Исследователя интересует вопрос: существует ли взаимосвязь между временем решения этих задач? Переменная X - обозначает среднее время решения наглядно-образных, а переменная Y- среднее время решения вербальных заданий тестов.

Решение. Представим исходные данные в виде таблицы 4, в которой введены дополнительные столбцы, необходимые для расчета по формуле.

Таблица 1 – Условия задачи

№ испытуемых x y х i - (х i -) 2 y i - (y i - ) 2
1 19 17 -16,7 278,89 -7,2 51,84 120,24
2 32 7 -3,7 13,69 -17,2 295,84 63,64
3 33 17 -2,7 7,29 -7,2 51,84 19,44
4 44 28 8,3 68,89 3,8 14,44 31,54
5 28 27 -7,7 59,29 2,8 7,84 -21,56
6 35 31 -0,7 0,49 6,8 46,24 -4,76
7 39 20 3,3 10,89 -4,2 17,64 -13,86
8 39 17 3,3 10,89 -7,2 51,84 -23,76
9 44 35 8,3 68,89 10,8 116,64 89,64
10 44 43 8,3 68,89 18,8 353,44 156,04
Сумма 357 242 588,1 1007,6 416,6
Среднее 35,7 24,2

Рассчитываем эмпирическую величину коэффициента корреляции по формуле расчета коэффициента корреляции Браве–Пирсона:

Определяем критические значения для полученного коэффициента корреляции по таблице. При нахождении критических значений для вычисленного коэффициента линейной корреляции Пирсона число степеней свободы рассчитывается как f = n – 2 = 8. r крит =0,72 > 0,54 , следовательно, гипотеза Н 1 отвергается и принимается гипотеза H 0 , иными словами, связь между временем решения наглядно-образных и вербальных заданий теста не доказана.

1.7 Коэффициент ранговой корреляции Спирмена

Если потребуется установить связь между двумя признаками, значения которых в генеральной совокупности распределены не по нормальному закону, т. е. предположение о том, что двумерная выборка (xi и yi) получена из двумерной нормальной генеральной совокупности, не принимается, то можно воспользоваться коэффициентом ранговой корреляции Спирмена ():

где dx и dy – ранги показателей xi и yi; n – число коррелируемых пар.

Коэффициент ранговой корреляции также имеет пределы 1 и –1. Если ранги одинаковы для всех значений xi и yi, то все разности рангов (dx - dy) = 0 и = 1. Если ранги xi и yi расположены в обратном порядке, то = -1. Таким образом, коэффициент ранговой корреляции является мерой совпадения рангов значений x i и y i .

Когда ранги всех значений x i и y i строго совпадают или расположены в обратном порядке, между случайными величинами Х и Y существует функциональная зависимость, причем эта зависимость не обязательно линейная, как в случае с коэффициентом линейной корреляции Браве-Пирсона, а может быть любой монотонной зависимостью (т. е. постоянно возрастающей или постоянно убывающей зависимостью). Если зависимость монотонно возрастающая, то ранги значений x i и y i совпадают и = 1; если зависимость монотонно убывающая, то ранги обратны и = –1. Следовательно, коэффициент ранговой корреляции является мерой любой монотонной зависимости между случайными величинами Х и Y.

Из формулы видно, что для вычисления необходимо сначала проставить ранги (dx и dy) показателей xi и yi, найти разности рангов (dx - dy) для каждой пары показателей и квадраты этих разностей (dx - dy) 2 . Зная эти значения, находятся суммы , учитывая, что всегда равна нулю. Затем, вычислив значение , необходимо определить достоверность найденного коэффициента корреляции, сравнив его фактическое значение с табличным. Если , то можно говорить о том, что между признаками наблюдается достоверная взаимосвязь. Если , то между признаками наблюдается недостоверная корреляционная взаимосвязь.

Коэффициент ранговой корреляции Спирмена вычисляется значительно проще, чем коэффициент корреляции Браве-Пирсона при одних и тех же исходных данных, поскольку при вычислении используются ранги, представляющие собой обычно целые числа.

Коэффициент ранговой корреляции целесообразно использовать в следующих случаях:

Если экспериментальные данные представляют собой точно измеренные значения признаков Х и Y и требуется быстро найти приближенную оценку коэффициента корреляции. Тогда даже в случае двумерного нормального распределения генеральной совокупности можно воспользоваться коэффициентом ранговой корреляции вместо точного коэффициента корреляции Браве-Пирсона. Вычисления будут существенно проще, а точность оценки генерального параметра р с помощью коэффициента при больших объемах выборки составляет 91,2% по отношению к точности оценки по коэффициенту корреляций;

Когда значения x i и (или) y i заданы в порядковой шкале (например, оценки судей в баллах, места на соревнованиях, количественные градации качественных признаков), т. е. когда признаки не могут быть точно измерены, но их наблюдаемые значения могут быть расставлены в определенном порядке.

Пример 2. Определить достоверность взаимосвязи между показателями веса и максимального количества сгибания и разгибания рук в упоре лежа у 10 исследуемых с помощью расчета рангового коэффициента корреляции, если данные выборок таковы:

x i ,кг~55; 45; 43; 47; 47; 51; 48; 60; 53;50

y i , кол-во раз ~ 26; 20; 25; 22; 27; 28; 16; 15; 18; 24

1. Расчет рангового коэффициента корреляции Спирмена произведем по формуле:

где: d x и d y - ранги показателей х и у ;

n - число коррелируемых пар или исследуемых.

2 Данные тестирования занести в рабочую таблицу и сделать необходимые расчеты.

Таблица 2 – Данные тестирования

x i d x y i d y
55 9 26 9 0 0
45 2 20 4 -2 4
43 1 25 7 -6 36
47 3.5 22 5 -1.5 2.25
47 3.5 7 8 -4.5 20.25
51 7 28 10 -3 9
48 5 16 2 3 9
60 10 15 1 9 81
53 8 18 3 5 25
50 6 24 6 0 0
= 0 = 186,5

Тогда

3. Сравнить расчетное значение рангового коэффициента корреляции(r ф =-0,13) с табличным значением для n = 10 при α = 5% и сделать вывод.

1) т.к. r ф = -0,13 < 0, то между данными выборок наблюдается прямая отрицательная взаимосвязь, т.е. увеличением показателей веса вызывает снижение максимального количество сгибаний и разгибаний рук в упоре лежа в группе исследуемых;

2) т.к. r ф = -0,13 < r st = 0,64 для n = 10 при α = 5%, то с уверенностью Р = 95% можно говорить о том, что выявленная зависимость недостоверна.

1.8 Основные свойства коэффициентов корреляции

К основным свойствам коэффициента корреляции необходимо отнести следующие:

Коэффициенты корреляции способны характеризовать только линейные связи, т.е. такие, которые выражаются уравнением линейной функции. При наличии нелинейной зависимости между варьирующими признаками следует использовать другие показатели связи;

Значения коэффициентов корреляции – это отвлеченные числа, лежащее в пределах от -1 до +1, т.е. -1 < r < 1;

При независимом варьировании признаков, когда связь между ними отсутствует, r= 0;

При положительной, или прямой, связи, когда с увеличением значений одного признака возрастают значения другого, коэффициент корреляции приобретает положительный знак и находится в пределах от 0 до +1, т.е. 0 < r < 1;

При отрицательной, или обратной, связи, когда с увеличением значений одного признака соответственно уменьшаются значения другого, коэффициент корреляции сопровождается отрицательным знаком и находится в пределах от 0 до –1, т.е. -1 < r <0;

Чем сильнее связь между признаками, тем ближе величина коэффициента корреляции к 1. Если r = ±1, то корреляционная связь переходит в функциональную, т.е. каждому значению признака Х будет соответствовать одно или несколько строго определенных значений признака Y;

Только по величине коэффициентов корреляции нельзя судить о достоверности корреляционной связи между признаками. Этот параметр зависит от числа степеней свободы f= n –2, где n – число коррелируемых пар показателей Х и Y. Чем больше n, тем выше достоверность связи при одном и том же значении коэффициента корреляции.

1.9 Проверка значимости коэффициентов корреляции

Для проверки значимости коэффициентов корреляции чаще всего используют распределение Стьюдента и условие:

, f = N – 2, α = 0,05.


Если условие выполняется, то гипотеза об отсутствии корреляционной связи принимается.

1.10 Критические значения коэффициента парной корреляции

Таблица 3 - Критические значения коэффициента парной корреляции при α=0,05

Для проверки значимости коэффициента парной корреляции нужно сравнить его значение с табличным (критическим) значением r, которое приведено в таблице 3. Для пользования этой таблицей нужно знать число степеней свободы f = N – 2 и выбрать определенный уровень значимости, например равный 0,05. Такое значение уровня значимости называют еще 5%-ным уровнем риска, что соответствует вероятности верного ответа при проверке нашей гипотезы Р = 1 – α = 0,95, или 95%. Это значит, что в среднем только в 5% случаев возможна ошибка при проверке гипотезы.

В практических исследованиях 5%-ный уровень риска применяется наиболее часто. Но экспериментатор всегда свободен в выборе уровня значимости, и возможны ситуации, в которых, например, требуется 1%-ный уровень риска. При этом возрастает надежность ответа. Проверка гипотезы сводится к сравнению абсолютной величины коэффициента парной корреляции с критическим значением. Если экспериментально найденное значение r меньше критического, то нет оснований считать, что имеется тесная линейная связь между параметрами, а если больше или равно, то гипотеза о корреляционной линейной связи не отвергается.

2. РЕШЕНИЕ ЗАДАЧИ

Таблица 1 – Условие задачи

Таблица 2 – Функция отклика

У1 65 60 63 46 47 47 56 54
У2 55 47 46 47 58 56 49 61
УЗ 55 51 61 57 58 53 55 52

2.2 Определение центра плана (основной уровень) и уровня варьирования факторов

Находим центр плана:

.

Находим полуразмах:


Рассчитываем и оформляем в виде таблицы.

,

,

,

Таблица 3 – Центр плана и полуразмах

Рассчитываем нижний уровень варьирования факторов:

Рассчитываем верхний уровень варьирования факторов:

2.3 Построение матрицы планирования

Так как мы имеем 2 уровня варьирования факторов и 3 фактора, то получаем матрицу . Число опытов равно 8.

Таблица 3 – Матрица планирования типа

№ опыта
1 + + -
2 + + +
3 + - +
4 + - -
5 - + -
6 - + +
7 - - +
8 - - -

Составляем расширенную матрицу планирования для того, чтобы учесть взаимодействие факторов.

Таблица 4 – Расширенная матрица планирования

№ опыта
1 + + + - + - - - 65 55 55 58,3
2 + + + + + + + + 60 47 51 52,7
3 + + - + - + - - 63 46 61 56,7
4 + + - - - - + + 46 47 57 50
5 + - + - - + - + 47 58 58 54,3
6 + - + + - - + - 47 56 53 52
7 + - - + + - - + 56 49 55 53,3
8 + - - - + + + - 54 61 52 55,7

2.4 Проверка однородности дисперсии и равноточности измерения в разных сериях

Для проверки однородности дисперсии был выбран критерий Кохрена. Для этого рассчитываем дисперсию в каждом опыте по формуле:

.

Условия проверки однородности дисперсий по критерию Кохрена:


Для уровня значимости 0,05 равна 0,32.

<, следовательно, дисперсия однородна и измерения в разных сериях равноточны.

2.5 Коэффициенты уравнения регрессии

Находим коэффициенты уравнения регрессии.

Следовательно, уравнение регрессии примет вид:

2.6 Дисперсия воспроизводимости

Вычисляем значение дисперсии воспроизводимости по формуле:

2.7 Проверка значимости коэффициентов уравнения регрессии

Проверяем значимость коэффициентов уравнения регрессии по критерию Стьюдента:

Условие значимости Для уровня значимости α = 0,05 и числа степеней свободы f = N - 1 =8 - 1 = 7 находим табличное значение критерия Стьюдента

Сравниваем расчетное значение с табличным и видим, что значение незначительные и их коэффициенты следует исключить из уравнения регрессии. Так как коэффициенты получились незначимы и мы не имеем возможности заново поставить новый эксперимент и продолжаем вычисления, выбрав наиболее близкие к значимым коэффициенты.

Уравнение регрессии примет вид:

2.8 Проверка адекватности уравнения регрессии

Для проверки используется критерий Фишера:

где d – количество коэффициентов уравнения регрессии.

Находим значения :

Найдем значение

Находим табличное значение критерия Фишера для степеней свободы

Сравниваем условие <, значит, модель адекватна.

Уравнение регрессии имеет вид:

Анализ значимости коэффициентов уравнении регрессии показал, что влияние всех факторов незначимо.

Модель адекватна, так как критерий адекватности меньше табличного.

Измерения в различных серий равноточны.

ЗАКЛЮЧЕНИЕ

Термин «корреляция» был введен в науку выдающимся английским естествоиспытателем Френсисом Гальтоном в 1886 году. Однако точную формулу для подсчета коэффициента корреляции разработал его ученик Карл Пирсон.

Задачи с одним выходным параметром имеют очевидные преимущества. Но на практике чаще всего приходится учитывать несколько выходных параметров. Иногда их число довольно велико. Так, например, при производстве резиновых и пластмассовых изделий приходится учитывать физико-механические, технологические, экономические, художественно-эстетические и другие параметры (прочность, эластичность, относительное удлинение и т.д.). Математические модели можно построить для каждого из параметров, но одновременно оптимизировать несколько функций невозможно.

Обычно оптимизируется одна функция, наиболее важная с точки зрения цели исследования, при ограничениях, налагаемых другими функциями. Поэтому из многих выходных параметров выбирается один в качестве параметра оптимизации, а остальные служат ограничениями. Всегда полезно исследовать возможность уменьшения числа выходных параметров. Для этого и используется корреляционный анализ.

С использованием результатов корреляционного анализа исследователь может делать определённые выводы о наличии и характере взаимозависимости, что уже само по себе может представлять существенную информацию об исследуемом объекте. Результаты могут подсказать и направление дальнейших исследований, и совокупность требуемых методов, в том числе статистических, необходимых для более полного изучения объекта.

Особенно реальную пользу применение аппарата корреляционного анализа может принести на стадии ранних исследований в областях, где характеры причин определённых явлений ещё недостаточно понятны. Это может касаться изучения очень сложных систем различного характера: как технических, так и социальных.

СПИСОК ЛИТЕРАТУРЫ

1 Сидоренко Е.В. Методы математической обработки в психологии. Спб.: ООО «Речь», 2000. – 350 с.

2 Лекция на тему: "Корреляционный анализ""// www.kgafk.ru, 2006, 8 с.

3 Ковалев В.В, Волкова О.Н., Анализ хозяйственной деятельности предприятия//polbu.ru, 2005, 2 с.

4 Поляков Л.Е., Коэффициент ранговой корреляции Спирмена//www.eduhmao.ru, 1971, 2 с.

5 Бондарь А.Г., Статюха Г.А. Планирование эксперимента в химической технологии. Киев: Высшая школа, 1976 – 335 с.

6 Адлер Ю.П., Грановский Ю.В., Маркова Е.В. Планирование эксперимента при поиске оптимальных условий. М.: Наука, 1976.–278 с.

7 Андерсон Т., Введение в многомерный статистический анализ//www.ami.nstu.ru, 1963, 24 с.

Корреляционный анализ

Корреля́ция - статистическая взаимосвязь двух или нескольких случайных величин (либо величин, которые можно с некоторой допустимой степенью точности считать таковыми). При этом, изменения одной или нескольких из этих величин приводят к систематическому изменению другой или других величин. Математической мерой корреляции двух случайных величин служит коэффициент корреляции .

Корреляция может быть положительной и отрицательной (возможна также ситуация отсутствия статистической взаимосвязи - например, для независимых случайных величин). Отрицательная корреляция - корреляция, при которой увеличение одной переменной связано с уменьшением другой переменной, при этом коэффициент корреляции отрицателен. Положительная корреляция - корреляция, при которой увеличение одной переменной связано с увеличением другой переменной, при этом коэффициент корреляции положителен.

Автокорреляция - статистическая взаимосвязь между случайными величинами из одного ряда, но взятых со сдвигом, например, для случайного процесса - со сдвигом по времени.

Пусть X ,Y - две случайные величины, определённые на одном вероятностном пространстве . Тогда их коэффициент корреляции задаётся формулой:

,

где cov обозначает ковариацию , а D - дисперсию , или, что то же самое,

,

где символ обозначает математическое ожидание .

Для графического представления подобной связи можно использовать прямоугольную систему координат с осями, которые соответствуют обеим переменным. Каждая пара значений маркируется при помощи определенного символа. Такой график называется «диаграммой рассеяния».

Метод вычисления коэффициента корреляции зависит от вида шкалы , к которой относятся переменные. Так, для измерения переменных с интервальной и количественной шкалами необходимо использовать коэффициент корреляции Пирсона (корреляция моментов произведений). Если по меньшей мере одна из двух переменных имеет порядковую шкалу, либо не является нормально распределённой, необходимо использовать ранговую корреляцию Спирмена или τ (тау) Кендала. В случае, когда одна из двух переменных является дихотомической, используется точечная двухрядная корреляция, а если обе переменные являются дихотомическими: четырёхполевая корреляция. Расчёт коэффициента корреляции между двумя недихотомическими переменными не лишён смысла только тогда, кода связь между ними линейна (однонаправлена).

Коэффициент корреляции Кенделла

Используется для измерения взаимной неупорядоченности.

Коэффициент корреляции Спирмена

Свойства коэффициента корреляции

если принять в качестве скалярного произведения двух случайных величин ковариацию , то норма случайной величины будет равна , и следствием неравенства Коши - Буняковского будет: . , где . Более того в этом случае знаки и k совпадают: .

Корреляционный анализ

Корреляционный анализ - метод обработки статистических данных, заключающийся в изучении коэффициентов (корреляции ) между переменными. При этом сравниваются коэффициенты корреляции между одной парой или множеством пар признаков для установления между ними статистических взаимосвязей.

Цель корреляционного анализа - обеспечить получение некоторой информации об одной переменной с помощью другой переменной. В случаях, когда возможно достижение цели, говорят, что переменные коррелируют . В самом общем виде принятие гипотезы о наличии корреляции означает что изменение значения переменной А, произойдет одновременно с пропорциональным изменением значения Б: если обе переменные растут то корреляция положительная , если одна переменная растёт, а вторая уменьшается, корреляция отрицательная .

Корреляция отражает лишь линейную зависимость величин, но не отражает их функциональной связности. Например, если вычислить коэффициент корреляции между величинами A = s i n (x ) и B = c o s (x ) , то он будет близок к нулю, т. е. зависимость между величинами отсутствует. Между тем, величины A и B очевидно связаны функционально по закону s i n 2 (x ) + c o s 2 (x ) = 1 .

Ограничения корреляционного анализа

Графики распределений пар (x,y) с соответствующими коэффициентами корреляций x и y для каждого из них. Обратите внимание, что коэффициент корреляции отражает линейную зависимость (верхняя строка), но не описывает кривую зависимости (средняя строка), и совсем не подходит для описания сложных, нелинейных зависимостей (нижняя строка).

  1. Применение возможно в случае наличия достаточного количества случаев для изучения: для конкретного вида коэффициента корреляции составляет от 25 до 100 пар наблюдений.
  2. Второе ограничение вытекает из гипотезы корреляционного анализа, в которую заложена линейная зависимость переменных . Во многих случаях, когда достоверно известно, что зависимость существует, корреляционный анализ может не дать результатов просто ввиду того, что зависимость нелинейна (выражена, например, в виде параболы).
  3. Сам по себе факт корреляционной зависимости не даёт основания утверждать, какая из переменных предшествует или является причиной изменений, или что переменные вообще причинно связаны между собой, например, ввиду действия третьего фактора.

Область применения

Данный метод обработки статистических данных весьма популярен в экономике и социальных науках (в частности в психологии и социологии), хотя сфера применения коэффициентов корреляции обширна: контроль качества промышленной продукции, металловедение , агрохимия , гидробиология , биометрия и прочие.

Популярность метода обусловлена двумя моментами: коэффициенты корреляции относительно просты в подсчете, их применение не требует специальной математической подготовки. В сочетании с простотой интерпретации, простота применения коэффициента привела к его широкому распространению в сфере анализа статистических данных.

Ложная корреляция

Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи.

В современной количественной методологии социальных наук , фактически, произошел отказ от попыток установить причинно-следственные связи между наблюдаемыми переменными эмпирическими методами. Поэтому, когда исследователи в социальных науках говорят об установлении взаимосвязей между изучаемыми переменными, подразумевается либо общетеоретическое допущение, либо статистическая зависимость.

См. также

Wikimedia Foundation . 2010 .

Смотреть что такое "Корреляционный анализ" в других словарях:

    См. АНАЛИЗ КОРРЕЛЯЦИОННЫЙ. Antinazi. Энциклопедия социологии, 2009 … Энциклопедия социологии

    Раздел математической статистики, объединяющий практические методы исследования корреляционной зависимости между двумя (или большим числом) случайными признаками или факторами. См. Корреляция (в математической статистике) … Большой Энциклопедический словарь

    КОРРЕЛЯЦИОННЫЙ АНАЛИЗ, раздел математической статистики, объединяющий практические методы исследования корреляционной зависимости между двумя (или большим числом) случайными признаками или факторами. См. Корреляция (см. КОРРЕЛЯЦИЯ (взаимная связь … Энциклопедический словарь

    Корреляционный анализ - (в экономике) ветвь математической статистики, изучающая взаимосвязи между изменяющимися величинами (корреляция соотношение, от латинского слова correlatio). Взаимосвязь может быть полная (т.е. функциональная) и неполная,… … Экономико-математический словарь

    корреляционный анализ - (в психологии) (от лат. correlatio соотношение) статистический метод оценки формы, знака и тесноты связи исследуемых признаков или факторов. При определении формы связи рассматривается ее линейность или нелинейность (т. е. как в среднем… … Большая психологическая энциклопедия

    корреляционный анализ - — [Л.Г.Суменко. Англо русский словарь по информационным технологиям. М.: ГП ЦНИИС, 2003.] Тематики информационные технологии в целом EN correlation analysis … Справочник технического переводчика

    корреляционный анализ - koreliacinė analizė statusas T sritis Kūno kultūra ir sportas apibrėžtis Statistikos metodas, kuriuo įvertinami tiriamųjų asmenų, reiškinių požymiai arba veiksnių santykiai. atitikmenys: angl. correlation studies vok. Analyse der Korrelation, f;… … Sporto terminų žodynas

    Совокупность основанных на математической теории корреляции (См. Корреляция) методов обнаружения корреляционной зависимости между двумя случайными признаками или факторами. К. а. экспериментальных данных заключает в себе следующие… … Большая советская энциклопедия

    Раздел матем. статистики, объединяющий практич. методы исследования корреляц. зависимости между двумя (или большим числом) случайными признаками или факторами. См. Корреляция … Большой энциклопедический политехнический словарь