Ошибка аппроксимации остаточная дисперсия. Средняя ошибка аппроксимации

Проверим гипотезу H 0 о равенстве отдельных коэффициентов регрессии нулю (при альтернативе H 1 не равно) на уровне значимости б=0.05.

В случае если основная гипотеза окажется неверной, мы принимаем альтернативную. Для проверки этой гипотезы используется t-критерий Стьюдента.

Найденное по данным наблюдений значение t-критерия (его еще называют наблюдаемым или фактическим) сравнивается с табличным (критическим) значением, определяемым по таблицам распределения Стьюдента (которые обычно приводятся в конце учебников и практикумов по статистике или эконометрике).

Табличное значение определяется в зависимости от уровня значимости (б) и числа степеней свободы, которое в случае линейной парной регрессии равно (n-2), n-число наблюдений.

Если фактическое значение t-критерия больше табличного (по модулю), то основную гипотезу отвергают и считают, что с вероятностью (1-б) параметр или статистическая характеристика в генеральной совокупности значимо отличается от нуля.

Если фактическое значение t-критерия меньше табличного (по модулю), то нет оснований отвергать основную гипотезу, т.е. параметр или статистическая характеристика в генеральной совокупности незначимо отличается от нуля при уровне значимости б.

t крит (n-m-1;б/2) = (30;0.025) = 2.042

Поскольку 1.7 < 2.042, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом b можно пренебречь.

Поскольку 0.56 < 2.042, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.

Доверительный интервал для коэффициентов уравнения регрессии.

Определим доверительные интервалы коэффициентов регрессии, которые с надежность 95% будут следующими:

  • (b - t крит S b ; b + t крит S b)
  • (0.64 - 2.042 * 0.38; 0.64 + 2.042 * 0.38)
  • (-0.13;1.41)

Так как точка 0 (ноль) лежит внутри доверительного интервала, то интервальная оценка коэффициента b статистически незначима.

  • (a - t крит S a ; a + t крит S a)
  • (24.56 - 2.042 * 44.25; 24.56 + 2.042 * 44.25)
  • (-65.79;114.91)

С вероятностью 95% можно утверждать, что значение данного параметра будут лежать в найденном интервале.

Так как точка 0 (ноль) лежит внутри доверительного интервала, то интервальная оценка коэффициента a статистически незначима.

2) F-статистика. Критерий Фишера.

Коэффициент детерминации R 2 используется для проверки существенности уравнения линейной регрессии в целом.

Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.

Если расчетное значение с k 1 =(m) и k 2 =(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

где m - число факторов в модели.

Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:

  • 1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H 0: R 2 =0 на уровне значимости б.
  • 2. Далее определяют фактическое значение F-критерия:

где m=1 для парной регрессии.

3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.

F табл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости б. Уровень значимости б - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно б принимается равной 0,05 или 0,01.

4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.

В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-б) принимается альтернативная гипотеза о статистической значимости уравнения в целом.

Табличное значение критерия со степенями свободы k 1 =1 и k 2 =30, F табл = 4.17

Поскольку фактическое значение F < F табл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).

Связь между F-критерием Фишера и t-статистикой Стьюдента выражается равенством:

Показатели качества уравнения регрессии.

Проверка на наличие автокорреляции остатков.

Важной предпосылкой построения качественной регрессионной модели по МНК является независимость значений случайных отклонений от значений отклонений во всех других наблюдениях. Это гарантирует отсутствие коррелированности между любыми отклонениями и, в частности, между соседними отклонениями.

Автокорреляция (последовательная корреляция) определяется как корреляция между наблюдаемыми показателями, упорядоченными во времени (временные ряды) или в пространстве (перекрестные ряды). Автокорреляция остатков (отклонений) обычно встречается в регрессионном анализе при использовании данных временных рядов и очень редко при использовании перекрестных данных.

В экономических задачах значительно чаще встречается положительная автокорреляция, нежели отрицательная автокорреляция. В большинстве случаев положительная автокорреляция вызывается направленным постоянным воздействием некоторых неучтенных в модели факторов.

Отрицательная автокорреляция фактически означает, что за положительным отклонением следует отрицательное и наоборот. Такая ситуация может иметь место, если ту же зависимость между спросом на прохладительные напитки и доходами рассматривать по сезонным данным (зима-лето).

Среди основных причин, вызывающих автокорреляцию, можно выделить следующие:

  • 1. Ошибки спецификации. Неучет в модели какой-либо важной объясняющей переменной либо неправильный выбор формы зависимости обычно приводят к системным отклонениям точек наблюдения от линии регрессии, что может обусловить автокорреляцию.
  • 2. Инерция. Многие экономические показатели (инфляция, безработица, ВНП и т.д.) обладают определенной цикличностью, связанной с волнообразностью деловой активности. Поэтому изменение показателей происходит не мгновенно, а обладает определенной инертностью.
  • 3. Эффект паутины. Во многих производственных и других сферах экономические показатели реагируют на изменение экономических условий с запаздыванием (временным лагом).
  • 4. Сглаживание данных. Зачастую данные по некоторому продолжительному временному периоду получают усреднением данных по составляющим его интервалам. Это может привести к определенному сглаживанию колебаний, которые имелись внутри рассматриваемого периода, что в свою очередь может служить причиной автокорреляции.

Последствия автокорреляции схожи с последствиями гетероскедастичности: выводы по t- и F-статистикам, определяющие значимость коэффициента регрессии и коэффициента детерминации, возможно, будут неверными.

Показатели корреляции и детерминации

Линейной парной регрессии

Опираясь на вспомогательные данные, которые рассчитаны в табл. 2, рассчитываем показатель тесноты связи.

Таким показателем является выборочный линейный коэффициент корреляции, рассчитываемый с использованием формулы.

По результатам расчета коэффициента корреляции можно сделать вывод, что связь между факторным и результативным признаком прямая и сильная (по шкале Чеддока).

Квадрат коэффициента корреляции называется коэффициентом детерминации, который показывает долю вариации результативного признака, объясненную вариацией факторного признака.

Обычно, давая интерпретацию коэффициента детерминации, его выражают в процентах.

R 2 = 0.847 2 = 0.7181

т.е. в 71.81% случаев изменения факторного признака приводит к изменению и результатирующего признака. Точность подбора уравнения регрессии довольно высокая. Остальные 28.19% изменения Y объясняются факторами, не учтенными в модели.

Степенной парной регрессии

Тесноту связи результатирующего и факторного признака для степенной парной регрессии определим с использованием коэффициента корреляции:

Подставив известные данные, получим:

Показатель детерминации.

т.е. в 69% случаев изменения факторного признака приводит к изменению и результатирующего признака. Точность подбора уравнения регрессии - средняя. Остальные 31% изменения Y объясняются факторами, не учтенными в модели.

Средняя ошибка аппроксимации

Линейной парной регрессии

Оценим качество уравнения регрессии с помощью ошибки абсолютной аппроксимации. Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:

Степенной парной регрессии

Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:

Ошибка аппроксимации в пределах 5%-7% свидетельствует о хорошем подборе уравнения регрессии к исходным данным.

Поскольку ошибка больше 7%, то данное уравнение не желательно использовать в качестве регрессии.

Оценка с помощью F-критерия Фишера статистической надежности результатов регрессионного моделирования

Линейной парной регрессии

Коэффициент детерминации R 2 используется для проверки существенности уравнения линейной регрессии в целом.

Проверка значимости модели регрессии проводится с использованием F-критерия Фишера, расчетное значение которого находится как отношение дисперсии исходного ряда наблюдений изучаемого показателя и несмещенной оценки дисперсии остаточной последовательности для данной модели.

Если расчетное значение с k 1 =(m) и k 2 =(n-m-1) степенями свободы больше табличного при заданном уровне значимости, то модель считается значимой.

Оценка статистической значимости парной линейной регрессии производится по следующему алгоритму:

где m=1 для парной регрессии.

Поскольку фактическое значение F >

Степенной парной регрессии

Аналогично линейной парной регрессии проведем оценку степенной парной регрессии

где m - число факторов в модели.

1. Выдвигается нулевая гипотеза о том, что уравнение в целом статистически незначимо: H 0: R 2 =0 на уровне значимости б.

2. Определяем фактическое значение F-критерия:

где m=1 для парной регрессии.

3. Табличное значение определяется по таблицам распределения Фишера для заданного уровня значимости, принимая во внимание, что число степеней свободы для общей суммы квадратов (большей дисперсии) равно 1 и число степеней свободы остаточной суммы квадратов (меньшей дисперсии) при линейной регрессии равно n-2.

F табл - это максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости б. Уровень значимости б - вероятность отвергнуть правильную гипотезу при условии, что она верна. Обычно б принимается равной 0,05 или 0,01.

4. Если фактическое значение F-критерия меньше табличного, то говорят, что нет основания отклонять нулевую гипотезу.

В противном случае, нулевая гипотеза отклоняется и с вероятностью (1-б) принимается альтернативная гипотеза о статистической значимости уравнения в целом.

Табличное значение критерия со степенями свободы:

k 1 =1 и k 2 =8, F табл = 5.32

Поскольку фактическое значение F > F табл, то коэффициент детерминации статистически значим (найденная оценка уравнения регрессии статистически надежна).

По результатам анализа делаем вывод, что коэффициенты детерминации как для линейной парной регрессии, так и для степенной парной регрессии являются статистически значимыми.

Поскольку линейная парная регрессии имеет выше коэффициент (показательно) детерминации, считаем, что именно она адекватно описывает зависимость между факторным и результатирующим признаком.

Ошибка аппроксимации - один из наиболее часто возникающих вопросов при применении тех или иных методов аппроксимации исходных данных. Есть разного рода ошибки аппроксимации:

Ошибки, связанные с погрешностями исходных данных;

Ошибки, связанные с несоответствием аппроксимирующей модели структуре аппроксимируемых данных.

В Excel есть хорошо разработанная функция Линейн, предназначенная для обработки данных и аппроксимаций, в которой задействован отлаженный математический аппарат. Для того, чтобы иметь о ней представление, обратимся (через F1) к описательной части этой разработки, которую приводим с сокращениями и некоторыми изменениями обозначений.

Расчитывает статистику для ряда с применением метода наименьших квадратов, чтобы вычислить прямую линию, которая наилучшим образом аппроксимирует имеющиеся данные. Функция возвращает массив, который описывает полученную прямую. Поскольку возвращается массив значений, функция должна задаваться в виде формулы массива.

Уравнение для прямой линии имеет следующий вид:

y=a+b1*x1+b2*x2+...bn*xn

Синтаксис:

ЛИНЕЙН(y;x;конст;статистика)

Массив y - известные значения y.

Массив x - известные значеня x. Массив x может содержать одно или несколько множеств переменных.

Конст - это логическое значение, которое указывает, требуется ли, чтобы свободный член a был равен 0.

Если аргумент конст имеет значение ИСТИНА, 1 или опущено, то a вычисляется обычным образом. Если аргумент конст имеет значение ЛОЖЬ или 0, то a полагается равным 0.

Статистика - это логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии. Если аргумент статистика имеет значение ИСТИНА или 1, то функция ЛИНЕЙН возвращает дополнительную регрессионную статистику. Если аргумент статистика имеет значение ЛОЖЬ, 0 или опущена, то функция ЛИНЕЙН возвращает только коэффициенты и свободный член.

Дополнительная регрессионая статистика:

se1,se2,...,sen - стандартные значения ошибок для коэффициентов b1,b2,...,bn.

sea - стандартное значение ошибки для постоянной a (sea = #Н/Д, если конст имеет значение ЛОЖЬ).

r2 - коэффициент детерминированности. Сравниваются фактические значения y и значения, получаемые из уравнения прямой; по результатам сравнения вычисляется коэффициент детерминированности, нормированный от 0 до 1. Если он равен 1, то имеет место полная корреляция с моделью, т.е. нет различия между фактическим и оценочным значениями y. В противоположном случае, если коэффициент детерминированности равен 0, то уравнение регрессии неудачно для предсказания значений y. Для получения информации о том, как вычисляется r2, см. "Замечания" в конце данного раздела.

sey - стандартная ошибка для оценки y.

F-статистика, или F-наблюдаемое значение. F-статистика используется для определения того, является ли наблюдаемая взаимосвязь между зависимой и независимой переменными случайной или нет.

df - степени свободы. Степени свободы полезны для нахождения F-критических значений в статистической таблице. Для определения уровня надежности модели нужно сравнить значения в таблице с F-статистикой, возвращаемой функцией ЛИНЕЙН.

ssreg - регрессионая сумма квадратов.

ssresid - остаточная сумма квадратов.

На приведенном ниже рисунке показано, в каком порядке возвращается дополнительная регрессионная статистика.

Замечания

Выборочную информацию из функции можно получить через функцию ИHДЕКС, например:

Y-пересечение (свободный член):

ИНДЕКС(ЛИНЕЙН(y;x);2)

Точность аппроксимации с помощью прямой, вычисленной функцией ЛИНЕЙН, зависит от степени разброса данных. Чем ближе данные к прямой, тем более точной является модель, используемая функцией ЛИНЕЙН. Функция ЛИНЕЙН использует метод наименьших квадратов для определения наилучшей аппроксимации данных.

Проводя регрессионный анализ, Microsoft Excel вычисляет для каждой точки квадрат разности между прогнозируемым значением y и фактическим значением y. Сумма этих квадратов разностей называется остаточной суммой квадратов. Затем Microsoft Excel подсчитывает сумму квадратов разностей между фактическими значениями y и средним значением y, которая называется общей суммой квадратов (регрессионая сумма квадратов + остаточная сумма квадратов). Чем меньше остаточная сумма квадратов по сравнению с общей суммой квадратов, тем больше значение коэффициента детерминированности r2, который показывает, насколько хорошо уравнение, полученное с помощью регрессионного анализа, объясняет взаимосвязи между переменными.

Заметьте, что значения y, предсказанные с помощью уравнения регрессии, возможно не будут правильными, если они располагаются вне интервала значений y, которые использовались для определения уравнения.

Пример 1 Наклон и Y-пересечение

ЛИНЕЙН({1;9;5;7};{0;4;2;3}) равняется {2;1}, наклон = 2 и y-пересечение = 1.

Использование статистик F и R2

Можно использовать F-статистику, чтобы определить, является ли результат с высоким значение r2 случайным. Если F-наблюдаемое больше, чем F-критическое, то взаимосвязь между переменными имеется. F-критическое можно получить из таблицы F-критических значений в любом справочнике по математической статистике. Для того, чтобы найти это значение, используя односторонний тест, положим величину Альфа (величина Альфа используется для обозначения вероятности ошибочного вывода о том, что имеется сильная взаимозависимость) равной 0,05, а для числа степеней свободы (обозначаемых обычно v1 и v2), положим v1 = k = 4 и v2 = n - (k + 1) = 11 - (4 + 1) = 6, где k - это число переменных, а n - число точек данных. Из таблицы справочника F-критическое равно 4,53. Наблюдаемое F-значение равно 459,753674 (это значение получено в опущенном нами примере), что заметно больше чем F-критическое значение 4,53. Следовательно, полученное регрессионное уравнение полезно для предсказания искомого результата.

Для общей оценки качества построенной эконометрической определяются такие характеристики как коэффициент детерминации, индекс корреляции, средняя относительная ошибка аппроксимации, а также проверяется значимость уравнения регрессии с помощью F -критерия Фишера. Перечисленные характеристики являются достаточно универсальными и могут применяться как для линейных, так и для нелинейных моделей, а также моделей с двумя и более факторными переменными. Определяющее значение при вычислении всех перечисленных характеристик качества играет ряд остатков ε i , который вычисляется путем вычитания из фактических (полученных по наблюдениям) значений исследуемого признака y i значений, рассчитанных по уравнению модели y рi .

Коэффициент детерминации

показывает, какая доля изменения исследуемого признака учтена в модели. Другими словами коэффициент детерминации показывает, какая часть изменения исследуемой переменной может быть вычислена, исходя из изменений включённых в модель факторных переменных с помощью выбранного типа функции, связывающей факторные переменные и исследуемый признак в уравнении модели.

Коэффициент детерминации R 2 может принимать значения от 0 до 1. Чем ближе коэффициент детерминации R 2 к единице, тем лучше качество модели.

Индекс корреляции можно легко вычислить, зная коэффициент детерминации:

Индекс корреляции R характеризует тесноту выбранного при построении модели типа связи между учтёнными в модели факторами и исследуемой переменной. В случае линейной парной регрессии его значение по абсолютной величине совпадает с коэффициентом парной корреляции r (x, y) , который мы рассмотрели ранее, и характеризует тесноту линейной связи между x и y . Значения индекса корреляции, очевидно, также лежат в интервале от 0 до 1. Чем ближе величина R к единице, тем теснее выбранный вид функции связывает между собой факторные переменные и исследуемый признак, тем лучше качество модели.

(2.11)

выражается в процентах и характеризует точность модели. Приемлимая точность модели при решении практических задач может определяться, исходя из соображений экономической целесообразности с учётом конкретной ситуации. Широко применяется критерий, в соответствии с которым точность считается удовлетворительной, если средняя относительная погрешность меньше 15%. Если E отн.ср. меньше 5%, то говорят, что модель имеет высокую точность. Не рекомендуется применять для анализа и прогноза модели с неудовлетворительной точностью, то есть, когда E отн.ср. больше 15%.

F-критерий Фишера используется для оценки значимости уравнения регрессии. Расчётное значение F-критерия определяется из соотношения:

. (2.12)

Критическое значение F -критерия определяется по таблицам при заданном уровне значимости α и степенях свободы (можно использовать функцию FРАСПОБР в Excel). Здесь, по-прежнему, m – число факторов, учтённых в модели, n – количество наблюдений. Если расчётное значение больше критического, то уравнение модели признаётся значимым. Чем больше расчётное значение F -критерия, тем лучше качество модели.

Определим характеристики качества построенной нами линейной модели для Примера 1 . Воспользуемся данными Таблицы 2. Коэффициент детерминации :

Следовательно, в рамках линейной модели изменение объёма продаж на 90,1% объясняется изменением температуры воздуха.

Индекс корреляции

.

Значение индекса корреляции в случае парной линейной модели как мы видим, действительно по модулю равно коэффициенту корреляции между соответствующими переменными (объём продаж и температура). Поскольку полученное значение достаточно близко к единице, то можно сделать вывод о наличии тесной линейной связи между исследуемой переменной (объём продаж) и факторной переменноё (температура).

F-критерий Фишера

Критическое значение F кр при α = 0,1; ν 1 =1; ν 2 =7-1-1=5 равно 4,06. Расчётное значение F -критерия больше табличного, следовательно, уравнение модели является значимым.

Средняя относительная ошибка аппроксимации

Построенная линейная модель парной регрессии имеет неудовлетворительную точность (>15%), и её не рекомендуется использовать для анализа и прогнозирования.

В итоге, несмотря на то, что большинство статистических характеристик удовлетворяют предъявляемым к ним критериям, линейная модель парной регрессии непригодна для прогнозирования объёма продаж в зависимости от температуры воздуха. Нелинейный характер зависимости между указанными переменными по данным наблюдений достаточно хорошо виден на Рис.1. Проведённый анализ это подтвердил.

Курсовая работа

по дисциплине «Эконометрика»

«Комплексный анализ взаимосвязи финансово-экономических показателей деятельности предприятий»

Вариант № 12

Выполнил:

студент группы ЭЭТ-312

Логунов Н.Ю.

Проверила:

доц. Ишханян М.В.

Москва 2015

Постановка задачи

1. Составление корреляционной матрицы. Отбор факторов

2. Построение уравнения множественной линейной регрессии. Интерпретация параметров уравнения

3. Коэффициент детерминации, множественный коэффициент корреляции

4.Оценка качества уравнения множественной линейной регрессии

4.1.Средняя относительная ошибка аппроксимации

4.2.Проверка статистической значимости уравнения множественной регрессии в целом с помощью F-критерия Фишера

4.3.Проверка статистической значимости параметров уравнения множественной регрессии. Интервальные оценки параметров

5.Применение регрессионной модели

5.1.Точечный прогноз

5.2.Частные коэффициенты эластичности и средние частные коэффициенты эластичности

6.Анализ остатков регрессионной модели (проверка предпосылок теоремы Гаусса-Маркова)

6.1.Оценки математического ожидания остатков

6.2.Проверка наличия автокорреляции в остатках

7.Критерий Грегори Чоу

Постановка задачи

Заданы значения 6 показателей, характеризующих экономическую деятельность 53 предприятий. Требуется:

1. Составить корреляционную матрицу. Скорректировать набор независимых переменных (отобрать 2 фактора).

4.2. Проверить статистическую значимость уравнения множественной регрессии в целом с помощью F-критерия Фишера. Сделать выводы

4.3. Проверить статистическую значимость параметров уравнения множественной регрессии. Построить интервальные оценки параметров. Сделать выводы.



5. Применение регрессионной модели:

5.1. Используя построенное уравнение, дать точечный прогноз. Найти значение исследуемого параметра y, если значение первого фактора (наиболее тесно связанного с у) составит 110% от его среднего значения, значение второго фактора составит 80% от его среднего значения. Дать экономическую интерпретацию результата.

5.2. Найти частные коэффициенты эластичности и средние частные коэффициенты эластичности. Интерпретировать результаты. Сделать выводы.

6. Провести анализ остатков регрессионной модели (проверить требования теоремы Гаусса-Маркова):

6.1. Найти оценки математического ожидания остатков.

6.2. Проверить наличие автокорреляции в остатках. Сделать вывод.

7. Разделите выборку на две равные части. Рассматривая первые и последние наблюдения как независимые выборки, проверить гипотезу о возможности объединения их в единую выборку по критерию Грегори-Чоу.

Составление корреляционной матрицы. Отбор факторов

№ предприятия Y3 X10 X12 X5 X7 X13
13,26 1,45 167,69 0,78 1,37
10,16 1,3 186,1 0,75 1,49
13,72 1,37 220,45 0,68 1,44
12,85 1,65 169,3 0,7 1,42
10,63 1,91 39,53 0,62 1,35
9,12 1,68 40,41 0,76 1,39
25,83 1,94 102,96 0,73 1,16
23,39 1,89 37,02 0,71 1,27
14,68 1,94 45,74 0,69 1,16
10,05 2,06 40,07 0,73 1,25
13,99 1,96 45,44 0,68 1,13
9,68 1,02 41,08 0,74 1,1
10,03 1,85 136,14 0,66 1,15
9,13 0,88 42,39 0,72 1,23
5,37 0,62 37,39 0,68 1,39
9,86 1,09 101,78 0,77 1,38
12,62 1,6 47,55 0,78 1,35
5,02 1,53 32,61 0,78 1,42
21,18 1,4 103,25 0,81 1,37
25,17 2,22 38,95 0,79 1,41
19,4 1,32 81,32 0,77 1,35
1,48 67,26 0,78 1,48
6,57 0,68 59,92 0,72 1,24
14,19 2,3 107,34 0,79 1,40
15,81 1,37 512,6 0,77 1,45
5,23 1,51 53,81 0,8 1,4
7,99 1,43 80,83 0,71 1,28
17,5 1,82 59,42 0,79 1,33
17,16 2,62 36,96 0,76 1,22
14,54 1,75 91,43 0,78 1,28
6,24 1,54 17,16 0,62 1,47
12,08 2,25 27,29 0,75 1,27
9,49 1,07 184,33 0,71 1,51
9,28 1,44 58,42 0,74 1,46
11,42 1,4 59,4 0,65 1,27
10,31 1,31 49,63 0,66 1,43
8,65 1,12 391,27 0,84 1,5
10,94 1,16 258,62 0,74 1,35
9,87 0,88 75,66 0,75 1,41
6,14 1,07 123,68 0,75 1,47
12,93 1,24 37,21 0,79 1,35
9,78 1,49 53,37 0,72 1,4
13,22 2,03 32,87 0,7 1,2
17,29 1,84 45,63 0,66 1,15
7,11 1,22 48,41 0,69 1,09
22,49 1,72 13,58 0,71 1,26
12,14 1,75 63,99 0,73 1,36
15,25 1,46 104,55 0,65 1,15
31,34 1,6 222,11 0,82 1,87
11,56 1,47 25,76 0,8 1,17
30,14 1,38 29,52 0,83 1,61
19,71 1,41 41,99 0,7 1,34
23,56 1,39 78,11 0,74 1,22

1.Составить корреляционную матрицу. Скорректировать набор независимых переменных (отобрать 2 фактора).

Рассмотрим результативный признак Y3 и факторные признаки Х10, X12, Х5, Х7, Х13 .

Составим корреляционную матрицу с помощью опции «Анализ данных→Корреляция» в MS Excel:

Y3 X10 X12 X5 X7 X13
Y3 1,0000 0,3653 0,0185 0,2891 0,1736 0,0828
X10 0,3653 1,0000 -0,2198 -0,0166 -0,2061 -0,0627
X12 0,0185 -0,2198 1,0000 0,2392 0,3796 0,6308
X5 0,2891 -0,0166 0,2392 1,0000 0,4147 0,0883
X7 0,1736 -0,2061 0,3796 0,4147 1,0000 0,1939
X13 0,0828 -0,0627 0,6308 0,0883 0,1939 1,0000

Отбираем 2 фактора по критериям:

1) связь Y и X должна быть максимальной

2) связь между Xми должна быть наименьшей

Таким образом, в следующих пунктах работа будет производиться с факторами X10 , X5.

Построение уравнения множественной линейной регрессии. Интерпретация параметров уравнения.

2. Построить уравнение множественной линейной регрессии. Дать интерпретацию параметров уравнения.

Составим регрессионную модель с помощью пакета анализа «Анализ данных→Регрессия» в MS Excel:

Коэффициенты
Y -20,7163
X 10 5,7169
X 5 34,9321

Уравнение регрессии будет выглядеть следующим образом:

ŷ = b 0 + b 10 * x 10 + b 5 * x 5

ŷ = -20,7163-5,7169* x 10 +34,9321* x 5

1) b10 положительный;

2) b5 положительный;

Коэффициент детерминации, множественный коэффициент корреляции

3. Найти коэффициент детерминации, множественный коэффициент корреляции. Сделать выводы.

В регрессионном анализе, выполненном с помощью пакета анализа «Анализ данных→Регрессия» в MS Excel, найдём таблицу «Регрессионная статистика»:

Множественный R-связь между Y3 и X10,X5 слабая

R-квадрат-22,05% вариации признака Y объясняется вариацией признаков X10 и X5

Оценка качества уравнения множественной линейной регрессии

4. Оценить качество уравнения множественной линейной регрессии:

Средняя относительная ошибка аппроксимации

4.1. Найти среднюю относительную ошибку аппроксимации. Сделать выводы.

Рассчитаем прогнозные значения для каждого наблюдения или воспользуемся столбцом «Предсказанное У» в таблице «Вывод остатка» в регрессионном анализе, выполненном с помощью пакета анализа «Анализ данных→Регрессия» в MS Excel)

Вычислим относительные ошибки для каждого наблюдения по формуле:

Вычислим среднюю относительную ошибку аппроксимации по формуле:

Вывод: 20% < А < 50%, качество уравнения среднее (удовлетворительное).