Статистические данные для регрессионного анализа. Корреляционно-регрессионный анализ в Excel: инструкция выполнения

Регрессионный анализ - это метод установления аналитического выражения стохастической зависимости между исследуемыми признаками. Уравнение регрессии показывает, как в среднем изменяется у при изменении любого из x i , и имеет вид:

где у - зависимая переменная (она всегда одна);

х i - независимые переменные (факторы) (их может быть несколько).

Если независимая переменная одна - это простой регрессионный анализ. Если же их несколько (п 2), то такой анализ называется многофакторным.

В ходе регрессионного анализа решаются две основные задачи:

    построение уравнения регрессии, т.е. нахождение вида зависимости между результатным показателем и независимыми факторами x 1 , x 2 , …, x n .

    оценка значимости полученного уравнения, т.е. определение того, насколько выбранные факторные признаки объясняют вариацию признака у.

Применяется регрессионный анализ главным образом для планирования, а также для разработки нормативной базы.

В отличие от корреляционного анализа, который только отвечает на вопрос, существует ли связь между анализируемыми признаками, регрессионный анализ дает и ее формализованное выражение. Кроме того, если корреляционный анализ изучает любую взаимосвязь факторов, то регрессионный - одностороннюю зависимость, т.е. связь, показывающую, каким образом изменение факторных признаков влияет на признак результативный.

Регрессионный анализ - один из наиболее разработанных методов математической статистики. Строго говоря, для реализации регрессионного анализа необходимо выполнение ряда специальных требований (в частности, x l ,x 2 ,...,x n ; y должны быть независимыми, нормально распределенными случайными величинами с постоянными дисперсиями). В реальной жизни строгое соответствие требованиям регрессионного и корреляционного анализа встречается очень редко, однако оба эти метода весьма распространены в экономических исследованиях. Зависимости в экономике могут быть не только прямыми, но и обратными и нелинейными. Регрессионная модель может быть построена при наличии любой зависимости, однако в многофакторном анализе используют только линейные модели вида:

Построение уравнения регрессии осуществляется, как правило, методом наименьших квадратов, суть которого состоит в минимизации суммы квадратов отклонений фактических значений результатного признака от его расчетных значений, т.е.:

где т - число наблюдений;

j = a + b 1 x 1 j + b 2 x 2 j + ... + b n х n j - расчетное значение результатного фактора.

Коэффициенты регрессии рекомендуется определять с помощью аналитических пакетов для персонального компьютера или специального финансового калькулятора. В наиболее простом случае коэффициенты регрессии однофакторного линейного уравнения регрессии вида y = а + bх можно найти по формулам:

Кластерный анализ

Кластерный анализ - один из методов многомерного анализа, предназначенный для группировки (кластеризации) совокупности, элементы которой характеризуются многими признаками. Значения каждого из признаков служат координатами каждой единицы изучаемой совокупности в многомерном пространстве признаков. Каждое наблюдение, характеризующееся значениями нескольких показателей, можно представить как точку в пространстве этих показателей, значения которых рассматриваются как координаты в многомерном пространстве. Расстояние между точками р и q с k координатами определяется как:

Основным критерием кластеризации является то, что различия между кластерами должны быть более существенны, чем между наблюдениями, отнесенными к одному кластеру, т.е. в многомерном пространстве должно соблюдаться неравенство:

где r 1, 2 - расстояние между кластерами 1 и 2.

Так же как и процедуры регрессионного анализа, процедура кластеризации достаточно трудоемка, ее целесообразно выполнять на компьютере.

А) Графический анализ простой линейной регрессии.

Простое линейное уравнение регрессии y=a+bx. Если между случайными величинами У и X существует корреляционная связь, то значение у = ý + ,

где ý – теоретическое значение у, полученное из уравнения ý = f(x),

 – погрешность отклонения теоретического уравнения ý от фактических (экспериментальных) данных.

Уравнение зависимости средней величины ý от х, то есть ý = f(x) называют уравнением регрессии. Регрессионный анализ состоит из четырёх зтапов:

1) постановка задачи и установление причин связи.

2) ограничение объекта исследований, сбор статастической информации.

3) выбор уравнения связи на основе анализа и характера собранных данных.

4) расчёт числовых значений, характеристик корреляционной связи.

Если две переменные связаны таким образом, что изменение одной переменной соответствует систематическому изменению другой переменной, то для оценки и выбора уравнения связи между ними применяют регрессионный анализ в том случае, если эти переменные известны. В отличие от регрессионного анализа, корреляционный анализ применяют для анализа тесноты связи между X и У.

Рассмотрим нахождение прямой при регрессионном анализе:

Теоретическое уравнение регрессии.

Термин «простая регрессия» указывает на то, что величина одной переменной оценивается на основе знаний о другой переменной. В отличие от простой многофакторная регрессия применяется для оценки переменной на основе знания двух, трёх и более переменных. Рассмотрим графический анализ простой линейной регрессии.

Предположим, имеются результаты отборочных испытании по предварительному найму на работу и производительности труда.

Результаты отбора (100 баллов), x

Производительность (20 баллов), y

Нанеся точки на график, получим диаграмму (поле) рассеяния. Используем её для анализа результатов отборочных испытаний и производительности труда.

По диаграмме рассеяния проанализируем линию регрессии. В регрессионном анализе всегда указываются хотя бы две переменные. Систематическое изменение одной переменной связано с изменением другой. Основная цель регрессионного анализа заключается в оценке величины одной переменной, если величина другой переменной известна. Для полной задачи важна оценка производительности труда.

Независимой переменной в регрессионном анализе называется величина, которая используется в качестве основы для анализа другой переменной. В данном случае – это результаты отборочных испытаний (по оси X).

Зависимой переменной называется оцениваемая величина (по оси У). В регрессионном анализе может быть только одна зависимая переменная и несколько независимых переменных.

Для простого регрессионного анализа зависимость можно представить в двухкоординатной системе (х и у), по оси X – независимая переменная, по оси У – зависимая. Наносим точки пересечения таким образом, чтобы на графике была представлена пара величин. График называют диаграммой рассеяния . Ее построение – это второй этап регрессионного анализа, поскольку первый – это выбор анализируемых величин и сбор данных выборки. Таким образом, регрессионный анализ применяется для статистического анализа. Связь между выборочными данными диаграммы линейная.

Для оценки величины переменной у на основе переменной х необходимо определить положение линии, которая наилучшим образом представляет связь между х и у на основе расположения точек диаграммы рассеяния. В нашем примере это анализ производительности. Линия, проведенная через точки рассеяния – линия регрессии . Одним из способов построения линии регрессии, основанном на визуальном опыте, является способ построения от руки. По нашей линии регрессии можно определить производительность труда. При нахождении уравнения линии регрессии

часто применяют критерий наименьших квадратов. Наиболее подходящей является та линия, где сумма квадратов отклонений минимальна

Математическое уравнение линии роста представляет закон роста в арифметической прогрессии:

у = а b х .

Y = а + b х – приведённое уравнение с одним параметром является простейшим видом уравнения связи. Оно приемлемо для средних величин. Чтобы точнее выразить связь между х и у , вводится дополнительный коэффициент пропорциональности b , который указывает наклон линии регрессии.

Б) Построение теоретической линии регрессии.

Процесс её нахождения заключается в выборе и обосновании типа кривой и расчётов параметров а , b , с и т.д. Процесс построения называют выравниванием, и запас кривых, предлагаемых мат. анализом, разнообразен. Чаще всего в экономических задачах используют семейство кривых, уравнения которые выражаются многочленами целых положительных степеней.

1)
– уравнение прямой,

2)
– уравнение гиперболы,

3)
– уравнение параболы,

где ý – ординаты теоретической линии регрессии.

Выбрав тип уравнения, необходимо найти параметры, от которых зависит это уравнение. Например, характер расположения точек в поле рассеяния показал, что теоретическая линия регрессии является прямой.

Диаграмма рассеяния позволяет представить производительность труда с помощью регрессионного анализа. В экономике с помощью регрессионного анализа предсказываются многие характеристики, влияющие на конечный продукт (с учётом ценообразования).

В) Критерий наименьших кадратов для нахождения прямой линии.

Один из критериев, которые мы могли бы применить для подходящей линии регрессии на диаграмме рассеяния, основан на выборе линии, для которой сумма квадратов погрешностей будет минимальна.

Близость точек рассеяния к прямой измеряется ординатами отрезков. Отклонения этих точек могут быть положительными и отрицательными, но сумма квадратов отклонений теоретической прямой от экспериментальной всегда положительна и должна быть минимальна. Факт несовпадения всех точек рассеяния с положением линии регрессии указывает на существование расхождения между экспериментальными и теоретическими данными. Таким образом, можно сказать, что никакая другая линия регрессии, кроме той, которую нашли, не может дать меньшую сумму отклонений между экспериментальными и опытными данными. Следовательно, найдя теоретическое уравнение ý и линию регрессии, мы удовлетворяем требованию наименьших квадратов.

Это делается с помощью уравнения связи
, используя формулы для нахождения параметров а и b . Взяв теоретическое значение
и обозначив левую часть уравнения черезf , получим функцию
от неизвестных параметрова и b . Значения а и b будут удовлетворять минимуму функции f и находятся из уравнений частных производных
и
. Этонеобходимое условие , однако для положительной квадратической функции это является и достаточным условием для нахождения а и b .

Выведем из уравнений частных производных формулы параметров а и b :



получим систему уравнений:

где
– среднеарифметические погрешности.

Подставив числовые значения, найдем параметры а и b .

Существует понятие
. Это коэффициент аппроксимации.

Если е < 33%, то модель приемлема для дальнейшего анализа;

Если е > 33%, то берём гиперболу, параболу и т.д. Это даёт право для анализа в различных ситуациях.

Вывод: по критерию коэффициента аппроксимации наиболее подходящей является та линия, для которых

, и никакая другая линия регрессии для нашей задачи не даёт минимум отклонений.

Г) Квадратическая ошибка оценки, проверка их типичности.

Применительно к совокупности, у которой число параметров исследования меньше 30 (n < 30), для проверки типичности параметров уравнения регрессии используется t -критерий Стьюдента. При этом вычисляется фактическое значение t -критерия:

Отсюда

где – остаточная среднеквадратическая погрешность. Полученныеt a и t b сравнивают с критическим t k из таблицы Стьюдента с учётом принятого уровня значимости ( = 0,01 = 99% или  = 0,05 = 95%). P = f = k 1 = m – число параметров исследуемого уравнения (степень свободы). Например, если y = a + bx ; m = 2, k 2 = f 2 = p 2 = n – (m + 1), где n – количество исследуемых признаков.

t a < t k < t b .

Вывод : по проверенным на типичность параметрам уравнения регрессии производится построение математической модели связи
. При этом параметры примененной в анализе математической функции (линейная, гипербола, парабола) получают соответствующие количественные значения. Смысловое содержание полученных таким образом моделей состоит в том, что они характеризуют среднюю величину результативного признака
от факторного признака X .

Д) Криволинейная регрессия.

Довольно часто встречается криволинейная зависимость, когда между переменными устанавливается меняющееся соотношение. Интенсивность возрастания (убывания) зависит от уровня нахождения X. Криволинейная зависимость бывает разных видов. Например, рассмотрим зависимость между урожаем и осадками. С увеличением осадков при равных природных условиях интенсивное увеличение урожая, но до определенного предела. После критической точки осадки оказываются излишними, и урожайность катастрофически падает. Из примера видно, что вначале связь была положительной, а потом отрицательной. Критическая точка - оптимальный уровень признака X, которому соответствует максимальное или минимальное значение признака У.

В экономике такая связь наблюдается между ценой и потреблением, производительностью и стажем.

Параболическая зависимость.

Если данные показывают, что увеличение факторного признака приводит к росту результативного признака, то в качестве уравнения регрессии берется уравнение второго порядка (парабола).

. Коэффициенты a,b,c находятся из уравнений частных производных:

Получаем систему уравнений:

Виды криволинейных уравнений:

,

,

Вправе предполагать, что между производительностью труда и баллами отборочных испытаний существует криволинейная зависимость. Это означает, что с ростом бальной системы производительность начнёт на каком-то уровне уменьшаться, поэтому прямая модель может оказаться криволинейной.

Третьей моделью будет гипербола, и во всех уравнениях вместо переменной х будет стоять выражение .

Метод регрессивного анализа применяется для определения технико-экономических параметров продукции, относящейся к конкретному параметрическому ряду, с целью построения и выравнивания ценностных соотношений. Этот метод используется для анализа и обоснования уровня и соотношений цен продукции, характеризующейся наличием одного или нескольких технико-экономических параметров, отражающих основные потребительские свойства. Регрессивный анализ позволяет найти эмпирическую формулу, описывающую зависимость цены от технико-экономических параметров изделий:

P=f(X1X2,...,Xn),

где Р - значение цены единицы изделия, руб.; (Х1, Х2, ... Хп) - технико-экономические параметры изделий.

Метод регрессивного анализа - наиболее совершенный из используемых нормативно-параметрических методов - эффективен при проведении расчетов на основе применения современных информационных технологий и систем. Применение его включает следующие основные этапы:

  • определение классификационных параметрических групп изделий;
  • отбор параметров, в наибольшей степени влияющих на цену изделия;
  • выбор и обоснование формы связи изменения цены при изменении параметров;
  • построение системы нормальных уравнений и расчет коэффициентов регрессии.

Основной квалификационной группой изделий, цена которых подлежит выравниванию, является параметрический ряд, внутри которого изделия могут группироваться по различному исполнению в зависимости от их применения, условий и требований эксплуатации и т. д. При формировании параметрических рядов могут быть применены методы автоматической классификации, которые позволяют из общей массы продукции выделять ее однородные группы. Отбор технико-экономических параметров производится исходя из следующих основных требований:

  • в состав отобранных параметров включаются параметры, зафиксированные в стандартах и технических условиях; помимо технических параметров (мощности, грузоподъемности, скорости и т.д.) используются показатели серийности продукции, коэффициенты сложности, унификации и др.;
  • совокупность отобранных параметров должна достаточно полно характеризовать конструктивные, технологические и эксплуатационные свойства изделий, входящих в ряд, и иметь достаточно тесную корреляционную связь с ценой;
  • параметры не должны быть взаимозависимы.

Для отбора технико-экономических параметров, существенно влияющих на цену, вычисляется матрица коэффициентов парной корреляции. По величине коэффициентов корреляции между параметрами можно судить о тесноте их связи. При этом близкая к нулю корреляция показывает незначительное влияние параметра на цену. Окончательный отбор технико-экономических параметров производится в процессе пошагового регрессивного анализа с использованием компьютерной техники и соответствующих стандартных программ.

В практике ценообразования применяется следующий набор функций:

линейная

P = ao + alXl + ... + antXn,

линейно-степенная

Р = ао + а1Х1 + ... + аnХп + (ап+1Хп) (ап+1Хп) +... + (ап+nХп2) (ап+nХп2)

обратного логарифма

Р = а0 + а1: In Х1 + ... + ап: In Xn,

степенная

P = a0 (X1^a1) (X2^a2) .. (Xn^an)

показательная

P = e^(а1+а1X1+...+аnХn)

гиперболическая

Р = ао + а1:Х1 + а2:Х2 + ... + ап:Хп,

где Р - выравнивание цены; X1 X2,..., Хп - значение технико-экономических параметров изделий ряда; a0, a1 ..., аn - вычисляемые коэффициенты уравнения регресии.

В практической работе по ценообразованию в зависимости от формы связи цен и технико-экономических параметров могут использоваться другие уравнения регрессии. Вид функции связи между ценой и совокупностью технико-экономических параметров может быть задан предварительно или выбран автоматически в процессе обработки на ЭВМ. Теснота корреляционной связи между ценой и совокупностью параметров оценивается по величине множественного коэффициента корреляции. Близость его к единице говорит о тесной связи. По уравнению регрессии получают выравненные (расчетные) значения цен изделий данного параметрического ряда. Для оценки результатов выравнивания вычисляют относительные величины отклонения расчетных значений цен от фактических:

Цр = Рф - Рр: Р х 100

где Рф, Рр - фактическая и расчетная цены.

Величина Цр не должна превышать 8-10%. В случае существенных отклонений расчетных значений от фактических необходимо исследовать:

  • правильность формирования параметрического ряда, так как в его составе могут оказаться изделия, по своим параметрам резко отличающиеся от других изделий ряда. Их надо исключить;
  • правильность отбора технико-экономических параметров. Возможна совокупность параметров, слабо коррелируемая с ценой. В этом случае необходимо продолжить поиск и отбор параметров.

Порядок и методика проведения регрессивного анализа, нахождения неизвестных параметров уравнения и экономическая оценка полученных результатов осуществляются в соответствии с требованиями математической статистики.

ВЫВОД ИТОГОВ

Таблица 8.3а. Регрессионная статистика
Регрессионная статистика
Множественный R 0,998364
R-квадрат 0,99673
Нормированный R-квадрат 0,996321
Стандартная ошибка 0,42405
Наблюдения 10

Сначала рассмотрим верхнюю часть расчетов, представленную в таблице 8.3а , - регрессионную статистику.

Величина R-квадрат , называемая также мерой определенности, характеризует качество полученной регрессионной прямой. Это качество выражается степенью соответствия между исходными данными и регрессионной моделью (расчетными данными). Мера определенности всегда находится в пределах интервала .

В большинстве случаев значение R-квадрат находится между этими значениями, называемыми экстремальными, т.е. между нулем и единицей.

Если значение R-квадрата близко к единице, это означает, что построенная модель объясняет почти всю изменчивость соответствующих переменных. И наоборот, значение R-квадрата , близкое к нулю, означает плохое качество построенной модели.

В нашем примере мера определенности равна 0,99673, что говорит об очень хорошей подгонке регрессионной прямой к исходным данным.

Множественный R - коэффициент множественной корреляции R - выражает степень зависимости независимых переменных (X) и зависимой переменной (Y).

Множественный R равен квадратному корню из коэффициента детерминации, эта величина принимает значения в интервале от нуля до единицы.

В простом линейном регрессионном анализе множественный R равен коэффициенту корреляции Пирсона. Действительно, множественный R в нашем случае равен коэффициенту корреляции Пирсона из предыдущего примера (0,998364).

Таблица 8.3б. Коэффициенты регрессии
Коэффициенты Стандартная ошибка t-статистика
Y-пересечение 2,694545455 0,33176878 8,121757129
Переменная X 1 2,305454545 0,04668634 49,38177965
* Приведен усеченный вариант расчетов

Теперь рассмотрим среднюю часть расчетов, представленную в таблице 8.3б . Здесь даны коэффициент регрессии b (2,305454545) и смещение по оси ординат, т.е. константа a (2,694545455).

Исходя из расчетов, можем записать уравнение регрессии таким образом:

Y= x*2,305454545+2,694545455

Направление связи между переменными определяется на основании знаков (отрицательный или положительный) коэффициентов регрессии (коэффициента b).

Если знак при коэффициенте регрессии - положительный, связь зависимой переменной с независимой будет положительной. В нашем случае знак коэффициента регрессии положительный, следовательно, связь также является положительной.

Если знак при коэффициенте регрессии - отрицательный, связь зависимой переменной с независимой является отрицательной (обратной).

В таблице 8.3в . представлены результаты вывода остатков . Для того чтобы эти результаты появились в отчете, необходимо при запуске инструмента "Регрессия" активировать чекбокс "Остатки".

ВЫВОД ОСТАТКА

Таблица 8.3в. Остатки
Наблюдение Предсказанное Y Остатки Стандартные остатки
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

При помощи этой части отчета мы можем видеть отклонения каждой точки от построенной линии регрессии. Наибольшее абсолютное значение

Лекция 3.

Регрессионный анализ.

1) Числовые характеристики регрессии

2) Линейная регрессия

3) Нелинейная регрессия

4) Множественная регрессия

5) Использование MS EXCEL для выполнения регрессионного анализа

Контрольно-оценочное средство - тестовые задания

1. Числовые характеристики регрессии

Регрессионный анализ — статистический метод исследования влияния одной или нескольких независимых переменных на зависимую переменную. Независимые переменные иначе называют регрессорами или предикторами, а зависимые переменные — критериальными. Терминология зависимых и независимых переменных отражает лишь математическую зависимость переменных, а не причинно-следственные отношения.

Цели регрессионного анализа

  • Определение степени детерминированности вариации критериальной (зависимой) переменной предикторами (независимыми переменными).
  • Предсказание значения зависимой переменной с помощью независимой(-ых).
  • Определение вклада отдельных независимых переменных в вариацию зависимой.

Регрессионный анализ нельзя использовать для определения наличия связи между переменными, поскольку наличие такой связи и есть предпосылка для применения анализа.

Для проведения регрессионного анализа первоначально необходимо познакомиться с базовыми понятиями статистики и теории вероятности.

Основные числовые характеристики дискретных и непрерывных случайных величин: математическое ожидание, дисперсия и среднее квадратическое отклонение.

Случайные величине делят на две разновидности:

  • · дискретные, которые могут принимать только конкретные, заранее оговоренные значения (например, - значения чисел на верхней грани брошенной игральной кости или порядковые значения текущего месяца);
  • · непрерывные (чаще всего - значения некоторых физических величин: веса, расстояния, температуры и т.п.), которые по законам природы могут принимать любые значения, хотя бы и в некотором интервале.

Закон распределения случайной величины - это соответствие между возможными значениями дискретной случайной величины и ее вероятностями, обычно записывается в таблицу:

Статистическое определение вероятности выражается через относительную частоту случайного события, то есть находится как отношение количества случайных величин к общему числу случайных величин.

Математическим ожиданием дискретной случайной величины X называется сумма произведений значений величины X на вероятности этих значений. Математическое ожидание обозначают или M (X ) .

n

= M (X ) = x 1 p 1 + x 2 p 2 +… + x n p n = S x i p i

i =1

Рассеяние случайной величины относительно её математического ожидания определяется с помощью числовой характеристики, называемой дисперсией. Проще говоря, дисперсия - это разброс случайной величины относительно среднего значения. Для понятия сущности дисперсии рассмотрим пример. Средняя заработная плата по стране составляет около 25 тысяч рублей. Откуда берется эта цифра? Скорее всего, складываются все зарплаты и делятся на количество работников. В данном случае очень большая дисперсия (минимальная зарплата около 4 тыс. руб., а максимальная - около 100 тыс. руб.). Если бы зарплата у всех была одинаковой, то дисперсия была бы равна нулю, и разброса бы не было.

Дисперсией дискретной случайной величины X называют математическое ожидание квадрата разности случайной величины и её математического ожидания:

D = M [ ((X - M (X)) 2 ]

Используя определение математического ожидания для вычисления дисперсии, получаем формулу:

D = S (x i - M (X)) 2 · p i

Дисперсия имеет размерность квадрата случайной величины. В тех случаях, когда нужно иметь числовую характеристику рассеяния возможных значений в той же размерности, что и сама случайная величина, используют среднее квадратичное отклонение.

Средним квадратичным отклонением случайной величины называют корень квадратный из её дисперсии.

Среднее квадратичное отклонение есть мера рассеяния значений случайной величины около ее математического ожидания.

Пример.

Закон распределения случайной величины Х задан следующей таблицей:

Найти её математическое ожидание, дисперсию и среднее квадратичное отклонение.

Используем приведенные выше формулы:

М (Х) = 1 · 0,1 + 2 · 0,4 + 4 · 0,4 + 5 · 0,1 = 3

D = (1-3) 2 · 0,1 + (2 - 3) 2 · 0,4 + (4 - 3) 2 · 0,4 + (5 - 3) 2 · 0,1 = 1,6

Пример.

В денежной лотерее разыгрывается 1 выигрыш в 1000 рублей, 10 выигрышей по 100 рублей и 100 выигрышей по 1 рублю при общем числе билетов 10000. Составьте закон распределения случайного выигрыша Х для владельца одного лотерейного билета и определите математическое ожидание, дисперсию и среднее квадратичное отклонение случайной величины.

X 1 = 1000, Х 2 = 100, Х 3 = 1, Х 4 = 0,

Р 1 = 1/10000 = 0,0001, Р 2 = 10/10000 = 0,001, Р 3 = 100/10000 = 0,01, Р 4 = 1 - (Р 1 + Р 2 + Р 3) = 0,9889.

Результаты поместим в таблицу:

Математическое ожидание - сумма парных произведений значения случайной величины на их вероятность. Для данной задачи его целесообразно вычислить по формуле

1000 · 0,0001 + 100 · 0,001 + 1 · 0,01 + 0 · 0,9889 = 0,21 рубля.

Получили настоящую «справедливую» цену билета.

D = S (x i - M (X)) 2 · p i = (1000 - 0,21) 2 0,0001 + (100 - 0,21) 2 0,001 +

+ (1 - 0,21) 2 0,01 + (0 - 0,21) 2 0,9889 ≈ 109,97

Функция распределения непрерывных случайных величин

Величину, которая в результате испытания примет одно возможное значение (при этом заранее неизвестно какое), называется случайной величиной. Как говорилось выше, случайные величины бывают дискретные (прерывные) и непрерывные.

Дискретной называют случайную величину, принимающую отдельные друг от друга возможные значения с определенными вероятностями, которые можно пронумеровать.

Непрерывной называют случайную величину, которая может принимать все значения из некоторого конечного или бесконечного интервала.

До этого момента мы ограничивались только одной “разновидностью” случайных величин - дискретных, т.е. принимающих конечные значения.

Но теория и практика статистики требуют использовать понятие непрерывной случайной величины - допускающей любые числовые значения, из какого - либо интервала.

Закон распределения непрерывной случайной величины удобно задавать с помощью так называемой функции плотности вероятности. f (х). Вероятность Р (a < X < b) того, что значение, принятое случайной величиной Х, попадет в промежуток (a; b), определяется равенством

Р (a < X < b) = ∫ f (x ) dx

График функции f (х) называется кривой распределения. Геометрически вероятность попадания случайной величины в промежуток (a; b), равна площади соответствующей криволинейной трапеции, ограниченной кривой распределения, осью Ох и прямыми х = а, х = b.

P(a£X

Если от сложного события вычесть конечное либо счетное множество, вероятность наступления нового события останется неизменной.

Функция f(x) - числовая скалярная функция действительного аргумента x называется плотностью вероятности, и существует в точке x, если в этой точке существует предел:

Свойства плотности вероятности:

  1. Плотность вероятности является неотрицательной функцией, т. е. f(x) ≥ 0

(если все значения случайной величины Х заключены в промежутке (a;b), то последнее

равенство можно записать в виде ∫ f (x) dx = 1).

Рассмотрим теперь функцию F(х) = Р (Х < х). Эта функция называется функцией распределения вероятности случайной величины Х. Функция F(х) существует как для дискретных, так и для непрерывных случайных величин. Если f (x) - функция плотности распределения вероятности

непрерывной случайной величины Х, то F (х) = ∫ f(x) dx = 1).

Из последнего равенства следует, что f (x) = F" (x)

Иногда функцию f(x) называют дифференциальной функцией распределения вероятности, а функцию F(x) - интегральной функцией распределения вероятности.

Отметим важнейшие свойства функции распределения вероятности:

  1. F (х) - неубывающая функция.
  2. F (- ∞) = 0.
  3. F (+ ∞) = 1.

Понятие функции распределения является центральным в теории вероятностей. Используя это понятие, можно дать другое определение непрерывной случайной величины. Случайная величина называется непрерывной, если ее интегральная функция распределения F(х) непрерывна.

Числовые характеристики непрерывных случайных величин

Математическое ожидание, дисперсия и другие параметры любых случайных величин практически всегда вычисляются по формулам, вытекающим из закона распределения.

Для непрерывной случайной величины математическое ожидание вычисляется по формуле:

М (Х) = ∫ x · f(x ) dx

Дисперсия:

D (X) = ∫ (x - М (Х)) 2 f (x ) dx или D (X) = ∫ x 2 f(x ) dx - (М (Х)) 2

2. Линейная регрессия

Пусть составляющие Х и Y двумерной случайной величины (Х, Y) зависимы. Будем считать, что одну из них можно приближенно представить как линейную функцию другой, например

Y ≈ g(Х) = α + βХ, и определим параметры α и β с помощью метода наименьших квадратов.

Определение. Функция g(Х) = α + βХ называется наилучшим приближением Y в смысле метода наименьших квадратов, если математическое ожидание М(Y - g(Х)) 2 принимает наименьшее возможное значение; функцию g(Х) называют среднеквадратической регрессией Y на Х.

Теорема Линейная средняя квадратическая регрессия Y на Х имеет вид:

где - коэффициент корреляции Х иY.

Коэффициенты уравнения.

Можно проверить, что при этих значениях функция функция F(α, β)

F (α, β ) = M (Y - α - βX )² имеет минимум, что доказывает утверждение теоремы.

Определение. Коэффициент называется коэффициентом регрессии Y на Х , а прямая - - прямой среднеквадратической регрессии Y на Х .

Подставив координаты стационарной точки в равенство, можно найти минимальное значение функции F(α, β), равное Эта величина называется остаточной дисперсией Y относительно Х и характеризует величину ошибки, допускаемой при замене Y на

g(Х) = α+βХ. При остаточная дисперсия равна 0, то есть равенство является не приближенным, а точным. Следовательно, при Y и Х связаны линейной функциональной зависимостью. Аналогично можно получить прямую среднеквадратической регрессии Х на Y:

и остаточную дисперсию Х относительно Y. При обе прямые регрессии совпадают. Сопоставив уравнения регрессии У на Х и Х на У и решив систему из уравнений, можно найти точку пересечения прямых регрессии - точку с координатами (т х, т у), называемую центром совместного распределения величин Х и Y.

Алгоритм составления уравнений регрессии рассмотрим из учебника В. Е. Гмурмана «Теория вероятности и математическая статистика» стр. 256.

1) Составить расчетную таблицу, в которой будут записаны номера элементов выборки, варианты выборки, их квадраты и произведение.

2) Вычислить сумму по всем столбцам, кроме номера.

3) Вычислить средние значения для каждой величины, дисперсии и средне квадратические отклонения.

5) Проверить гипотезу о существовании связи между Х и У.

6) Составить уравнения обеих линий регрессии и изобразить графики этих уравнений.

Угловой коэффициент прямой линии регрессии У на Х - это выборочный коэффициент регрессии

Коэффициент b=

Получим искомое уравнение линии регрессии У на Х:

У = 0,202 Х + 1,024

Аналогично уравнение регрессии Х на У:

Угловой коэффициент прямой линии регрессии У на Х - это выборочный коэффициент регрессии pxy:

Коэффициент b=

Х = 4,119У - 3,714

3. Нелинейная регрессия

Если между экономическими явлениями существуют нелинейные соотношения, то они выражаются с помощью соответствующих нелинейных функций.

Различают два класса нелинейных регрессий:

1. Регрессии, нелинейные относительно включенных в анализ объясняющих переменных, но линейные по оцениваемым параметрам, например:

Полиномы разных степеней

Равносторонняя гипербола - ;

Полулогарифмическая функция - .

2. Регрессии, нелинейные по оцениваемым параметрам, например:

Степенная - ;

Показательная - ;

Экспоненциальная - .

Регрессии нелинейные по включенным переменным приводятся к линейному виду простой заменой переменных, а дальнейшая оценка параметров производится с помощью метода наименьших квадратов. Рассмотрим некоторые функции.

Парабола второй степени приводится к линейному виду с помощью замены: . В результате приходим к двухфакторному уравнению, оценка параметров которого при помощи Метода наименьших квадратов приводит к системе уравнений:

Парабола второй степени обычно применяется в случаях, когда для определенного интервала значений фактора меняется характер связи рассматриваемых признаков: прямая связь меняется на обратную или обратная на прямую.

Равносторонняя гипербола может быть использована для характеристики связи удельных расходов сырья, материалов, топлива от объема выпускаемой продукции, времени обращения товаров от величины товарооборота. Классическим ее примером является кривая Филлипса, характеризующая нелинейное соотношение между нормой безработицы x и процентом прироста заработной платы y .

Гипербола приводится к линейному уравнению простой заменой: . Также можно использовать Метод наименьших квадратов для составления системы линейных уравнений.

Аналогичным образом приводятся к линейному виду зависимости: , и другие.

Равносторонняя гипербола и полулогарифмическая кривая используют для описания кривой Энгеля (математическое описание взаимосвязи доли расходов на товары длительного пользования и общих сумм расходов (или доходов)). Уравнения, в которых входят, применяются в исследованиях урожайности, трудоемкости сельскохозяйственного производства.

4. Множественная регрессия

Множественная регрессия - уравнение связи с несколькими независимыми переменными:

где - зависимая переменная (результативный признак);

Независимые переменные (факторы).

Для построения уравнения множественной регрессии чаще используются следующие функции:

линейная -

степенная -

экспонента -

гипербола - .

Можно использовать и другие функции, приводимые к линейному виду.

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). Для линейных уравнений и нелинейных уравнений, приводимых к линейным, строится следующая система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии:

Для ее решения может быть применен метод определителей:

где - определитель системы;

Частные определители; которые получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.

Другой вид уравнения множественной регрессии - уравнение регрессии в стандартизированном масштабе, к уравнению множественной регрессии в стандартизированном масштабе применим МНК.

5. Использование MS EXCEL для выполнения регрессионного анализа

Регрессионный анализ устанавливает формы зависимости между случайной величиной Y (зависимой) и значениями одной или нескольких переменных величин (независимых), причем значения последних считаются точно заданными. Такая зависимость обычно определяется некоторой математической моделью (уравнением регрессии), содержащей несколько неизвестных параметров. В ходе регрессионного анализа на основании выборочных данных находят оценки этих параметров, определяются статистические ошибки оценок или границы доверительных интервалов и проверяется соответствие (адекватность) принятой математической модели экспериментальным данным.

В линейном регрессионном анализе связь между случайными величинами предполагается линейной. В самом простом случае в парной линейной регрессионной модели имеются две переменные Х и Y. И требуется по n парам наблюдений (X1, Y1), (X2, Y2), ..., (Xn, Yn) построить (подобрать) прямую линию, называемую линией регрессии, которая «наилучшим образом» приближает наблюдаемые значения. Уравнение этой линии y=аx+b является регрессионным уравнением. С помощью регрессионного уравнения можно предсказать ожидаемое значение зависимой величины y, соответствующее заданному значению независимой переменной x. В случае, когда рассматривается зависимость между одной зависимой переменной Y и несколькими независимыми X1, X2, ..., Xm, говорят о множественной линейной регрессии.

В этом случае регрессионное уравнение имеет вид

y = a 0 +a 1 x 1 +a 2 x 2 +…+a m x m ,

где a0, a1, a2, …, am - требующие определения коэффициенты регрессии.

Коэффициенты уравнения регрессии определяются при помощи метода наименьших квадратов, добиваясь минимально возможной суммы квадратов расхождений реальных значений переменной Y и вычисленных по регрессионному уравнению. Таким образом, например, уравнение линейной регрессии может быть построено даже в том случае, когда линейная корреляционная связь отсутствует.

Мерой эффективности регрессионной модели является коэффициент детерминации R2 (R-квадрат). Коэффициент детерминации может принимать значения между 0 и 1 определяет, с какой степенью точности полученное регрессионное уравнение описывает (аппроксимирует) исходные данные. Исследуется также значимость регрессионной модели с помощью F-критерия (Фишера) и достоверность отличия коэффициентов a0, a1, a2, …, am от нуля проверяется с помощью критерия Стьюдента.

В Excel экспериментальные данные аппроксимируются линейным уравнением до 16 порядка:

y = a0+a1x1+a2x2+…+a16x16

Для получения коэффициентов линейной регрессии может быть использована процедура «Регрессия» из пакета анализа. Также полную информацию об уравнении линейной регрессии дает функция ЛИНЕЙН. Кроме того, могут быть использованы функции НАКЛОН и ОТРЕЗОК для получения параметров регрессионного уравнения и функция ТЕНДЕНЦИЯ и ПРЕДСКАЗ для получения предсказанных значений Y в требуемых точках (для парной регрессии).

Рассмотрим подробно применение функции ЛИНЕЙН (известные_y, [известные_x], [константа], [статистика]): известные_у - диапазон известных значений зависимого параметра Y. В парном регрессионном анализе может иметь любую форму; в множественном должен быть строкой либо столбцом; известные_х - диапазон известных значений одного или нескольких независимых параметров. Должен иметь ту же форму, что и диапазон Y (для нескольких параметров - соответственно несколько столбцов или строк); константа - логический аргумент. Если исходя из практического смысла задачи регрессионного анализа необходимо, чтобы линия регрессии проходила через начало координат, то есть свободный коэффициент был равен 0, значение этого аргумента следует положить равным 0 (или «ложь»). Если значение положено 1 (или «истина») или опущено, то свободный коэффициент вычисляется обычным образом; статистика - логический аргумент. Если значение положено 1 (или «истина»), то дополнительно возвращается регрессионная статистика (см таблицу), используемая для оценки эффективности и значимости модели. В общем случае для парной регрессии y=аx+b результат применения функции ЛИНЕЙН имеет вид:

Таблица. Выводной диапазон функции ЛИНЕЙН для парного регрессионного анализа

В случае множественного регрессионного анализа для уравнения y=a0+a1x1+a2x2+…+amxm в первой строке выводятся коэффициенты am,…,a1,а0, во второй - стандартные ошибки для этих коэффициентов. В 3-5 строках за исключением первых двух столбцов, заполненных регрессионной статистикой, будет получено значение #Н/Д.

Вводить функцию ЛИНЕЙН следует как формулу массива, выделив вначале массив нужного размера для результата (m+1 столбец и 5 строк, если требуется регрессионная статистика) и завершив ввод формулы нажатием CTRL+SHIFT+ENTER.

Результат для нашего примера:

Кроме этого в программе имеется встроенная функция - Анализ данных на вкладке Данные.

С помощью нее можно также выполнять регрессионный анализ:

На слайде - результат регрессионного анализа, выполненного с помощью Анализа данных.

ВЫВОД ИТОГОВ

Регрессионная статистика

Множественный R

R-квадрат

Нормированный R-квадрат

Стандартная ошибка

Наблюдения

Дисперсионный анализ

Значимость F

Регрессия

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Нижние 95,0%

Верхние 95,0%

Y-пересечение

Переменная X 1

Уравнения регрессии, которые мы смотрели ранее также построены в MS Excel. Для их выполнения сначала строится Точечная диаграмма, затем через контекстное меню выбираем - Добавить линию тренда. В новом окне ставим галочки - Показывать уравнение на диаграмме и поместить на диаграмму величину достоверности апроксимации (R^2).

Литература:

  1. Теория вероятностей и математическая статистика. Гмурман В. Е. Учебное пособие для вузов. - Изд. 10-е, стер. - М.: Высш. шк., 2010. - 479с.
  2. Высшая математика в упражнениях и задачах. Учебное пособие для вузов / Данко П. Е., Попов А. Г., Кожевникова Т. Я., Данко С. П. В 2 ч. - Изд. 6-е, стер. - М.: ООО «Издательство Оникс»: ООО «Издательство «Мир и образование» , 2007. - 416 с.
    1. 3. http://www.machinelearning.ru/wiki/index.php?title=%D0%A0%D0%B5%D0%B3%D1%80%D0%B5%D1%81%D1%81%D0%B8%D1%8F - некоторые сведения о регрессионном анализе