Эконометрической модели линейного уравнения множественной. Прогнозирование по модели множественной регрессии

1. Для регрессионной модели зависимости среднедушевого денежного дохода населения (руб., у ) от объема валового регионального продукта (тыс. р., х 1 ) и уровня безработицы в субъекте (%, х 2 ) получено уравнение . Величина коэффициента регрессии при переменной х 2 свидетельствует о том, что при изменении уровня безработицы на 1% среднедушевой денежный доход ______ рубля при неизменной величине валового регионального продукта.

изменится на (-1,67)

увеличится на 1,67

уменьшится на (-1,67)

изменится на 0,003

Решение:

Эконометрическая модель линейного уравнения регрессии имеет вид , где y – зависимая переменная, x j – независимая переменная ( – номер независимой переменной в модели, k – общее количество независимых переменных в модели); a , b j y прочих факторов, не являющихся в модели независимыми переменными). Коэффициентом регрессии является параметр b j . Его величина показывает, на сколько в среднем изменится зависимая переменная y , при изменении соответствующей независимой переменной x j на 1 единицу измерения. Таким образом, при изменении уровня безработицы на 1% среднедушевой денежный доход изменится на (-1,67) рубля при неизменной величине валового регионального продукта.

2. В уравнении линейной множественной регрессии: , где – стоимость основных фондов (тыс. руб.); – численность занятых (тыс. чел.); y – объем промышленного производства (тыс. руб.) параметр при переменной х 1 , равный 10,8, означает, что при увеличении объема основных фондов на _____ объем промышленного производства _____ при постоянной численности занятых.

на 1 тыс. руб. … увеличится на 10,8 тыс. руб.

на 1 тыс. руб. … уменьшится на 10,8 тыс. руб

на 1 тыс. руб. … увеличится на 10,8%

на 1% … увеличится на 10,8%

Решение:

В уравнении множественной линейной регрессии , параметр показывает среднее изменение результата y при увеличении фактора на одну единицу, при условии, что все остальные переменные останутся на постоянном уровне. В нашем случае, объем промышленного производства y характеризуется следующим уравнением , параметр равен 10,8, следовательно, при увеличении объема основных фондов на 1 тыс. руб. объем промышленного производства увеличится на 10,8 тыс. руб. при постоянной численности занятых.

3. Известно, что доля остаточной дисперсии зависимой переменной в ее общей дисперсии равна 0,2. Тогда значение коэффициента детерминации составляет …

Решение:

Коэффициент детерминации равен доле дисперсии, объясненной регрессией, в общей дисперсии. Величина () показывает долю остаточной дисперсии в общей или дисперсию, вызванную влиянием остальных, не учтенных в модели факторов.
. Значит,

4. Построена эконометрическая модель для зависимости прибыли от реализации единицы продукции (руб., у ) от величины оборотных средств предприятия (тыс. р., х 1 ): . Следовательно, средний размер прибыли от реализации, не зависящий от объема оборотных средств предприятия, составляет _____ рубля.

Решение:

Эконометрическая модель линейного уравнения парной регрессии имеет вид: , где y – зависимая переменная, x – независимая переменная; a , b – параметры уравнения; – ошибка модели (учитывает влияние на зависимую переменную y прочих факторов, не являющихся в модели независимыми переменными). Значение параметра а может быть рассчитано по формуле . Если , то ; в таком случае говорят, что среднее значение переменной y , не зависящее от величины переменной х , равно значению параметра а . Следовательно, средний размер прибыли от реализации, не зависящий от объема оборотных средств предприятия, составляет 10,75 рубля.

5. F-статистика рассчитывается как отношение ______ дисперсии к ________ дисперсии, рассчитанных на одну степень свободы.

факторной … остаточной

остаточной … факторной

факторной … к общей

остаточной … общей

Решение:

F -статистика рассчитывается как отношение факторной дисперсии на одну степень свободы к остаточной дисперсии на одну степень свободы.

Тема 5: Оценка параметров линейных уравнений регрессии

1. Для эконометрической модели уравнения регрессии ошибка модели определяется как ______ между фактическим значением зависимой переменной и ее расчетным значением.

разность

сумма квадратов разности

квадрат разности

сумма разности квадратов

Решение:

Одним из типов эконометрических моделей является уравнение регрессии, которое может быть записано в виде математического выражения , где y – зависимая переменная; x j – независимая переменная (j = 1,…, k ; k – количество независимых переменных); f – тип функциональной зависимости (математическая функция); – случайные факторы. При этом , тогда , где – фактическое значение зависимой переменной, – расчетное значение зависимой переменной, – ошибка модели. Выразим значение : . Поэтому правильный ответ – «разность».

2. Величина называется …

случайной составляющей

оценкой параметра

значением параметра

переменной

Решение:

Величина называется случайной составляющей, или возмущением, и включает в себя влияние факторов, неучтенных в модели, ошибок выборки и ошибок измерения.

3. В эконометрической модели уравнения регрессии величина отклонения фактического значения зависимой переменной от ее расчетного значения характеризует …

Прогнозирование по модели множественной линейной регрессии предполагает оценку ожидаемых значений зависимой переменной при заданных значениях независимых переменных, входящих в уравнение регрессии. Различают точечный и интервальный прогнозы.

Точечный прогноз – это расчетное значение зависимой переменной, полученное подстановкой в уравнение множественной линейной регрессии прогнозных (заданных исследователем) значений независимых переменных. Если заданы значения , то прогнозное значение зависимой переменной (точечный прогноз) будет равно

Интервальный прогноз – это минимальное и максимальное значения зависимой переменной, в промежуток между

которыми она попадает с заданной долей вероятности и при заданных значениях независимых переменных.

Интервальный прогноз для линейной функции вычисляется по формуле

где t T – теоретическое значение критерия Стьюдента при df=n- – т – 1 степенях свободы; s y – стандартная ошибка прогноза, вычисляемая по формуле

(2.57)

где Х – матрица исходных значений независимых переменных; Х пр – матрица-столбец прогнозных значений независимых переменных вида

Найдем прогнозные значения поступления налогов (пример 2.1), при условии, что связь между показателями описывается уравнением

Зададим прогнозные значения независимых переменных:

  • – количество занятых Xj: 500 тыс. человек;
  • – объем отгрузки в обрабатывающих производствах х 2: 65 000 млн руб.;
  • – производство энергии х3:15 000 млн руб.

Найдем точечный и интервальный прогноз поступления налогов.

При заданных значения независимых переменных поступление налогов в среднем составит

Вектор прогнозных значений независимых переменных будет иметь вид

Ошибка прогноза, рассчитанная по формуле (2.57), составила 5556,7. Табличное значение t-критерия при числе степеней свободы df = 44 и уровне значимости а = 0,05 равно 2,0154. Следовательно, прогнозные значения поступления налогов будут с вероятностью 0,95 находиться в границах:

от 18 013,69 – 2,0154-5556,7=6814,1 млн руб.;

до 18 013,69 + 2,0154-5556,7=29 212 млн руб.

Прогнозирование по нелинейным моделям множественной регрессии также можно осуществлять по формулам (2.55)–(2.57), предварительно линеаризовав указанные модели.

Мультиколлинеарность данных

При построении эконометрической модели предполагается, что независимые переменные воздействуют на зависимую изолированно, т. е. влияние отдельной переменной на результативный признак не связано с влиянием других переменных. В реальной экономической действительности все явления в той или иной мере связаны, поэтому добиться выполнения этого предположения практически невозможно. Наличие связи между независимыми переменными приводит к необходимости оценки ее влияния на результаты корреляционно-регрессионного анализа.

Различают функциональные и стохастические связи между объясняющими переменными. В первом случае говорят об ошибках спецификации модели, которые должны быть исправлены.

Функциональная связь возникает, если в уравнение регрессии в качестве объясняющих переменных включают, в частности, все переменные, входящие в тождество. Например, можно сказать, что доход У складывается из потребления С и инвестиций I, т. е. имеет место тождество. Мы предполагаем, что уровень процентных ставок г зависит от дохода, т.е. модель в общем виде может быть представлена в виде

Неопытный исследователь, желая улучшить модель, может включить в уравнение также переменные "потребление" и "инвестиции", что приведет к функциональной связи между объясняющими переменными:

Функциональная взаимосвязь столбцов матрицы X приведет к невозможности найти единственное решение уравнения

регрессии, так как, а нахождение обратной

матрицыпредполагает деление алгебраических дополнений матрицына ее определитель, который в дан

ном случае будет равен нулю.

Более часто между объясняющими переменными наблюдается стохастическая связь, что приводит к уменьшению

величины определителя матрицы: чем сильнее связь,

тем меньше будет определитель. Это приводит к росту не только оценок параметров, полученных с использованием МНК, но и их стандартных ошибок, которые вычисляются по формуле (2.24):

в которой, как мы видим, также используется матрица Корреляционная связь может существовать как между двумя объясняющими переменными (интеркорреляция ), так и между несколькими (мультиколлинеарность).

Существует несколько признаков, указывающих на наличие мультиколлинеарности. В частности, такими признаками являются:

  • – не соответствующие экономической теории знаки коэффициентов регрессии. Например, нам известно, что объясняющая переменная х оказывает прямое воздействие на объясняемую переменную у, в то же время коэффициент регрессии при этой переменной меньше нуля;
  • – значительные изменения параметров модели при небольшом сокращении (увеличении) объема исследуемой совокупности;
  • – незначимость параметров регрессии, обусловленная высокими значениями стандартных ошибок параметров.

Существование корреляционной связи между независимыми переменными может быть выявлено с помощью показателей корреляции между ними, в частности с помощью парных коэффициентов корреляции r XiX, которые можно записать в виде матрицы

(2.58)

Коэффициент корреляции переменной с самой собой равен единице хх = 1), а коэффициент корреляции переменной*, с переменной *,■ равен коэффициенту корреляции переменной XjC переменной X, х х х х ). Следовательно, данная матрица является симметрической, поэтому в ней указывают только главную диагональ и элементы под ней:

Высокие значения парных линейных коэффициентов корреляции указывают на наличие интеркорреляции, т.е. линейной связи между двумя объясняющими переменными. Чем выше величина , тем выше интеркорреляция. Так как при построении моделей избежать отсутствия связей между объясняющими переменными практически невозможно, существует следующая рекомендация относительно включения двух переменных в модель в качестве объясняющих. Обе переменные можно включить в модель, если выполняются соотношения

т.е. теснота связи результирующей и объясняющей переменных больше, чем теснота связи между объясняющими переменными.

Наличие мультиколлинеарности можно подтвердить, найдя определитель матрицы (2.58). Если связь между независимыми переменными полностью отсутствует, то недиагональные элементы будут равны нулю, а определитель матрицы – единице. Если связь между независимыми переменными близка к функциональной (т.е. является очень тесной), то определитель матрицы гхг будет близок к нулю.

Еще один метод измерения мультиколлинеарности является следствием анализа формулы стандартной ошибки коэффициента регрессии (2.28):

Как следует из данной формулы, стандартная ошибка будет тем больше, чем меньше будет величина, которую называют фактор инфляции дисперсии (или фактор вздутия дисперсии ) VIF:

где – коэффициент детерминации, найденный для уравнения зависимости переменной Xj от других переменных , входящих в рассматриваемую модель множественной регрессии.

Так как величина отражает тесноту связи между переменной Xj и прочими объясняющими переменными, то она, по сути, характеризует мультиколлинеарность применительно К данной переменной Xj. При отсутствии связи показатель VIF X будет равен (или близок) единице, усиление связи ведет к стремлению этого показателя к бесконечности. Считают, что если VIF X >3 для каждой переменной *, то имеет место мультиколлинеарность.

Измерителем мультиколлинеарности является также так называемый показатель (число) обусловленности матрицы . Он равен отношению максимального и минимального собственных чисел этой матрицы:

Считается, что если порядок этого соотношения превышает 10s–106, то имеет место сильная мультиколлинеарность .

Проверим наличие мультиколлинеарности в рассматриваемом нами примере 2.1. Матрица парных коэффициентов корреляции имеет вид

Можно отметить, что связи между объясняющими переменными достаточно тесные, особенно между переменными.Xj и х2; X] и х3, что указывает на интеркорреляцию этих переменных. Более слабая связь наблюдается между переменными х2 и х3. Найдем определитель матрицы г^..

Полученное значение ближе к нулю, чем к единице, что указывает на наличие мультиколлинеарности объясняющих переменных.

Проверим обоснованность включения всех трех независимых переменных в модель регрессии, используя правило (2.59). Парные линейные коэффициенты корреляции зависимой и независимых переменных равны

Они больше, чем показатели тесноты связи между независимыми переменными, следовательно, правило (2.59) выполняется, все три переменные можно включить в модель регрессии.

Измерим степень мультиколлинеарности переменных с помощью фактора инфляции дисперсии (VIF ). Для этого необходимо рассчитать коэффициенты детерминации для регрессий:

Для этого к каждой регрессии необходимо применить МНК, оценить ее параметры и рассчитать коэффициент детерминации. Для нашего примера результаты расчетов следующие:

Следовательно, фактор инфляции дисперсии для каждой независимой переменной будет равен

Все рассчитанные величины не превысили критического значения, равного трем, следовательно, при построении модели можно пренебречь существованием связей между независимыми переменными.

Для нахождения собственных чисел матрицы (с целью расчета показателя обусловленности η (2.60)) необходи мо найти решение характеристического уравнения

Матрица для нашего примера имеет вид

а матрица, модуль определителя которой нужно приравнять нулю, получится следующей:

Характеристический многочлен в данном случае будет иметь четвертую степень, что затрудняет решение задачи вручную. В данном случае рекомендуется воспользоваться возможностями вычислительной техники. Например, в ППП EViews получены следующие собственные числа матрицы :

Следовательно, показатель обусловленности η будет равен

что свидетельствует о наличии в модели сильной мультиколлинеарности.

Методами устранения мультиколлинеарности являются следующие.

  • 1. Анализ связей между переменными, включаемыми в модель регрессии в качестве объясняющих (независимых), с целью отбора только тех переменных, которые слабо связаны друг с другом.
  • 2. Функциональные преобразования тесно связанных между собой переменных. Например, мы предполагаем, что поступление налогов в городах зависит от количества жителей и площади города. Очевидно, что эти переменные будут тесно связаны. Их можно заменить одной относительной переменной "плотность населения".
  • 3. Если по каким-то причинам перечень независимых переменных не подлежит изменению, то можно воспользоваться специальными методами корректировки моделей с целью исключения мультиколинеарности: ридж-регрессией (гребневой регрессией), методом главных компонент.

Применение ридж-регрессии предполагает корректировку элементов главной диагонали матрицы на некую произвольно задаваемую положительную величину τ. Значение рекомендуется брать от 0,1 до 0,4. Н. Дрейпер, Г. Смит в своей работе приводят один из способов "автоматического" выбора величины τ, предложенный Хоэрлом, Кеннардом и Белдвином :

(2.61)

где т – количество параметров (без учета свободного члена) в исходной модели регрессии; SS e – остаточная сумма квадратов, полученная по исходной модели регрессии без корректировки на мультиколлинеарность; а – вектор-столбец коэффициентов регрессии, преобразованных по формуле

(2.62)

где cij – параметр при переменной у, в исходной модели регрессии.

После выбора величины τ формула для оценки параметров регрессии будет иметь вид

(2.63)

где I – единичная матрица; X, – матрица значений независимых переменных: исходных или преобразованных по формуле (2.64); Υ τ – вектор значений зависимой переменной: исходных или преобразованных по формуле (2.65).

(2.64)

и результативную переменную

В этом случае после оценки параметров по формуле (2.63) необходимо перейти к регрессии по исходным переменным, используя соотношения

Оценки параметров регрессии, полученные с помощью формулы (2.63), будут смещенными. Однако, так как определитель матрицы больше определителя матрицы , дисперсия оценок параметров регрессии уменьшится, что положительно повлияет на прогнозные свойства модели.

Рассмотрим применение ридж-регрессии для примера 2.1. Найдем величину τ с помощью формулы (2.61). Для этого сначала рассчитаем вектор преобразованных коэффициентов регрессии по формуле (2.62):

Произведение равно 1,737-109. Следовательно, рекомендуемое τ составит

После применения формулы (2.63) и преобразований по фор муле (2.66) получим уравнение регрессии

Применение метода главных компонент предполагает переход от взаимозависимых переменных х к независимым друг от друга переменным ζ, которые называют главными

компонентами . Каждая главная компонента z, может быть представлена как линейная комбинация центрированных (или стандартизованных) объясняющих переменных t:. Напомним, что центрирование переменной предполагает вычитание из каждого і-го значения данной j-й переменной ее среднего значения:

а стандартизация (масштабирование) –деление выражения (2.67) на среднее квадратическое отклонение, рассчитанное для исходных значений переменной Xj

Так как независимые переменные часто имеют разный масштаб измерения, формула (2.68) считается более предпочтительной.

Количество компонент может быть меньше или равно количеству исходных независимых переменных р. Компоненту с номером к можно записать следующим образом:

(2.69)

Можно показать, что оценки в формуле (2.69) соответствуют элементам к- го собственного вектора матрицы , где Т – матрица размером , содержащая стандартизованные переменные. Нумерация главных компонент не является произвольной. Первая главная компонента имеет максимальную дисперсию, ей соответствует максимальное собственное число матрицы ; последняя – минимальную дисперсию и наименьшее собственное число.

Доля дисперсии к- й компоненты в общей дисперсии независимых переменных рассчитывается по формуле

где Х к – собственное число, соответствующее данной компоненте; в знаменателе формулы (2.70) приведена сумма всех собственных чисел матрицы .

После расчета значений компонент z, строят регрессию, используя МНК. Зависимую переменную в регрессии по главным компонентам (2.71) целесообразно центрировать (стандартизовать) по формулам (2.67) или (2.68).

где t y – стандартизованная (центрированная) зависимая переменная; – коэффициенты регрессии по главным компонентам; – главные компоненты, упорядоченные по убыванию собственных чисел Х к; δ – случайный остаток.

После оценки параметров регрессии (2.71) можно перейти к уравнению регрессии в исходных переменных, используя выражения (2.67)–(2.69).

Рассмотрим применение метода главных компонент на данных примера 2.1. Отметим, что матрица для стандартизованных переменных является в то же время матрицей парных линейных коэффициентов корреляции между независимыми переменными. Она уже была рассчитана и равна

Найдем собственные числа и собственные векторы этой матрицы, используя ППП Eviews. Получим следующие результаты.

Собственные числа матрицы :

Доля дисперсии независимых переменных, отражаемой компонентами, составила

Объединим собственные векторы матрицы , записав их как столбцы приведенной ниже матрицы F. Они упорядочены по убыванию собственных чисел, т.е. первый столбец является собственным вектором максимального собственного числа и т.д.:

Следовательно, три компоненты (соответствующие трем собственным векторам) можно записать в виде

После стандартизации исходных переменных по формуле (2.68) и расчета значений компонент (по n значений каждой компоненты) с помощью МНК найдем параметры уравнения (2.71):

В полученном уравнении регрессии значим только параметр при первой компоненте. Это закономерный результат с учетом того, что данная компонента описывает 70,8% вариации независимых переменных. Так как компоненты независимы, при исключении из модели одних компонент параметры уравнения при других компонентах не меняются. Таким образом, имеем уравнение регрессии с одной компонентой:

Преобразуем полученное выражение в регрессию с исходными переменными

Таким образом, используя метод главных компонент, мы получили уравнение регрессии

Устранение мультиколлинеарности с помощью ридж-регрессии и метода главных компонент привело к определенному изменению параметров исходной регрессии, которая имела вид

Отметим, что эти изменения были относительно невелики, что указывает на невысокую степень мультиколлинеарности.

  • См., например, Вучков И., Бояджиева Л., Солаков Е. Прикладной регрессионный анализ: пер. с болг. M.: Финансы и статистика, 1987. С. 110.
  • Дрейпер Н., Смит Г. Указ. соч. С. 514.

Т.Г. ТЮРНЕВА

ПРАКТИКУМ ПО ЭКОНОМЕТРИКЕ

ЛИНЕЙНАЯ МОДЕЛЬ ПАРНОЙ РЕГРЕССИИ

Эконометрика – это наука, изучающая конкретные количественные и качественные взаимосвязи экономических объектов и процессов с помощью математических и статистических методов и моделей. (Большой Энциклопедический Словарь – М., БРЭ, 1977)

Эконометрические методы – это, прежде всего, методы статистического анализа конкретных экономических данных.

Оценка результатов эконометрического моделирования достигается посредством решения качественной и количественной проблемы. Качественная составляющая заключается в установлении соответствия между построенной моделью и основополагающей экономической концепцией, а количественная – в точности аппроксимации имеющейся информации данными расчётов.

С практической точки зрения к основным задачам эконометрики можно отнести:

    построение эконометрических моделей – представление экономических моделей в математической форме, удобной для проведения эмпирического анализа. Данную проблему называют проблемой спецификации, которую можно решить несколькими способами;

    оценку параметров построенной модели, позволяющую характеризовать адекватность модели реальными данными. Указанная задача решается на этапе параметризации;

    проверку качества полученной модели в целом. Данная задача реализуется на этапе верификации;

    использование построенной модели для прогнозирования.

Модель парной линейной регрессии является частным случаем модели многомерной регрессии. Её исследование представляет самостоятельный интерес, так как она имеет многие характерные свойства общих многомерных моделей, но более наглядна и проста для изучения.

Расчетно-графическая работа по эконометрике

Модель парной линейной регрессии

    Постройте поле корреляции и сформулируйте гипотезу о форме связи.

Пусть имеется два ряда эмпирических данных X (x 1 , x 2 , …, x n ) и Y (y 1 , y 2 , …, y n ) , соответствующие им точки с координатами (x i , y i ), где i =1,2,…, n , отобразим на координатной плоскости. Такое изображение называется полем корреляции . Пусть по расположению эмпирических точек можно предположить наличие линейной корреляционной зависимости между переменными X и Y .

В общем виде теоретическую линейную парную регрессионную модель можно представить в виде:

Y =
или y i =
, i =1,2,…, n ;

где Y – объясняемая (результирующая, зависимая, эндогенная) переменная,

Х – объясняющая (факторная, независимая, экзогенная) переменная или регрессор;

- теоретические параметры (числовые коэффициенты) регрессии, подлежащие оцениванию;

ε i - случайное отклонение (возмущение, ошибка).

Основные гипотезы:

3а. М ε i =0, i =1,2,…, n .

3b. D ε i =σ 2 , i =1,2,…, n . Условие независимости дисперсии ошибки от номера наблюдения называется гомоскедастичностью ; случай, когда условие гомоскедастичности не выполняется, называется гетероскедастичностью.

3с. М(ε i ε j )=0 при i j , некоррелированность ошибок для разных наблюдений. В случае, когда это условие не выполняется, говорят об автокорреляции ошибок.

    Возмущения являются нормально распределенными случайными величинами: ε i N (0, σ 2 ).

Замечание. Для получения уравнения регрессии достаточно первых трех предпосылок. Для оценки точности уравнения регрессии и его параметров необходимо выполнение четвертой предпосылки.

Задача линейного регрессионного анализа состоит в том, чтобы по имеющимся статистическим данным (x i , y i ), i =1,2,…, n , для переменных X и Y получить наилучшие оценки неизвестных параметров , т. е. построить так называемое эмпирическое уравнение регрессии

где
оценка условного математического ожидания М(Y/ X=x i);
оценки неизвестных параметров , называемые эмпирическими коэффициентами регрессии. В каждом конкретном случае можно записать

, i =1,2,…, n ,

где отклонения е i – ошибки (остатки) модели, которые являются оценками теоретического случайного отклонения ε i .

2. Рассчитайте параметры выборочного уравнения линейной регрессии с помощью метода наименьших квадратов (МНК).

Классический подход к оцениванию параметров линейной регрессии основан на методе наименьших квадратов (МНК). В методе наименьших квадратов оценки параметров модели строятся так, чтобы минимизировать сумму квадратов ошибок модели по всем наблюдениям. Таким образом, критерий наименьших квадратов записывается в виде:

Необходимым условием существования минимума функции S (b 0 , b 1 ) является равенство нулю её частных производных по неизвестным b 0 и b 1 (для краткости опустим индексы суммирования у знака суммы Σ):

Данная система уравнений называется системой нормальных уравнений для коэффициентов регрессии.

Решая эту систему двух линейных уравнений с двумя неизвестными, например, методом подстановки, получим:

где
выборочные средние значения переменных Х и Y.

.

С геометрической точки зрения минимизация суммы квадратов отклонений означает выбор единственной прямой (из всех прямых с параметрами), которая ближе всего «прилегает» по ординатам к системе выборочных точек (x i , y i ), i =1,2,…, n .

Уравнение регрессии всегда дополняется показателем тесноты связи. При использовании линейной регрессии в качестве такого показателя выступает линейный коэффициент корреляции r xy . Существует несколько видов формулы линейного коэффициента корреляции, основные из них:

.

Корреляционная связь между переменными называется прямой, если r xy . >0, и обратной, если r xy

Для практических расчётов наиболее удобна формула

,

так как по ней коэффициент корреляции находится из данных наблюдений, и на значение r xy не оказывает влияния погрешность округления.

Коэффициент корреляции принимает значения от -1 до +1.

При значении коэффициента корреляции равном 1 связь представлена линейной функциональной зависимостью. При этом все наблюдаемые значения располагаются на линии регрессии.

При r xy =0 корреляционная связь между признаками в линейной форме отсутствует. При этом линия регрессии параллельна оси Ох.

При r xy > 0 – корреляционная связь между переменными называется прямой, а при r xy

Для характеристики силы связи можно использовать шкалу Чеддока.

Показатель

тесноты связи

Характеристика

силы связи

Умеренная

Заметная

Весьма высокая

Для оценки качества подбора линейной функции рассчитывается квадрат линейного коэффициента корреляции r xy 2 , называемый коэффициентом детерминации. Коэффициент детерминации обозначим R 2 , т. о. имеем

R 2 = r xy 2 .

Коэффициент детерминации характеризует долю дисперсии результативного признака Y, объясняемую регрессией, в общей дисперсии результативного признака. Соответственно величина 1- R 2 характеризует долю дисперсии Y, вызванную влиянием остальных, не учтенных в модели факторов.

Замечание. Вычисление R 2 корректно, если константа включена в уравнение регрессии.

Эмпирическое уравнение регрессии определяется на основе конечного числа статистических данных. Очевидно, что коэффициенты эмпирического уравнения регрессии являются случайными величинами, изменяющимися от выборки к выборке. При проведении статистического анализа возникает необходимость сравнения эмпирических коэффициентов регрессии b 0 и b 1 с некоторыми теоретически ожидаемыми значениями
этих коэффициентов. Данный анализ осуществляется по схеме статистической проверки гипотез.

Для проверки гипотезы

Н 0: b 1 = β 1 ,

Н 1: b 1 β 1

используется статистика
, которая при справедливости гипотезы Н 0 имеет распределение Стьюдента с числом степеней свободы df = n – 2 , где
- стандартная ошибка коэффициента регрессии b 1 ,
.

Наиболее важной на начальном этапе статистического анализа построенной модели является задача установления наличия линейной зависимости между Y и X. Эта проблема может быть решена проверкой гипотезы

Н 0: b 1 = 0,

Н 1: b 1 0.

Гипотеза в такой постановке обычно называется гипотезой о статистической значимости коэффициента регрессии. При этом если принимается нулевая гипотеза, то есть основания считать, что величина Y не зависит от Х – коэффициент b 1 статистически незначим (он слишком близок к нулю). При отклонении Н 0 коэффициент считается статистически значимым, что указывает на наличие определённой линейной зависимости между Y и X. Используемая в этом случае t – статистика имеет вид:
и при нулевой гипотезе имеет распределение Стьюдента с (n -2) степенями свободы.

Если вычисленное значение t – статистики - |tфакт| α больше критического (табличного) t табл , т.е.

|tфакт| > t табл = t (α ; n -2),

то гипотеза Н 0: b 1 = 0, отвергается в пользу альтернативной при выбранном уровне значимости. Это подтверждает статистическую значимость коэффициента регрессии b 1 .

Если |tфакт| табл = t (α; n -2), то гипотеза Н 0 не отвергается. Критическое значение t табл = t (α; n -2), α и числе степеней свободы n -2 находится по таблицам 2 Приложения.

По аналогичной схеме на основе t – статистики проверяется гипотеза о статистической значимости коэффициента b 0 :

,

где
и
- стандартная ошибка коэффициента регрессии b 0 .

    Постройте интервальные оценки параметров регрессии. Проверьте, согласуются ли полученные результаты с выводами, полученными в предыдущем пункте.

Формулы для расчета доверительных интервалов имеют следующий вид:

которые с надёжностью (1 – α) накрывают определяемые параметры .

Если в границы доверительных интервалов попадает ноль, т.е. нижняя граница отрицательна, а верхняя положительна, то оцениваемый параметр признается статистически незначимым.

    Постройте таблицу дисперсионного анализа для оценки значимости уравнения в целом.

Проверить значимость уравнения регрессии – значит, установить, соответствует ли математическая модель, выражающая зависимость между переменными, имеющимся данным и достаточно ли включённых в уравнение объясняющих переменных для описания зависимой переменной.

Оценка значимости уравнения в целом дается с помощью F – критерия Фишера. При этом выдвигается нулевая гипотеза, что коэффициент регрессии равен нулю, т.е. H 0: β 1 =0, следовательно, фактор не оказывает влияния на результат.

Непосредственному расчету F – критерия предшествует анализ дисперсии результативного признака Y. Центральное место в нем занимает разложение общей суммы квадратов отклонений переменной у от среднего значения на две части – «объясненную» и «остаточную» («необъясненную»):

= +

Общая сумма квадратов Сумма квадратов Остаточная сумма

отклонений = отклонений, объясненная + квадратов

регрессией отклонений

Обозначим SS общ =, SS R =
и SS ост =
.

Любая сумма квадратов отклонений связана с числом степеней свободы df (degree of freedom ), т.е. с числом свободы независимого варьирования признака.

Число степеней свободы связано с числом единиц совокупности n и с числом определяемых по ней констант. Число степеней свободы остаточной суммы квадратов при линейной парной регрессии составляет n - 2 , общей суммы квадратов – n -1 и число степеней свободы для факторной суммы квадратов, т. е. объясненной регрессией равно единице . Имеем равенство:

n – 1 = 1+ (n – 2).

Разделив каждую сумму квадратов на соответствующее ей число степеней свободы, получим средний квадрат отклонений или дисперсию на одну степень свободы .

;

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F –отношения или F – критерий , статистика которого F при нулевой гипотезе

~ F (1, n -2)

распределена по закону Фишера со степенями свободы (1, n-2).

Если вычисленное значение F –отношения - F факт при заданном уровне значимости α больше критического (табличного) F табл , т.е.

F факт > F табл = F (α;1, n -2),

то гипотеза Н 0: β 1 =0 отвергается, признаётся статистическая значимость уравнения регрессии, т.е. связь между рассматриваемыми признаками есть и результаты наблюдений не противоречат предположению о её линейности.

Если F факт F табл = F (α;1, n -2), то гипотеза Н 0 не отвергается, уравнение регрессии считается статистически незначимым.

Критическое значение F табл = F (α;1, n -2), при заданном уровне значимости α и числе степеней свободы 1; n -2 находится по таблицам 1 Приложения.

Оценка значимости уравнения регрессии обычно дается в виде таблицы дисперсионного анализа.



Есть вопросы?

Сообщить об опечатке

Текст, который будет отправлен нашим редакторам: