Измерение взаимосвязей экономических переменных в различных ситуациях

Тип работы:
Дипломная
Предмет:
Экономические науки


Узнать стоимость

Детальная информация о работе

Выдержка из работы

Содержание

  • Введение
  • 1. Введение в эконометрику
  • 2. Основные элементы математической статистики
  • 3. Ковариация, корреляция, дисперсия
  • 4. Парный регрессионный анализ. Линейные модели
  • 5. Оценка уравнение парной регрессии. Дисперсионный анализ
  • 6. Множественный регрессионный анализ
  • 7. Оценка уравнение множественной регрессии. Дисперсионный анализ
  • 8. Интервальная оценка функции регрессии и ее параметров
  • 9. Определение доверительных интервалов для коэффициентов и функции регрессии
  • 10. Мультиколлинеарность
  • 11. Линейные регрессионные модели с переменной структурой. Фиктивные переменные. Критерий Г. Чоу
  • 12. Нелинейные модели регрессии. Частная корреляция
  • 13. Статистические уравнения зависимостей
  • 14. Нормативные расчеты микроэкономических показателей хозяйственной деятельности
  • Заключение
  • Список использованной литературы
  • Введение

Последние десятилетия эконометрика как научная дисциплина стремительно развивается. Растет число научных публикаций и исследований с применением эконометрических методов. Свидетельством всемирного признания эконометрики является присуждение за наиболее выдающиеся разработки в этой области Нобелевских премий по экономике Р. Фришу и Я. Тинбергу (1969), Л. Кейну (1980), Т. Хаавельмо (1989), Дж. Хекману и Д. Макфаддену (2000).

Язык экономики все больше становится языком математики, а экономику все чаще называют одной из наиболее математизированных наук.

Если в период централизованной плановой экономики упор делался на балансовых и оптимизационных методах исследования, на описании «системы функционирования социалистической экономики», построении оптимизационных моделей отраслей и предприятий, то в период перехода к рыночной экономике возрастает роль эконометрических методов. Без знания этих методов невозможно ни исследование и теоретическое обобщение эмпирических зависимостей экономических переменных, ни построение сколько-нибудь надежного прогноза в банковском деле, финансах или бизнесе.

Единое общепринятое определение эконометрики в настоящее время отсутствует. Сам термин «эконометрика» был введен в 1926 г. норвежским ученым Р. Фришем и в дословном переводе означает «эконометрические измерения». Наряду с таким широким пониманием эконометрики, порождаемым переводом самого термина, встречается и весьма узкая трактовка эконометрики как набора математико-статистических методов, используемых в приложениях математики в экономике.

Приводимые ниже определения и высказывания известных ученых позволяет получить представление о различных толкованиях эконометрики.

  • Эконометрика — это раздел экономики, занимающийся разработкой и применением статистических методов для измерений взаимосвязей между экономическими переменными (С. Фишер).

Основная задача эконометрики — наполнить эмпирическим содержанием априорные экономические рассуждения (Л. Клейн).

Цель эконометрики — эмпирический вывод экономических законов (Э. Маленво).

Эконометрика является не более чем набором инструментов, хотя и очень полезных… Эконометрика является одновременно нашим телескопом и нашим микроскопом для изучения окружающего экономического мира (Ц. Грилихес).

  • Р. Фриш указывает на то, что эконометрика есть единство трех составляющих — статистики, экономической теории и математики.
  • С.А. Айвазян полагает, что эконометрика объединяет совокупность методов и моделей, позволяющих на базе эконометрической теории, экономической статистики и математико — статистического инструментария придавать количественные выражения качественным зависимостям.
  • Основные результаты экономической теории носят качественный характер, а эконометрика вносит в них эмпирическое содержание. Математическая экономика выражает экономические законы в виде математических соотношений, а эконометрика осуществляет опытную проверку этих законов.

Экономическая статистика дает информационное обеспечение исследуемого процесса в виде исходных (обработанных) статистических данных и экономических показателей, а эконометрика, используя традиционные математико-статистические и специально разработанные методы, проводит анализ количественных взаимосвязей между этими показателями.

Многие базовые понятия эконометрики имеют два определения — «экономическое» и «математическое». Подобная двойственность имеет место и в формулировках результатов. Характер научных работ по эконометрике варьируется от «классических» экономических работ, в которых почти не используется математический аппарат, до солидных математических трудов, использующих достаточно тонкий аппарат современной математики.

  • Экономическая составляющая эконометрики, безусловно, является первичной. Именно экономика определяет постановку задачи и исходные предпосылки, а результат, формируемый на математическом языке, представляет интерес лишь в том случае, если удается его экономическая интерпретация. В то же время многие эконометрические результаты носят характер математических утверждений (теорем).

1. Введение в эконометрику

Пространственная выборка или пространственные данные (cross-sectional data). В экономике под пространственной выборкой понимают набор показателей экономических переменных, полученный в данный момент времени.

Временной (динамический) ряд (time-series data), временным (динамическим) рядом называется выборка наблюдений, в которой важны не только сами наблюдаемые значения случайных величин, но и порядок их следования друг за другом.

Панельные данные — совокупность данных, в которых встречаются повторяемость значений и относительно элементов.

Основные этапы эконометрического моделирования

1-й этап (постановочный). Формируется цель исследования, набор участвующих в модели экономических переменных.

2-й этап (априорный). Проводится анализ сущности изучаемого объекта, формирование и формализация априорной (известной до начала моделирования) информации.

3-й этап (параметризация). Осуществляется непосредственно моделирование, т. е. выбор общего вида модели, выявление входящих в нее связей.

4-й этап (информационный). Осуществляется сбор необходимой статистической информации -- наблюдаемых значений экономических переменных

5-й этап (идентификация модели). Осуществляется статистический анализ модели и оценка ее параметров.

6-й этап (верификация модели). Проводится проверка истинности, адекватности модели.

2. Основные элементы математической статистики

Вероятностью Р{А) события, А называется численная мера степени объективной возможности появления этого события. Согласно классическому определению вероятность события, А равна отношению числа случаев т, благоприятствующих ему, к общему числу случаев п, т. е. Р (А)= т/п.

Математическим ожиданием, или средним значением, М (Х) дискретной случайной величины X называется сумма произведений всех ее значений на соответствующие им вероятности.

Свойства математического ожидания:

1) М© = С, где С -- постоянная величина;

2) М (кХ) = кМ (Х);

3) М (Х± Y) = М (Х) ± M (Y);.

4) M(XY)= М (Х) * M (Y), где X, Y -- независимые случайные величины;

5) М (Х± Q = М (Х) ± С;

6) М (Х- а) = 0, где, а = М (Х).

Дисперсией D (X) случайной величины X называется математическое ожидание квадрата ее отклонения от математического ожидания:

Свойства дисперсии случайной величины:

1) ДС) = 0, где С -- постоянная величина;

2) D (kX) = k2D (X)

3) D (X) = MiX2) — а2, где a= M (X)

4) D(X + Y) = D (X -- Y) = D (X) + D (Y), г

де и Y --независимые случайные величины.

Функцией распределения случайной величины X называется функция F (x), выражающая для каждого х вероятность того, что случайная величина X примет значение, меньшее х:

F{x)=P{X< x).

Свойства функции распределения:

1) Функция распределения случайной величины есть неотрицательная функция, заключенная между нулем и единицей:

0< F (x)<l.

2) Функция распределения случайной величины есть неубывающая функция на всей числовой оси, т. е. При xj> x

F (x2)> F{xx).

Рис. 2.1 График функции распределение случайно величины

3) На минус бесконечности функция распределения равна нулю, на плюс бесконечности -- равна единице, т. е.

4) Вероятность попадания случайной величины X в интервал [х, х2) (включая X]) равна приращению ее функции распределения на этом интервале, т. е.

Р (х, < X)=F (x2)-F (xi).

Плотностью вероятности (плотностью распределения или просто плотностью) ф (х) непрерывной случайной величины X называется производная ее функции распределения

?(x) = F'(x).

1. Дан ряд распределение случайной величины х:

Таблица 2. 1

Xi

0

1

2

3

Pi

0,06

0,29

0,44

0,21

Необходимо: а) найти математическое ожидание М (Х), дисперсию D (Х) и среднее квадратическое (стандартное) отклонение у случайной величины Х; б) определить функцию распределения F (Х) и построить ее график.

F (x)=

Рис. 2.2 График функции распределение F (x)

2. Дана функция распределения случайной величины X:

F (x)=

Найти: а) ряд распределения; б) математическое ожидание М (Х) и дисперсию D (X); в) построить график

Таблица 2. 2

Xi

1

2

3

Pi

0,3

0,4

0,3

Рис. 2.3 График функции распределение F (x)

3. Случайная величина X, сосредоточенная на интервале [--1; 3], задана функцией распределения. Найти вероятность попадания случайной величины X в интервал [0; 2].

Вероятность попадание случайной величины Х в интервале [0; 2] равняется 0,5.

3. Ковариация, корреляция, дисперсия

Дисперсия — это средняя арифметическая квадратов отклонений каждого значения признака от общей средней.

Корреляция — зависимость между случайными величинами, когда

изменение одной влечет изменение распределения другой.

ПРАВИЛА КОВАРИАЦИИ

1. Если Y = V + W,

Cov (X, Y) = Cov (X, V) + Cov (X, W)

2. Если Y = bZ, где b является константой,

Cov (X, Y) = Cov (X, bZ) = bCov (X, Z)

3. Если Y = b, где b является константой,

Cov (X, Y) = Cov (X, b) = 0

4. Cov (X, Y) = Cov (Y, X)

ОПРЕДЕЛЕНИЕ ВЫБОРОЧНОЙ ДИСПЕРСИИ

ТЕОРЕТИЧЕСКИЙ КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ

В задании 1. 18 исследуется зависимость производительности труда y (т / час) от уровня механизации работ x1 (%) по данным 15 промышленных предприятий.

Таблица 3. 1

x

15

3

15

16

12

12

5

15

14

1

17

6

9

3

19

y

-5

0

-7

-10

-5

-5

-1

-6

-3

1

-7

-4

-1

0

-8

Таблица 3. 2

Cov (x, y) — Ковариация

Var (X) — дисперсия

Var (Y) — дисперсия

Корреляция

-16,08

31,76

10,19 555 556

-0,893 594 218

Ковариация Х и У показывает зависимость случайных величин, зависимость случайных величин равна -16,08.

Дисперсия (вариация) показывает на сколько отклоняется каждое значение от общей средней.

Корреляция показывает какая связь существует между двумя величинами, в нашем случае связь отрицательная.

В заданиях 1. 39 имеется следующие данные о цене на нефть х (ден. ед.) и индексе акций нефтяных компаний у (усл. ед.).

Таблица 3. 3

х

17,5

17,3

17,2

17,1

17,4

17,5

у

520

528

535

540

545

555

Таблица 3. 4

Cov (x, y) — Ковариация

Var (X) — дисперсия

Var (Y) — дисперсия

Корреляция

-0,3 611

0,22 222

128,4 722 222

-0,2 137

Ковариация Х и У показывает зависимость случайных величин, зависимость случайных величин равна -0,3 611.

Дисперсия (вариация) показывает на сколько отклоняется каждое значение от общей средней.

Корреляция показывает какая связь существует между двумя величинами, в нашем случае связь отрицательная.

В задании 1. 60 имеется следующие данные о цене на нефть х (ден. ед.) и индексе акций нефтяных компаний у (усл. ед.). Предполагая, что между переменными х и у существует линейная зависимость, найти ковариацию cov (x, y).

Таблица 3. 5

х

16,8

17

17,2

16,9

17,1

16,95

у

510

515

540

510

525

500

Таблица 3. 6

Cov (x, y) — Ковариация

Var (X) — дисперсия

Var (Y) — дисперсия

Корреляция

1,388 889

0,17 014

163,8889

0,831 746

Ковариация Х и У показывает зависимость случайных величин, зависимость случайных величин равна 1,388 889.

Дисперсия (вариация) показывает на сколько отклоняется каждое значение от общей средней.

Корреляция показывает, какая связь существует между двумя величинами, в нашем случае тесная.

В задании 1. 81 имеется следующие данные о цене на нефть х (ден. ед.) и индексе акций нефтяных компаний у (усл. ед.). Предполагая, что между переменными х и у существует линейная зависимость, найти выборочную дисперсию переменной x.

Таблица 3. 7

х

14,28

14,05

15,3

15,8

16,2

15,5

у

550

520

545

530

525

560

Таблица 3. 8

Cov (x, y) — Ковариация

Var (X) — дисперсия

Var (Y) — дисперсия

Корреляция

-0,13 611

205,5556

0,604 681

-0,1 221

Ковариация Х и У показывает зависимость случайных величин, зависимость случайных величин равна -0,13 611.

Дисперсия (вариация) показывает на сколько отклоняется каждое значение от общей средней.

Корреляция показывает, какая связь существует между двумя величинами, в нашем случае отрицательная связь.

В задании 1. 102. имеется следующие данные о цене на нефть х (ден. ед.) и индексе акций нефтяных компаний у (усл. ед.). Предполагая, что между переменными х и у существует линейная зависимость, найти коэффициент корреляции.

Таблица 3. 9

х

17,5

17,3

17,15

17,1

17,4

17,45

у

510

518

535

530

545

535

Таблица 3. 10

Cov (x, y) — Ковариация

Var (X) — дисперсия

Var (Y) — дисперсия

Корреляция

-0,39 722

135,1389

0,22 222

-0,22 922

Ковариация Х и У показывает зависимость случайных величин, зависимость случайных величин равна -0,39 722.

Дисперсия (вариация) показывает на сколько отклоняется каждое значение от общей средней.

Корреляция показывает, какая связь существует между двумя величинами, в нашем случае отрицательная связь.

4. Парный регрессионный анализ. Линейные модели

Метод наименьших квадратов неизвестные параметры bo и Ь1 выбираются таким образом, чтобы сумма квадратов отклонений эмпирических значений yi от значений у (sh), найденных по уравнению регрессии, была минимальной:

Следует отметить, что для оценки параметров b0 и Ь1 возможны и другие подходы. Так, например, согласно методу наименьших модулей следует минимизировать сумму абсолютных величин отклонений

Однако метод наименьших квадратов существенно проще при проведении вычислительной процедуры и дает, как мы увидим далее, хорошие по статистическим свойствам оценки. Этим и объясняется его широкое применение в статистическом анализе. На основании необходимого условия экстремума функции двух переменных S=S (b0, b1) приравниваем к нулю ее частные производные, т. е.

Откуда после преобразований получим систему нормальных уравнений для определения параметров линейной регрессии:

Теперь, разделив обе части уравнений на n, получим систему нормальных уравнений в виде:

где b1 равняется:

а b0 равняется:

Величина r является показателем тесноты связи и называется выборочным коэффициентом корреляции (или просто коэффициентом корреляции).

Свойства коэффициента корреляции:

1. Коэффициент корреляции принимает значения на отрезке [-1; 1], т. е. -1 < г < 1. Чем ближе г к единице, тем теснее связь.

2. При r = ± 1 корреляционная связь представляет линейную функциональную зависимость. При этом все наблюдаемые значения Располагаются на прямой линии.

3. При r = 0 линейная корреляционная связь отсутствует. При этом линия регрессии параллельна оси Ох.

Основные предпосылки регрессионного анализа:

1. В модели yi = b0 + b1xi + еi возмущение (или зависимая переменная yi) есть величина случайная, а объясняющая переменная x--величина неслучайная.

2. Математическое ожидание возмущения равно нулю: M{еi)=0 (или математическое ожидание зависимой переменной yi) равно линейной функции регрессии: M (yi) = b0 + b1xi

3. Дисперсия возмущения (или зависимой переменной yi) постоянна для любогоi: D (еi) = у2(или D (yi) = у2 --условие гомоскедастичности или равно изменчивости возмущения (зависимой переменной).

4. Возмущения еi и еj (или переменные yi и yj) не коррелированы M (еi, еj)=0(i?j).

5. Возмущение еi (или зависимая переменная уi) есть нормально распределённая случайная величина.

В задании 1. 18 исследуется зависимость производительности труда y (т / час) от уровня механизации работ x1 (%) по данным 15 промышленных предприятий.

Таблица 4. 1

x

15

3

15

16

12

12

5

15

14

1

17

6

9

3

19

y

-5

0

-7

-10

-5

-5

-1

-6

-3

1

-7

-4

-1

0

-8

Таблица 4. 2

b1

b0

-0,5 062 972

1,401 343 409

Y=1,4−0,5*x

Данный показывает, что при увеличении механизации работ на 1%, она снижется на 0,5 раз.

В задании 1. 39 имеется следующие данные о цене на нефть х (ден. ед.) и индексе акций нефтяных компаний у (усл. ед.).

Таблица 4. 3

х

17,5

17,3

17,2

17,1

17,4

17,5

у

520

528

535

540

545

555

Таблица 4. 4

b1

b0

-1,625

565,30 625

Данный показывает, что при увеличении цены на нефть на 1%, она снижется на 1,625 раз.

В задании 1. 60. имеется следующие данные о цене на нефть х (ден. ед.) и индексе акций нефтяных компаний у (усл. ед.). Предполагая, что между переменными х и у существует линейная зависимость, найти ковариацию cov (x, y).

Таблица 4. 5

х

16,8

17

17,2

16,9

17,1

16,95

у

510

515

540

510

525

500

Таблица 4. 6

b1

b0

81,632 653

-870,408 163

Данный показывает, что при увеличении цены на нефть на 1%, она увеличивается на 81,63 раз.

В задании 1. 81 имеется следующие данные о цене на нефть х (ден. ед.) и индексе акций нефтяных компаний у (усл. ед.). Предполагая, что между переменными х и у существует линейная зависимость, найти выборочную дисперсию переменной x.

Таблица 4. 7

х

14,28

14,05

15,3

15,8

16,2

15,5

у

550

520

545

530

525

560

Таблица 4. 8

b1

b0

-0,225 096

541,7 521 648

Данный показывает, что при увеличении цены на нефть на 1%, она снижется на 1,625 раз.

В задании 1. 102. имеется следующие данные о цене на нефть х (ден. ед.) и индексе акций нефтяных компаний у (усл. ед.). Предполагая, что между переменными х и у существует линейная зависимость, найти коэффициент корреляции.

Таблица 4. 9

х

17,5

17,3

17,15

17,1

17,4

17,45

у

510

518

535

530

545

535

Таблица 4. 10

b1

b0

-17,875

838,3687

Данный показывает, что при увеличении цены на нефть на 1%, она снижется на -17,875 раз.

5. Оценка уравнение парной регрессии. Дисперсионный анализ

Теорема Гаусса--Маркова. Если регрессионная модель удовлетворяет предпосылкам 1--4,то оценки bo, b1 имеют наименьшую дисперсию в классе всех линейных несмещенных оценок (Best Linear Unbiased Estimator, или BLUE).

Проверить значимость уравнения регрессии -- значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным достаточно ли включенных в уравнение объясняющих переменных (одной или нескольких) для описания зависимой переменной.

Q = QR+ QE

где Q -- общая сумма квадратов отклонений зависимой переменной от средней, а QRи QE-- соответственно сумма квадратов, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.

Схема дисперсионного анализа имеет вид представленный в таблице:

Таблица 5. 1

Компоненты дисперсии

Сумма квадратов

Число степеней свободы

Средние квадраты

Регрессия

m — 1

Остаточная

n — m

Общая

n — 1

Учитывая смысл величин и S2, можно сказать, что значение F (критерия Фишера) показывает, в какой мере регрессия лучше оценивает значение зависимой переменной по сравнению сее средней. В случае линейной парной регрессии m = 2, и уравнение регрессии значимо на уровне б, если

t — Распределение Стюдента:

1.В задании 1. 18 исследуется зависимость производительности труда y (т / час) от уровня механизации работ x1 (%) по данным 15 промышленных предприятий.

Таблица 5. 2

X

15

3

15

16

12

12

5

15

14

1

17

6

9

3

19

Y

-5

0

-7

-10

-5

-5

-1

-6

-3

1

-7

-4

-1

0

-8

Таблица 5. 2

F-распределение Фишера

Корреляция

t — кретерия Стюдента

R

0,192 308

-0,893 594 218

7,177 710 731

0,798 511

Таблица 5. 3

Компоненты дисперсии

Сумма квадратов

Число степеней

Средние квадраты

Регрессия

3,15544E-30

1

3,15544E-30

Остаточная

1,26218E-29

13

9,70906E-31

Общая

0

14

Значения Фишера — Снедекора меньше чем табличный результат, значит она не значима, критерия Стьюдента больше чем табличный результат, т. е. этот результат значима. Коэффициент корреляции показывает, что связь отсутствует и точки на графике расположены далеко друг от друга.

В задании 1. 39 имеется следующие данные о цене на нефть х (ден. ед.) и индексе акций нефтяных компаний у (усл. ед.).

Таблица 5. 4

х

17,5

17,3

17,2

17,1

17,4

17,5

у

520

528

535

540

545

555

Таблица 5. 5

F-распределение Фишера

Корреляция

t — кретерия Стюдента

R

0,5625

-0,2 137 187

0,42 753 502

0,45 676

Таблица 5. 6

Компоненты дисперсии

Сумма квадратов

Число степеней

Средние квадраты

регрессия

1,16322E-25

1

1,16322E-25

остаточная

5,16988E-26

4

1,29247E-26

общая

1,29247E-26

5

Значения Фишера — Снедекора меньше чем табличный результат, значит она не значима, критерия Стьюдента меньше чем табличный результат, т. е. этот результат не значима. Коэффициент корреляции показывает, что связь отсутствует и точки на графике расположены далеко друг от друга.

В задании 1. 60 имеется следующие данные о цене на нефть х (ден. ед.) и индексе акций нефтяных компаний у (усл. ед.). Предполагая, что между переменными х и у существует линейная зависимость, найти ковариацию cov (x, y).

Таблица 5. 7

Х

16,8

17

17,2

16,9

17,1

16,95

У

510

515

540

510

525

500

Таблица 5. 8

F-распределение Фишера

Корреляция

t — кретерия Стюдента

R

0

0,999 951 121

202,2 732 478

0,999 902 245

Таблица 5. 9

Компоненты дисперсии

Сумма квадратов

Число степеней

Средние квадраты

Регрессия

0

1

0

Остаточная

5,16988E-26

4

1,29247E-26

Общая

5,16988E-26

5

Значения Фишера — Снедекора меньше чем табличный результат, значит она не значима, критерия Стьюдента больше чем табличный результат, т. е. этот результат значима. Коэффициент корреляции показывает, что связь очень тесная и точки на графике расположены близко друг от друга.

В задании 1. 81 имеется следующие данные о цене на нефть х (ден. ед.) и индексе акций нефтяных компаний у (усл. ед.). Предполагая, что между переменными х и у существует линейная зависимость, найти выборочную дисперсию переменной x.

Таблица 5. 10

х

14,28

14,05

15,3

15,8

16,2

15,5

у

550

520

545

530

525

560

Таблица 5. 11

F-распределение Фишера

Корреляция

t — кретерия Стюдента

R

0,25

0,999 538 921

65,83 805 489

0,999 078 054

Таблица 5. 12

Компоненты дисперсии

Сумма квадратов

Число степеней

Средние квадраты

регрессия

5,16988E-26

1

5,16988E-26

остаточная

5,16988E-26

4

1,29247E-26

общая

2,06795E-25

5

Значения Фишера — Снедекора меньше чем табличный результат, значит она не значима, критерия Стьюдента больше чем табличный результат, т. е. этот результат значима. Коэффициент корреляции показывает, что связь очень тесная и точки на графике расположены близко друг от друга.

В задании 1. 102. имеется следующие данные о цене на нефть х (ден. ед.) и индексе акций нефтяных компаний у (усл. ед.). Предполагая, что между переменными х и у существует линейная зависимость, найти коэффициент корреляции.

Таблица 5. 13

х

17,5

17,3

17,15

17,1

17,4

17,45

у

510

518

535

530

545

535

Таблица 5. 14

F-распределение Фишера

Корреляция

t — кретерия Стюдента

R

0,25

0,999 911 678

150,4 704 814

0,999 823 363

Таблица 5. 15

Компоненты дисперсии

Сумма квадратов

Число степеней

Средние квадраты

Регрессия

5,16988E-26

1

5,16988E-26

остаточная

5,16988E-26

4

1,29247E-26

Общая

0

5

Значения Фишера — Снедекора меньше чем табличный результат, значит она не значима, критерия Стьюдента больше чем табличный результат, т. е. этот результат значима. Коэффициент корреляции показывает, что связь очень тесная и точки на графике расположены близко друг от друга.

6. Множественный регрессионный анализ

Множественная регрессия — уравнение связи с несколькими независимыми переменными:

y = f (x1, x2,…, xp) ,

где у — зависимая переменная (результативный признак);

х1, х2,…, хp — независимые переменные (факторы).

Множественная регрессия применяется в ситуациях, когда из множества факторов, влияющих на результативный признак, нельзя выделить один доминирующий фактор и необходимо учитывать влияние нескольких факторов.

Основная цель множественной регрессии — построить модель с большим числом факторов, определив при этом влияние каждого из них в отдельности, а также совокупное их воздействие на моделируемый показатель.

Как и в случае парной регрессии, построение уравнения множественной регрессии осуществляется в два этапа:

· спецификация модели;

· оценка параметров выбранной модели.

Спецификация модели включает в себя решение двух задач:

· отбор p факторов xj, наиболее влияющих на величину y;

· выбор вида уравнения регрессии y=f (x1, x2,…, xp);.

Наиболее широкое применение получили следующие методы построения уравнения множественной регрессии:

· метод исключения;

· метод включения;

· шаговый регрессионный анализ.

Каждый из этих методов по-своему решает проблему отбора факторов, давая в целом близкие результаты — отсев факторов из полного его набора (метод исключения), дополнительное введение фактора (метод включения), исключение ранее введенного фактора (шаговый регрессионный анализ).

В процедуре отсева факторов наиболее широко используется матрица частных коэффициентов корреляции.

Как и в парной зависимости, возможны разные виды уравнений множественной регрессии: линейные и нелинейные.

Ввиду четкой интерпретации параметров наиболее широко используются линейная и степенная функции.

В уравнении линейной множественной регрессии

В уравнении степенной функции

В производственных функциях вида

Для построения уравнения множественной регрессии чаще всего используются следующие функции:

· линейная —

· степенная —

· экспонента —

· гипербола —

В задании 2. 18 по 10 предприятиям региона изучается зависимость выработки на одного работника у (тыс. руб.) от ввода в действие новых основных фондов х1 (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих х2 (%).

Таблица 6. 1

№ предприятия

1

2

3

4

5

6

7

8

9

10

Y

7

7

7

7

8

9

9

9

9

10

X1

3,9

3,7

3,7

4

4

4,8

5,1

4,4

5,3

5,5

Таблица 6. 2

b0

b1

b2

1,5611

1,0063

0,1324

После соответствующих вычислений вектор коэффициентов регрессии равна b0=1,56, b1=1,006, b2=0,13.

По уравнению можно сказать, что при увеличении действие новых основных фондов на 1%, стоимости фондов увеличивается на 1,006, а при увеличении рабочих с высокой квалификации на 1 человека численность рабочих увеличится на 0,13.

В задании 2. 07 исследуется зависимость производительности труда y (т / час) от уровня механизации работ x1 (%), среднего возраста работников x2 (лет) и энерговооруженности x3 (КВт / 100 работающих) по данным 14 промышленных предприятий.

Таблица 6. 3

x1

39

43

44

50

59

57

63

58

64

70

72

79

35

33

x2

44

42

49

46

37

41

45

38

42

47

43

44

36

34

x3

450

425

500

465

380

400

455

390

415

480

435

440

355

340

y

31

33

34

36

37

40

41

43

44

46

48

51

23

27

Таблица 6. 4

b0

b1

b2

b3

3,278

0,5276

-0,191

0,0331

После соответствующих вычислений вектор коэффициентов регрессии равна b0=3,27, b1=0,52, b2=-0,19, b3=0,033.

По уравнению можно сказать, что при увеличении механизации работы на 1%, производительность труда увеличивается на 0,53, а при увеличении возраста на 1 год производительность труда уменьшается на 0,19, при увеличении энерговооруженности на единицу, производительность труда увеличится на 0,03.

В задании 2. 28 по 10 предприятиям региона изучается зависимость выработки на одного работника у (тыс. руб.) от ввода в действие новых основных фондов х1 (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих х2 (%).

Таблица 6. 5

№ предприятия

1

2

3

4

5

6

7

8

9

10

Y

7

7

7

7

8

9

9

9

9

10

X1

3,9

3,7

3,7

4

4

4,8

5,1

4,4

5,3

5,3

Х2

10

12

15

15

17

18

18

19

20

20

Таблица 6. 6

b0

b1

b2

1,5611

1,0063

0,1324

После соответствующих вычислений вектор коэффициентов регрессии равна b0=1,56, b1=1,006, b2=0,13.

По уравнению можно сказать, что при увеличении фондов на 1%, выработка одного работника увеличивается на 1,006, а при увеличении квалификации рабочих на 1%, выработка одного работника увеличится на 0,132.

7. Оценка уравнения множественной регрессии. Дисперсионный анализ

Как и в случае парной регрессионной модели, в модели множественной регрессии общая вариация Q -- сумма квадратов отклонений зависимой переменной от средней может быть разложена на две составляющие:

Q = QR + Qe

где QR, Qe -- соответственно сумма квадратов отклонений, обусловленная регрессией, и остаточная сумма квадратов, характеризующая влияние неучтенных факторов.

Получим более удобные формулы для суммы квадратов Q, Qe и QR , не требующие вычисления значений обусловленных регрессией и остатков ei.

Уравнение множественной регрессии значимо, если

Коэффициент детерминации R2 как одна из наиболее эффективных оценок адекватности регрессионной модели, мера качества уравнения регрессии, характеристика его прогностической силы.

Коэффициент детерминации R2 определяется по формуле:

Чем ближе R2 к единице, тем лучше регрессия описывает зависимость между объясняющими и зависимой переменными.

Недостатком коэффициента детерминации R2 является то, что он вообще говоря, увеличивается при добавлении новых объясняющих переменных, хотя это и не обязательно означает улучшение качества регрессионной модели. В этом смысле предпочтительнее использовать скорректированный коэффициент детерминации 2, определяемый по формуле:

Если известен коэффициента детерминации R2, то критерий значимости уравнения регрессии может быть записан в виде:

где k1=p, k2=n--p--l, ибо в уравнении множественной регрессии вместе со свободным членом оценивается m=p+1 параметров.

В задании 2. 18 по 10 предприятиям региона изучается зависимость выработки на одного работника у (тыс. руб.) от ввода в действие новых основных фондов х1 (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих х2 (%).

Таблица 7. 1

№ предприятия

1

2

3

4

5

6

7

8

9

10

Y

7

7

7

7

8

9

9

9

9

10

X1

3,9

3,7

3,7

4

4

4,8

5,1

4,4

5,3

5,3

Х2

10

12

15

15

17

18

18

19

20

20

Таблица 7. 2

b0

1,5611

Q

11,6

b1

1,0063

Qr

10,458

b2

0,1324

Qe

1,1417

R2

0,9016

F

192,36

R2(sh)

0,8735

По результатам, полученным из таблицы выше можно сделать некоторые выводы, такие, как коэффициент Стьюдента и Фишера — Сенедекора они являются значимыми, потому что их результаты являются наибольшими, чем табличные, а результаты корреляции показывает что между переменными y и х1 связь является тесной, а во втором случае между переменными у и х2 связь отсутствует. Коэффициент детерминации R2 = 0,901 свидетельствует о том, что вариация исследуемой зависимой переменной Y — изучает зависимость выработки на одного работника на 90,1% объясняется изменчивостью включенных в модель объясняющих переменных — от ввода в действие новых основных фондов Х1 и от удельного веса рабочих высокой квалификации в общей численности рабочих Х2.

В задании 2. 07 исследуется зависимость производительности труда y (т / час) от уровня механизации работ x1 (%), среднего возраста работников x2 (лет) и энерговооруженности x3 (КВт / 100 работающих) по данным 14 промышленных предприятий.

Таблица 7. 3

x1

39

43

44

50

59

57

63

58

64

70

72

79

35

33

x2

44

42

49

46

37

41

45

38

42

47

43

44

36

34

x3

450

425

500

465

380

400

455

390

415

480

435

440

355

340

y

31

33

34

36

37

40

41

43

44

46

48

51

23

27

Таблица 7. 4

b0

3,278

Q

6667,2

b1

0,5276

Qr

6621

b2

-0,191

Qe

46,21

b3

0,0331

F

5731,2

R2(sh)

0,991

R2

0,9931

По результатам, полученным из таблицы выше можно сделать некоторые выводы, такие, как коэффициент Стьюдента и Фишера — Сенедекора они являются значимыми, потому что их результаты являются наибольшими, чем табличные, а результаты корреляции показывает что между переменными y и х1 связь является тесной, а во втором случае между переменными у и х2 связь отсутствует. Коэффициент детерминации R2 = 0,993 свидетельствует о том, что вариация исследуемой зависимой переменной Y — изучает зависимость выработки на одного работника на 99,3% объясняется изменчивостью включенных в модель объясняющих переменных — от ввода в действие новых основных фондов Х1 и от удельного веса рабочих высокой квалификации в общей численности рабочих Х2.

В задании 2. 28 по 10 предприятиям региона изучается зависимость выработки на одного работника у (тыс. руб.) от ввода в действие новых основных фондов х1 (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих х2 (%).

Таблица 7. 5

№ предприятия

1

2

3

4

5

6

7

8

9

10

Y

7

7

7

7

8

9

9

9

9

10

X1

3,9

3,7

3,7

4

4

4,8

5,1

4,4

5,3

5,3

Х2

10

12

15

15

17

18

18

19

20

20

Таблица 7. 6

b0

1,5611

Q

11,6

b1

1,0063

Qr

10,458

b2

0,1324

Qe

1,1417

R2(sh)

0,8735

F

192,36

R2

0,9016

По результатам, полученным из таблицы выше можно сделать некоторые выводы, такие, как коэффициент Стьюдента и Фишера — Сенедекора они являются значимыми, потому что их результаты являются наибольшими, чем табличные, а результаты корреляции показывает что между переменными y и х1 связь является тесной, а во втором случае между переменными у и х2 связь отсутствует. Коэффициент детерминации R2 = 0,901 свидетельствует о том, что вариация исследуемой зависимой переменной Y — изучает зависимость выработки на одного работника на 90,1% объясняется изменчивостью включенных в модель объясняющих переменных — от ввода в действие новых основных фондов Х1 и от удельного веса рабочих высокой квалификации в общей численности рабочих Х2.

8. Интервальная оценка функции регрессии и ее параметры

Доверительный интервал для функции регрессии. Построим доверительный интервал для функции регрессии, т. е. для условного математического ожидания МХ(Y), который с заданной надежностью (доверительной вероятностью) г=1-- б накрывает неизвестное значение МХ(Y)

Найдем дисперсию групповой средней, представляющей выборочную оценку МХ(Y). С этой целью уравнение регрессии (15) представим в виде:

На рис. 8.1 линия регрессии (7) изображена графически. Для произвольного наблюдаемого значения уi, выделены его составляющие: средняя, приращение Ь1i -), образующие расчетное значение уxiи возмущение еi. .

Дисперсия групповой средней равна сумме дисперсий двух независимых слагаемых выражения

Рис. 8.1 Линия регрессия

Дисперсия выборочной средней

Для нахождения дисперсии представим коэффициент регрессии в виде:

Найдем оценку дисперсии групповых средних, учитывая заменяя ее оценкой:

Исходя из того, что статистикаимеет t-распределение Стьюдента с k=п-2 степенями свободы, можно построить доверительный интервал для условного математического ожидания

где =-- стандартная ошибка групповой средней.

Доверительный интервал для индивидуальных значений зависимой переменной. Построенная доверительная область для МХ(У) (см. рис. 2) определяет местоположение модельной линии регрессии (т.е. условного математического ожидания), но не отдельных возможных значений зависимой переменной, которые отклоняются от средней. Поэтому при определении доверительного интервала для индивидуальных значений у'0 зависимой переменной необходимо учитывать еще один источник вариации -- рассеяние вокруг линии регрессии, т. е. в оценку суммарной дисперсии S2 следует включить величину S2. В результате оценка дисперсии индивидуальных значений yо при х = хо равна

а соответствующий доверительный интервал для прогнозов индивидуальных значений 0будет определяться по формуле:

Доверительный интервал для параметров регрессионной модели. Наряду с интервальным оцениванием функции регрессии иногда представляет интерес построение доверительных интервалов для параметров регрессионной модели, в частности для параметров регрессионной модели, в частности для и.

Можно показать, что при выполнении предпосылки 5 регрессионного анализа статистика имеет стандартный нормальный закон распределения, а если в для заменить ее оценкой, то статистика

имеет t-распределение Стьюдента с k= n -- 2 степенями свободы. Поэтому интервальная оценка параметра на уровне значимости имеет вид:

Задача 8.7. В таблице 8.1. заданы значения, независимой переменной приведено в первой строке, зависимой — во второй.

Таблица 8.1.

x

39

43

44

50

59

57

63

58

64

70

72

79

35

33

y

31

33

34

36

37

40

41

43

44

46

48

51

23

27

Таблица 8. 2

Доверительный интервал для функции регрессии

27,8

< =

29,6

< =

31,4

Доверительный интервал для индивидуальных значений

24,74

< =

4,4

< =

34,46

Доверительный интервал для параметра

0,36

< =

0,54

< =

0,72

Теперь имеем S2 = 4,4

S2х=39 =4,4 * (1 / 14 + (39 — 54,7) ^ 2 / 2692,9 =0,7

и Sх=39 = = 0,84

По табл. II приложений t0,95; 39=2,16

Доверительный интервал:

27,8 <= 29,6 <= 31,4

Средняя часовая производительность труда на одного рабочего от уровня механизации работ с надежностью 0,95 находиться в пределах от 27,8 до 31,4 т.

2. Чтобы построить доверительный интервал для индивидуального значения y*х0=39, найдем дисперсию его оценки:

S2yх0=39 = 4,4 * (1 + 1 / 14 + (39 — 54,7) ^ 2 / 2692,9 = 5,1

и S2yх0=39 = = 2,25

Далее искомый доверительный интервал получим:

24,74 <= 4,4< =34,46

Таким образом, индивидуальная производительность труда на одного рабочего от уровня механизации с надежностью 0,95 находится в пределах от 24,74 до 34,46 т.

3. Найдем 95%-ный доверительный интервал для параметра 1.

По формуле:

0,36 <= 0,54 <= 0,72

т. е. с надежностью 0,95 при изменении уровня механизации Х на 1 м часовая производительность труда Y будет изменяться на величину, заключенную в интервале от 0,36 до 0,72 (т).

9. Определение доверительных интервалов для коэффициентов и функции регрессии

Перейдем теперь к оценке значимости коэффициентов регрессии bj и построению доверительного интервала для параметров регрессионной модели

Изложенного выше оценка дисперсии коэффициента регрессии 6, определится по формуле:

(9. 1)

где -- несмещенная оценка параметра;

Среднее квадратическим отклонение (стандартная ошибка) коэффициента регрессии примет вид:

(9. 2)

Значимость коэффициента регрессии можно проверить, если учесть, что статистикаимеет t-распределение Стьюдента степенями свободы. Поэтому значимо отличается от нуляна уровне значимости, еслитабличное значение t-критерия Стьюдента, определенное на уровне значимости при числе степеней свободыk=n-p-1.

Поэтому доверительный интервал для параметра есть

(9. 3)

Наряду с интервальным оцениванием коэффициентов регрессии весьма важным для оценки точности определения зависимой переменной (прогноза) является построение доверительного интервала для функции регрессии или для условного математического ожидания зависимой переменной найденного в предположении, что объясняющие переменные приняли значения, задаваемые вектором. Выше такой интервал получен для уравнения парной регрессии. Обобщая соответствующие выражения на случай множественной регрессии, можно получить доверительный интервал для:

(9. 4)

где -- групповая средняя, определяемая по уравнению регрессии,

(9. 5)

-- ее стандартная ошибка.

Доверительный интервал для индивидуальных значений зависимой переменной примет вид:

(9. 5)

где. (9. 6)

В задании 2. 18 по 10 предприятиям региона изучается зависимость выработки на одного работника у (тыс. руб.) от ввода в действие новых основных фондов х1 (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих х2 (%).

Таблица 8. 1

№ предприятия

1

2

3

4

5

6

7

8

9

10

Y

7

7

7

7

8

9

9

9

9

10

X1

3,9

3,7

3,7

4

4

4,8

5,1

4,4

5,3

5,3

Х2

10

12

15

15

17

18

18

19

20

20

Таблица 8. 2

y (sh)

6,80 934

s2

0,26 602

S

0,163 102

X'0(X'X)-1X0

0,659 089

s (ysh)

0,132 414

t (0. 95. 7)

2,36

Sy0

0,210 085

t (b1)

7,637 219

t (b2)

4,958 974

Sb1

0,131 757

Sb2

0,26 697

Таблица 8. 3

Доверительный интервал для функции регрессии

6,496 844

< =

6,80 934

< =

7,121 836

Доверительный интервал для индивидуальных значений

6,313 539

< =

6,80 934

< =

7,305 141

Доверительный интервал для коэффициентов регрессии

0,695 311

< =

1,6 258

< =

1,317 205

Доверительный интервал для коэффициентов регрессии

0,69 384

< =

0,132 388

< =

0,195 392

Итак, средняя часовая производительность труда на одного рабочего от уровня механизации работ с надежностью 0,95 находиться в пределах от 6,49 до 7,12 т.

В задании 2. 07 исследуется зависимость производительности труда y (т / час) от уровня механизации работ x1 (%), среднего возраста работников x2 (лет) и энерговооруженности x3 (КВт / 100 работающих) по данным 14 промышленных предприятий.

Таблица 8. 3

x1

39

43

44

50

59

57

63

58

64

70

72

79

35

33

x2

44

42

49

46

37

41

45

38

42

47

43

44

36

34

x3

450

425

500

465

380

400

455

390

415

480

435

440

355

340

y

31

33

34

36

37

40

41

43

44

46

48

51

23

27

Таблица 8. 4

y (sh)

30,34 537

s2

21,3539

S

4,621 028

X'0(X'X)-1X0

0,267 901

s (ysh)

2,391 804

t (0. 95. 7)

2,23

Sy0

5,203 328

t (b1)

5,491 611

t (b2)

-0,8 644

t (b3)

0,159 997

Sb1

0,96 069

Sb2

2,212 487

Sb3

0,20 704

Таблица 8. 5

Доверительный интервал для функции регрессии

25,1 164

< =

30,34 537

< =

35,67 909

Доверительный интервал для индивидуальных значений

18,74 194

< =

30,34 537

< =

41,94 879

Доверительный интервал для первой коэффициентов регрессии

0,313 341

< =

0,527 576

< =

0,74 181

Доверительный интервал для второй коэффициентов регрессии

-5,12 509

< =

-0,19 124

< =

4,742 602

Доверительный интервал для третьей коэффициентов регрессии

-0,42 857

< =

0,33 126

< =

0,494 824

Итак, средняя часовая производительность труда на одного рабочего от уровня механизации работ с надежностью 0,95 находиться в пределах от 25,01 до 35,6 т.

В задании 2. 28 по 10 предприятиям региона изучается зависимость выработки на одного работника у (тыс. руб.) от ввода в действие новых основных фондов х1 (% от стоимости фондов на конец года) и от удельного веса рабочих высокой квалификации в общей численности рабочих х2 (%).

Таблица 8. 6

1

2

3

4

5

6

7

8

9

10

Y

7

7

7

7

8

9

9

9

9

10

X1

3,9

3,7

3,7

4

4

4,8

5,1

4,4

5,3

5,3

Х2

10

12

15

15

17

18

18

19

20

20

Таблица 8. 7

y (sh)

6,80 934

s2

0,26 602

S

0,163 102

X'0(X'X)-1X0

0,659 089

s (ysh)

0,132 414

t (0. 95. 7)

2,36

Sy0

0,210 085

t (b1)

7,637 219

t (b2)

4,958 974

Sb1

0,131 757

Sb2

0,26 697

Таблица 8. 8

Доверительный интервал для функции регрессии

6,496 844

< =

6,80 934

< =

7,121 836

Доверительный интервал для индивидуальных значений

6,313 539

< =

6,80 934

< =

7,305 141

Доверительный интервал для коэффициентов регрессии

0,695 311

< =

1,6 258

< =

1,317 205

Доверительный интервал для коэффициентов регрессии

0,69 384

< =

0,132 388

< =

0,195 392

Итак, средняя часовая производительность труда на одного рабочего от уровня механизации работ с надежностью 0,95 находиться в пределах от 6,49 до 7,12 т.

10. Мультиколлинеарность

При построении модели множественной регрессии часто приходится сталкиваться с явлением мультиколлинеарности.

Мультиколлинеарность — это коррелированность двух или нескольких объясняющих переменных в уравнении регрессии. В результате высококоррелированные объясняющие переменные действуют в одном направлении и имеют недостаточно независимое колебание, чтобы иметь возможность интерпретировать изолированное влияние каждой переменной.

Мультиколлинеарность особенно часто имеет место при анализе

макроэкономических данных. Получаемые при этом оценки МНК чаще всего оказываются статистически незначимыми и ненадежным, хотя значения коэффициентов RІ могут быть высокими.

Для выявления мультиколлинеарности обычно рассчитывают матрицу парных коэффициентов корреляции для всех объясняющих переменных. Если коэффициенты корреляции между отдельными объясняющими переменными достаточно велики (более 0,8−0,9), то, можно предположить, что они коллинеарные.

Более информативной является матрица частных коэффициентов корреляции, так как в ряде случаев парные коэффициенты корреляции могут давать совершенно неверные представлении о характере связи между двумя переменными. Например, между двумя переменными X и Y может быть высокий коэффициент парной корреляции не потому, что одна из них стимулирует изменение другой, а потому что обе эти переменные изменяются в одном направлении под влиянием других переменных. Поэтому появляется необходимость измерять действительную тесноту связи между двумя переменными, очищенную от влияния на рассматриваемую пару других факторов.

Коэффициент корреляционной связи между двумя переменными, xi и xj, очищенной от влияния других переменных называется частным коэффициентом корреляции. Обозначается Rij, 1,2…k.

На рисунке, показанном ниже можно увидеть корреляционную матрицу, с помощью которой можно увидеть какая связь существует между переменными.

Рис. 10.1 В таблица приведены коллениарности, ковариации, t — критерия Стюдента и F критерий Фишера

Рис. 10.2 Общие показания факторов производства

На рисунке, показанном выше можно увидеть и определить показания факторов, значимы ли они, по табличным данным критерия Стьюдента и Фишера Синедекора и определить коэффициент детерминации.

Рис. 10.3 Подбор факторов производства

На рисунке показаны значения факторов производства, с помощью которых будет составлено уравнение регрессии. По рисунку можно сказать, что эти факторы значимы и скорректированный коэффициент детерминации увеличился, т. е. эти два фактора подходят для составления уравнения.

Рис. 10.4 Подбор факторов производства

На рисунке показаны значения факторов производства, с помощью которых будет составлено уравнение регрессии. По рисунку можно сказать, что эти факторы значимы и скорректированный коэффициент детерминации увеличился в отличие от показаний (рис 10. 4), т. е. эти четыре фактора подходят для составления уравнения. Следующие факторы, которые были добавлены, не изменили значения коэффициента детерминации и были не значимы по табличным данным. Уравнение выглядит следующим образом:

?=-28,5+0. 2x1+1,8x4+0. 21x6

Рис 10.5. Ковариационная матрица

На рисунке, показанном выше можно увидеть корреляционную матрицу, с помощью которой можно увидеть какая связь существует между переменными.

Рис 10.6. Общие показания факторов производства

На рисунке, показанном выше можно увидеть и определить показания факторов, значимы ли они, по табличным данным критерия Стьюдента и Фишера Синедекора и определить коэффициент детерминации.

Рис 10.7. Подбор факторов производства

На рисунке показаны значения факторов производства, с помощью которых будет составлено уравнение регрессии. По рисунку можно сказать, что эти факторы значимы и скорректированный коэффициент детерминации увеличился в отличие от показаний (рис 10. 7), т. е. эти 2 фактора подходят для составления уравнения. Следующие факторы, которые были добавлены, не изменили значения коэффициента детерминации и были не значимы по табличным данным. Уравнение выглядит следующим образом:

?=-26. 4+2. 3×1+0. 27×2.

11. Линейные регрессионные модели с переменной структурой. Фиктивные переменные. Критерий Г. Чоу

До сих пор мы рассматривали регрессионную модель, в которой в качестве объясняющих переменных (регрессоров) выступали количественные переменные (производительность труда, себестоимость продукции, доход и т. п.). Однако на практике достаточно часто возникает необходимость исследования влияния качественных признаков, имеющих два или несколько уровней (градаций). К числу таких признаков можно отнести: пол (мужской, женский), образование (начальное, среднее, высшее), фактор сезонности (зима, весна, лето, осень) и т. п.

Качественные признаки могут существенно влиять на структуру линейных связей между переменными и приводить к скачкообразному изменению параметров регрессионной модели. В этом случае говорят об исследовании регрессионных моделей с переменной структурой или построении регрессионных моделей по неоднородным данным.

Например, нам надо изучить зависимость размера заработной платы Y работников не только от количественных факторов Х1, X2,., Хn, но и от качественного признака Z1 (например, фактора «пол работника»).

В принципе можно было получить оценки регрессионной модели

(11. 1)

для каждого уровня качественного признака (т. е. выборочное уравнение регрессии отдельно для работников-мужчин и отдельно -- для женщин), а затем изучать различия между ними.

Но есть и другой подход, позволяющий оценивать влияние значений количественных переменных и уровней качественных признаков с помощью одного уравнения регрессии. Этот подход связан с введением так называемых фиктивных (манекенных) переменных, или манекенов.

В качестве фиктивных переменных обычно используются дихотомические (бинарные, булевы) переменные, которые принимают всего два значения: «0» или «1» (например, значение такой переменной Z1 по фактору «пол»: Z1= 0 для работников-женщин и Z1=1 -- для мужчин).

В этом случае первоначальная регрессионная модель заработной платы изменится и примет вид:

(11. 2)

если i-й работник мужского пола

если i-й работник мужского пола

Таким образом, принимая модель, мы считаем, что средняя заработная плата у мужчин на выше, чем у женщин, при неизменных значениях других параметров модели. А проверяя гипотезу мы можем установить существенность влияния фактора «пол» на размер заработной платы работника.

В практике эконометриста нередки случаи, когда имеются две выборки пар значений зависимой и объясняющих переменных (хi, yi). Например, одна выборка пар значений переменных объемом п получена при одних условиях, а другая, объемом n2, -- при несколько измененных условиях. Необходимо выяснить, действительно ли две выборки однородны в регрессионном смысле? Другими словами, можно ли объединить две выборки в одну и рассматривать единую модель регрессии Y по X?

При достаточных объемах выборок можно было, например, построить интервальные оценки параметров регрессии по каждой из выборок и в случае пересечения соответствующих доверительных интервалов сделать вывод о единой модели регрессии. Возможны и другие подходы. В случае, если объем хотя бы одной из выборок незначителен, то возможности такого (и аналогичных) подходов резко сужаются из-за невозможности построения сколько-нибудь надежных оценок.

ПоказатьСвернуть
Заполнить форму текущей работой