Ковариация и корреляция

Тип работы:
Контрольная
Предмет:
Экономические науки


Узнать стоимость

Детальная информация о работе

Выдержка из работы

Федеральное государственное образовательное бюджетное учреждение

высшего профессионального образования

«Финансовый университет при Правительстве Российской Федерации»

(Финуниверситет)

Смоленский филиал Финуниверситета

Кафедра Математики и информатики

КОНТРОЛЬНАЯ РАБОТА № 1

по дисциплине «Эконометрика»

Смоленск 2014

1. Теоретическая часть

Ковариация (корреляционный момент, ковариационный момент) в теории вероятности в математической статистике мера линейной зависимости двух случайных величин.

Значительная корреляция между двумя случайными величинами всегда является свидетельством существования некоторой статистической связи в данной выборке, но эта связь не обязательно должна наблюдаться для другой выборки и иметь причинно-следственный характер. Часто заманчивая простота корреляционного исследования подталкивает исследователя делать ложные интуитивные выводы о наличии причинно-следственной связи между парами признаков, в то время как коэффициенты корреляции устанавливают лишь статистические взаимосвязи. Например, рассматривая пожары в конкретном городе, можно выявить весьма высокую корреляцию между ущербом, который нанёс пожар, и количеством пожарных, участвовавших в ликвидации пожара, причём эта корреляция будет положительной. Из этого, однако, не следует вывод «увеличение количества пожарных приводит к увеличению причинённого ущерба», и тем более не будет успешной попытка минимизировать ущерб от пожаров путём ликвидации пожарных бригад. В то же время, отсутствие корреляции между двумя величинами ещё не значит, что между ними нет никакой связи. Например, зависимость может иметь сложный нелинейный характер, который корреляция не выявляет.

Некоторые виды коэффициентов корреляции могут быть положительными или отрицательными. В первом случае предполагается, что мы можем определить только наличие или отсутствие связи, а во втором -- также и её направление. Если предполагается, что на значениях переменных задано отношение строгого порядка, то отрицательная корреляция -- корреляция, при которой увеличение одной переменной связано с уменьшением другой. При этом коэффициент корреляции будет отрицательным. Положительная корреляция в таких условиях -- это такая связь, при которой увеличение одной переменной связано с увеличением другой переменной. Возможна также ситуация отсутствия статистической взаимосвязи -- например, для независимых случайных величин.

Коэффициентом ковариации называется выражение:

cov (X, Y)=M[(X-MX)(Y-MY)]=M[XY-XMY-YMX+MX*MY]=MXY-2MX*MY+MX*MY=MXY-MX*MY

Если случайные величины XY независимы, то их коэффициент ковариации равен нулю, обратное в общем случае неверно.

Математической мерой корреляции двух случайных величин служит корреляционное отношение либо коэффициент корреляции R. В случае если изменение одной случайной величины не ведёт к закономерному изменению другой случайной величины, но приводит к изменению другой статистической характеристики данной случайной величины, то подобная связь не считается корреляционной, хотя и является статистической. Впервые в научный оборот термин корреляция ввёл французский палеонтолог Жорж Кювье в XVIII веке. Он разработал «закон корреляции» частей и органов живых существ, с помощью которого можно восстановить облик ископаемого животного, имея в распоряжении лишь часть его останков. В статистике слово «корреляция» первым стал использовать английский биолог и статистик Фрэнсис Гальтон в конце XIX века.

Коэффициентом корреляции случайных величин X и Y называется число:

X*=(X-MX)/?x Y*=(Y-MY)/?y

D (X±Y)=M[X±Y-M (X±Y)]2=M[X±Y-MX?MY]2=M[(X-MX)±(Y-MY)]2=M[(M-MX)2±2(X-MX)(Y-MY)+(Y-MY)2]=M (X_MX)2±2M (X-MX)(Y-MY)+M (Y-MY)2=DX±cov (XY)+DY

Следствие:

Если X и Y независимы, то коэффициент ковариации равен 0 и следовательно

D (X±Y)=DX±DY

Если имеются две выборки x=(x1,…, xI) и y=(y1,…, yI), то можно рассчитать выборочные значения ковариации и корреляции. Ковариация c рассчитывается по формуле

,

а коэффициент корреляции r по формуле

.

В более общем случае, когда имеется матрица данных X, размерностью I наблюдений на J переменных, то выборочная матрица ковариаций CI между наблюдениями рассчитывается так —

CI=XXt.

Выборочная матрица ковариаций CJ между переменными так —

CJ=XtX.

Для вычисления парных ковариаций в Excel используют следующие стандартные функции: COVAR (КОВАР), CORREL (КОРРЕЛ).

Синтаксис COVAR (x, y)

Возвращает выборочную ковариацию между выборками x и y. CORREL (x, y)

Возвращает выборочный коэффициент корреляции между выборками x и y.

ковариация корреляция регрессия

2. Практическая часть

2.1 Задача 1. Построение модели парной регрессии

1. Рассчитайте матрицу парных коэффициентов корреляции; оцените статистическую значимость коэффициентов корреляции.

2. Постройте поле корреляции результативного признака и наиболее тесно связанного с ним фактора.

3. Рассчитайте параметры линейной парной регрессии от ведущего фактора.

4. Оцените качество уравнения парной регрессии через коэффициент детерминации, среднюю ошибку аппроксимации и F-критерий Фишера.

5. Осуществите прогнозирование среднего значения показателя при уровне значимости, если прогнозное значения фактора составит 80% от его максимального значения. Представьте графически: фактические и модельные значения, точки прогноза.

Вариант 4. В таблице представлены данные о цене технического средства (ТС), доходе, возрасте, стаже работы и т. д. 24 сотрудников некоторого предприятия.

Таблица 1

№ п.п.

Y Цена ТС

X1 Доход

X2 Возраст

X3 Уровень образ.

X4 Стаж

X5 Пол

1

36. 20

72. 00

55. 00

0. 00

23. 00

0. 00

2

76. 90

153. 00

56. 00

0. 00

35. 00

1. 00

3

13. 70

28. 00

28. 00

1. 00

4. 00

0. 00

4

12. 50

26. 00

24. 00

1. 00

0. 00

1. 00

5

11. 30

23. 00

25. 00

0. 00

5. 00

1. 00

6

37. 20

76. 00

45. 00

0. 00

13. 00

1. 00

7

19. 80

40. 00

42. 00

1. 00

10. 00

1. 00

8

28. 20

57. 00

35. 00

0. 00

1. 00

0. 00

9

12. 20

24. 00

46. 00

0. 00

11. 00

0. 00

10

46. 10

89. 00

34. 00

1. 00

12. 00

1. 00

11

35. 50

72. 00

55. 00

1. 00

2. 00

0. 00

12

11. 80

24. 00

28. 00

1. 00

4. 00

1. 00

13

21. 30

40. 00

31. 00

1. 00

0. 00

0. 00

14

68. 90

137. 00

42. 00

1. 00

3. 00

0. 00

15

34. 10

70. 00

35. 00

1. 00

9. 00

1. 00

16

78. 90

159. 00

52. 00

1. 00

16. 00

1. 00

17

18. 60

37. 00

21. 00

1. 00

0. 00

1. 00

18

13. 70

28. 00

32. 00

0. 00

2. 00

0. 00

19

54. 70

109. 00

42. 00

1. 00

20. 00

0. 00

20

58. 30

117. 00

40. 00

0. 00

19. 00

0. 00

21

11. 80

23. 00

30. 00

0. 00

3. 00

1. 00

22

9. 50

21. 00

48. 00

1. 00

2. 00

1. 00

23

8. 50

17. 00

39. 00

1. 00

2. 00

1. 00

24

16. 60

34. 00

42. 00

0. 00

13. 00

0. 00

Обозначения:

в графе Уровень образования: 1 — высшее и неоконченное высшее, 0 — среднее, среднее специальное, ТС — транспортное средство, в графе Пол: 1 — мужской, 0 — женский.

Решение:

Работаем в программе Microsoft Office Excel. Вносим данные в Excel.

Рис. 1

Матрицу парных коэффициентов корреляции можно рассчитать, используя инструмент Анализа данных Корреляция. Для этого:

1. В главном меню выбираем Сервис -> Анализ данных -> Корреляция

2. Заполняем диалоговое окно ввода параметров, в качестве входного интервала указываем весь диапазон представленных данных.

Рис. 2

Коэффициент парной корреляции между ценой ТС и доходом работника имеет положительную величину, следовательно, между этими признаками прямая связь, т. е. при увеличении дохода, цена ТС тоже увеличивается. Значение коэффициента велико по абсолютной величине, следовательно, между ценой ТС и доходом работника сильная связь.

Коэффициент парной корреляции между ценой ТС и возрастом работника также имеет положительную величину, следовательно, между этими признаками прямая связь. То есть, чем выше возраст работника, тем больше цена приобретаемого ТС.

Коэффициент парной корреляции между ценой приобретаемого ТС и уровнем образования также имеет положительную величину, следовательно, между этими признаками прямая связь. То есть, чем выше уровень образования работника, тем больше цена приобретаемого ТС.

Коэффициент парной корреляции между ценой приобретаемого ТС и стажем работникатакже имеет положительную величину, следовательно, между этими признаками прямая связь. То есть, чем больше стаж работника, тем больше цена приобретаемого ТС.

Коэффициент парной корреляции между ценой приобретаемого ТС и полом работника имеет отрицательную величину, следовательно, между этими признаками обратная связь.

Итак, по результатам анализа матрицы парных коэффициентов корреляции в качестве ведущего фактора для построения однофакторной регрессии должен быть выбран фактор X1 (доход).

С помощью инструмента анализа данных Регрессия, помимо результатов регрессионной статистики, дисперсионного анализа можно получить остатки и графики подбора линии регрессии, остатков и нормальной вероятности.

1. Для построения модели парной регрессии в главном меню выберем Сервис> Анализ данных-> Регрессия

2. Заполним диалоговое окно ввода данных и параметров вывода

Входной интервал Y — диапазон, содержащий данные результативного признака.

Входной интервал X — диапазон, содержащий данные факторов независимого признака (так как модель однофакторная, то построим её на основе фактора X1)

Рис. 3

Рис. 4

На основании этого можно записать уравнение линейной парной регрессии:

y=0. 426 386+1. 99 0719x1

Оценим качество уравнения парной регрессии через коэффициент детерминации и F-критерий Фишера.

R2=0. 99, следовательно 99% вариации цены ТС зависит от дохода работника. Значение коэффициента детерминации близко к 1, следовательно, качество модели высокое.

Найдем F табличное.

Рис. 5

29 963,9073951677? 4,300 949 502

F расчётное? F табличного, следовательно, уравнение регрессии статистически значимое и оно может быть использовано для анализа и прогнозирования.

Определим x прогнозное:

xпрогн=0. 8*x1max

y=0. 426 386+1. 99 0719x1

Определим y прогнозное:

yпрогн=0,426 386+1,990 719*0,8*159=253,645 843

2.2 Задача 2. Построение модели множественной регрессии

1. Осуществите анализ матрицы парных корреляций на предмет мультиколлинеарности.

2. Используя пошаговую множественную регрессию (метод исключения или метод включения), постройте модель множественной регрессии. Дайте экономическую интерпретацию коэффициентов модели регрессии.

3. Осуществите проверку выполнения предпосылок МНК.

4. Оцените качество построенной модели. Улучшилось ли качество модели по сравнению с однофакторной моделью? Дайте оценку влияния значимых факторов на результат с помощью коэффициентов эластичности, — и — коэффициентов.

5. Постройте (по лучшей модели) прогноз результативного признака, если предположить, что значения факторных признаков увеличатся относительно средних значений на 10%.

Вариант 4. В таблице представлены данные о цене технического средства (ТС), доходе, возрасте, стаже работы и т. д. 24 сотрудников некоторого предприятия.

Таблица 2

№ п.п.

Y Цена ТС

X1 Доход

X2 Возраст

X3 Уровень образ.

X4 Стаж

X5 Пол

1

36. 20

72. 00

55. 00

0. 00

23. 00

0. 00

2

76. 90

153. 00

56. 00

0. 00

35. 00

1. 00

3

13. 70

28. 00

28. 00

1. 00

4. 00

0. 00

4

12. 50

26. 00

24. 00

1. 00

0. 00

1. 00

5

11. 30

23. 00

25. 00

0. 00

5. 00

1. 00

6

37. 20

76. 00

45. 00

0. 00

13. 00

1. 00

7

19. 80

40. 00

42. 00

1. 00

10. 00

1. 00

8

28. 20

57. 00

35. 00

0. 00

1. 00

0. 00

9

12. 20

24. 00

46. 00

0. 00

11. 00

0. 00

10

46. 10

89. 00

34. 00

1. 00

12. 00

1. 00

11

35. 50

72. 00

55. 00

1. 00

2. 00

0. 00

12

11. 80

24. 00

28. 00

1. 00

4. 00

1. 00

13

21. 30

40. 00

31. 00

1. 00

0. 00

0. 00

14

68. 90

137. 00

42. 00

1. 00

3. 00

0. 00

15

34. 10

70. 00

35. 00

1. 00

9. 00

1. 00

16

78. 90

159. 00

52. 00

1. 00

16. 00

1. 00

17

18. 60

37. 00

21. 00

1. 00

0. 00

1. 00

18

13. 70

28. 00

32. 00

0. 00

2. 00

0. 00

19

54. 70

109. 00

42. 00

1. 00

20. 00

0. 00

20

58. 30

117. 00

40. 00

0. 00

19. 00

0. 00

21

11. 80

23. 00

30. 00

0. 00

3. 00

1. 00

22

9. 50

21. 00

48. 00

1. 00

2. 00

1. 00

23

8. 50

17. 00

39. 00

1. 00

2. 00

1. 00

24

16. 60

34. 00

42. 00

0. 00

13. 00

0. 00

Обозначения:

в графе Уровень образования: 1 — высшее и неоконченное высшее, 0 — среднее, среднее специальное, ТС — транспортное средство, в графе Пол: 1 — мужской, 0 — женский.

Решение:

Работаем в программе Microsoft Office Excel. Вносим данные в Excel.

Рис. 6

Матрицу парных коэффициентов корреляции можно рассчитать, используя инструмент Анализа данных Корреляция. Для этого:

1. В главном меню выбираем Сервис -> Анализ данных -> Корреляция

2. Заполняем диалоговое окно ввода параметров, в качестве входного интервала указываем весь диапазон представленных данных.

Рис. 7

Для выявления мультиколлинеарности анализируем часть матрицы, за исключением первого столбца. В анализируемой области нет значения по модулю большего 0,8. Следовательно, мультиколлинеарность отсутствует.

Поэтому мы можем использовать все факторные признаки в модели регрессии. Построим модель множественной регрессии

Рис. 8

y= 0,501x1-0,028x2+ 0,227x3+ 0,027x4— 0,322x5

Дадим экономическую интерпретацию коэффициентов модели регрессии.

Если доход работника увеличится на 1 условную единицу, то цена приобретаемого ТС увеличится на 0,501 условную единицу.

Если рассматривать в целом, то чем ниже возраст на 1 условную единицу, тем выше цена приобретаемого ТС примерно на 0,028 условных единиц.

Если уровень образования увеличится на 1 условную единицу, то цена приобретаемого ТС увеличится на 0,227 условных единиц.

Если стаж увеличится на 1 условную единицу, то цена приобретаемого ТС увеличится на 0,027 условных единиц.

В зависимости от пола работника, цена приобретаемого ТС уменьшится (увеличится) на 0,322 условных единиц.

Оценим качество уравнения парной регрессии через коэффициент детерминации и F-критерий Фишера.

R2=0. 99, следовательно 99% вариации цены ТС зависит от дохода работника. Значение коэффициента детерминации близко к 1, следовательно, качество модели высокое.

Найдем F табличное.

Рис. 9

5838,597? 2,772 853

F расчётное? F табличного, следовательно, уравнение регрессии статистически значимое и оно может быть использовано для анализа и прогнозирования.

Рис. 10

Нашли t табличное, для сравнения с t расчетным. Проанализировав значения, можно заметить, что всего лишь одно значение t расчетного больше t табличного. Значит, нам важен только показатель дохода.

Лучшей признается множественная модель регрессии, так как коэффициент детерминации в ней больше.

0,999 691 849 275 448? 0,999 633 093 699 319

Рассчитаем прогнозные значения факторных признаков:

xпрогн = xn*1,1

xпрогн1 = 61,5*1,1=67,65

xпрогн2 =38,625*1,1=42,4875

xпрогн3 =0,583*1,1=0,6413

xпрогн4 =8,708*1,1=9,5788

xпрогн5 =0,547*1,1=0,6017

Литература

1. Гармаш А. Н., Орлова И. В. Математические методы в управлении. Учеб. пособие. — М.: Вузовский учебник: ИНФРА-М, 2012. — 272 с.

2. Дайитбегов Д. М. Компьютерные технологии анализа данных в эконометрике. — М.: ИНФРА-М — Вузовский учебник, 2008. -578 с.

3. Орлова И. В., Половников В. А. Экономико-математические методы и модели: компьютерное моделирование: Учеб. пособие. — 3-е изд., перераб. и доп. — М.: Вузовский учебник: ИНФРА-М, 2011. — 389 с.

4. Орлова И. В. Экономико-математическое моделирование: Практическое пособие по решению задач. — 2-е изд., испр. и доп. — М.: Вузовский учебник: ИНФРА-М, 2012. — 140 с.

5. Практикум по эконометрике: Учеб. пособие /Под ред. И. И. Елисеевой — М.: Финансы и статистика, 2012.

6. Экономико-математические методы и прикладные модели: учебник для бакалавров / В. В. Федосеев, А. Н. Гармаш, И. В. Орлова; под ред. В. В. Федосеева. — З-е изд., перераб. и под. — М.: Издательство Юрайт, 2012. — 328 с. — Серия: Бакалавр. Базовый курс.

7. Эконометрика: Учебник/Под ред. И. И. Елисеевой — М.: Финансы и статистика, 2012.

ПоказатьСвернуть
Заполнить форму текущей работой