Расчет доверительных интервалов, критериев согласия и применение МНК для различных числовых характеристик

Тип работы:
Курсовая
Предмет:
Физико-математические науки


Узнать стоимость

Детальная информация о работе

Выдержка из работы

Пояснительная записка к курсовой работе

по дисциплине:

Теория вероятностей и математическая статистика

На тему:

Расчет доверительных интервалов, критериев согласия и применение МНК для различных числовых характеристик

РЕФЕРАТ

Курсовая работа с. 25, рис. 1, источников 9,

интервальное оценивание, проверка гипотез, регрессионный анализ, метод мнк, пакет mathcad 15, система компьютерной алгебры.

Целью курсовой работы является закрепление теоретических знаний и получение практических навыков расчета доверительных интервалов и критериев согласия для различных числовых характеристик, а также восстановление сигнала из смеси — сигнал + шум, используя метод наименьших квадратов.

В результате были решены 4 задачи по расчету доверительных интервалов для различных числовых характеристик, а также получена универсальная программа для извлечения сигнала из смеси с помощью полинома 3 степени.

Разработанный программный продукт может быть использован для проведения регрессионного анализа.

Пояснительная записка выполнена в текстовом редакторе Microsoft Word 2007. В качестве рабочей среды был использован пакет Mathcad 15.

Содержание

Введение

1. Постановка задачи

2. Часть 1

2.1 Теоретический обзор

2.2 Расчеты

Вывод

3. Часть 2

3.1 Обзор

3.2 Расчеты

Вывод

Заключение

Список использованных источников

ВВЕДЕНИЕ

Целью данной курсовой работы является получение практических знаний в сфере точечного и интервального оценивания, проверки гипотез, а также освоение одного из методов расчета в регрессионном анализе.

Курсовая работа состоит из двух частей. Первая часть посвящена доверительному (интервальному) оцениванию параметров законов распределения (дисперсия, математическое ожидание), вторая часть — классическому регрессионному анализу (метод наименьших квадратов).

Каждая из частей содержит теоретический обзор, математические расчеты и выводы о проделанной работе.

1. ПОСТАНОВКА ЗАДАЧИ

В первой части данной работы нужно разъяснить, что такое точечное и интервальное оценивание, а так же закрепить полученные знания на примере оценивания таких параметров, как дисперсия, математическое ожидание и вероятность.

Во второй части необходимо рассмотреть такое понятие, как регрессионный анализ, а именно метод наименьших квадратов (МНК). Также, во второй части нужно закрепить полученные знания на практике. Задача состоит в извлечении истинного тренда.

Часть 1

Задача 1

Случайная величина о имеет нормальное распределение с неизвестными математическим ожиданием, а и дисперсией.

По выборке (,, …,) объёма N = 27 вычислены оценки

,

неизвестных параметров

Найти доверительный интервал для математического ожидания, а при доверительной вероятности = 0,9.

Задача 2

В условиях задачи № 1 найти доверительный интервал для дисперсии D при доверительной вероятности

= 0,99. (N=25,)

Задача 3

В серии из N = 100 выстрелов по мишени наблюдалось m = 18 попаданий. Найти доверительный интервал для вероятности p попадания в мишень при доверительной вероятности = 0, 95.

Задача 4

Дана выборка из N =100 значений.

Требуется:

а) найти статистический ряд;

б) построить гистограмму и полигон частот;

в) найти оценки для математического ожидания и дисперсии;

г) считая распределение генеральной совокупности нормальным,

найти границы доверительного интервала для математического ожидания и дисперсии при надёжности = 0,95;

д) проверить с помощью критерия гипотезу о том, что выборка извлечена из нормальной генеральной совокупности с математическим ожиданием и средним квадратическим отклонением равными соответственно статистическому среднему и статистическому среднему квадратичному отклонению. Уровень значимости принять равным = 0,05.

21. 18

21. 32

21. 77

21. 47

21. 68

21. 71

21. 51

21. 36

21. 47

21. 34

63

65

87

57

24

40

34

31

53

41

59

24

67

13

35

67

42

44

72

57

40

57

87

28

52

48

15

60

13

82

89

44

40

62

44

38

48

36

83

35

38

17

56

86

50

57

28

56

65

60

69

53

71

25

58

58

44

33

31

21

22

32

69

75

33

60

40

45

76

58

36

50

78

47

77

63

35

34

55

41

60

42

46

64

41

26

47

66

36

49

Часть 2

В Mathcad (вне зависимости от версии) имеются датчики (генераторы) случайных чисел с разнообразными законами распределения. В частности, rnorm (m, м, у) возвращает вектор m случайных чисел, имеющих нормальное распределение с математическим ожиданием ми среднеквадратическим отклонением у. Будем использовать rnorm (m, 0,1) -- датчик нормальных случайных чисел с нулевым математическим ожиданием и единичной дисперсий.

Истинный тренд задан функцией:

Сигнал + шум имеет вид:

2. ЧАСТЬ 1

2.1 Теоретический обзор

(Оценка параметров, точечное и интервальное оценивание)

Одна из основных задач математической статистики — оценивание по выборочным данным характеристик генеральной совокупности, таких, как закон распределения, математическое ожидание, дисперсия и другое.

Существует два вида оценок параметров — точечные и интервальные.

В результате отдельных измерений мы получаем некоторые строго фиксированные результаты (точки), измеряемой величины. Их значения являются случайными с некоторым распределением. Случайная погрешность измерения образуется под влиянием большого числа факторов, сопутствующих процессу измерения.

Важно зафиксировать отклонения и при использовании полученных результатов, применять подход, который будет учитывать такие флуктуации. Подходящим решением является введение понятий доверительного интервала и доверительной вероятности.

Для начала немного остановимся на точечном оценивании

1. Точечное оценивание — это вид статистического оценивания, при котором значение неизвестного параметра приближается отдельным числом. То есть, необходимо указать функцию от выборки. Например, среднее арифметическое:

,

Где — среднее арифметическое (оценка для математического ожидания),

— выборочные значения,

N — объем выборки.

Существует несколько методов получения точечных оценок: 1. Метод максимального правдоподобия;

Метод моментов

Точеные оценки обладают тремя важными свойствами:

1) Смещенность. Оценка параметра? называется несмещенной, если ее математическое ожидание равно истинному значению оцениваемого параметра.

a () =)d= ?

2) Состоятельность. Одно из самых очевидных требований к точечной оценке заключается в том, чтобы можно было ожидать достаточно хорошего приближения к истинному значению параметра при достаточно больших значениях объема выборки N. Это означает, что

(N)? (при N).

3) Эффективность. Та оценка, у которой дисперсия минимальна, называется эффективной оценкой.

В данной работе будет более внимательно рассмотрено интервальное оценивание.

2. Интервальное оценивание -- оценка, представляемая интервалом значений, внутри которого, с задаваемой исследователем вероятностью, находится истинное значение оцениваемого параметра.

Главную роль в таком оценивании играет доверительный интервал — это интервал, построенный с помощью случайной выборки из распределения с неизвестным параметром, такой, что, он содержит истинный параметр с заданной вероятностью. Доверительные интервалы используются, когда нам нужны надежные границы, в которые попадает значение оцениваемого параметра.

Для нахождения интервальной оценки необходимо задать доверительную вероятность — вероятность того, что истинное значение лежит внутри промежутка. Длина доверительного интервала, характеризующая точность интервальной оценки, зависит от объема выборки N и надежности.

Например, интервальная оценка для математического ожидания (2,6), при доверительной вероятности p=0,975. Это означает, что математическое ожидание лежит в пределах от 2 до 6 с вероятностью 0,975, следовательно, вероятность того, что математическое ожидания меньше 2 или больше 6 не превышает 0,025. Очевидно, что чем выше доверительная вероятность, тем выше точность оценки, но шире доверительный интервал.

Отсюда следует — для непрерывных случайных величин вероятность того, что точечная оценка (ширина доверительного интервала равна нулю) совпадает с любым заданным значением или оцениваемым параметром равна нулю. Таким образом, точечная оценка имеет смысл лишь тогда, когда приведена характеристика рассеяния этой оценки (дисперсия). В противном случае, она может служить лишь в качестве исходных данных для построения интервальной оценки.

При увеличении величины N длина доверительного интервала уменьшается, а с приближением надежности к единице — увеличивается.

Чаще всего для определения доверительного интервала заранее находят число = 1-, где 0< < 1, называемое уровнем значимости.

В дальнейшем для расчетов нам понадобится такое понятия как квантиль распределения.

Квантиль — значение, которое заданная случайная величина не превышает с фиксированной вероятностью. Квантилью уровня P, называется решение уравнения, где P и F заданы.

Рис. 1 Квантиль уровня Р

Квантиль P — значение случайной величины, при котором функция распределения равна P.

В Данной работе будут использованы квантили распределения Стьюдента и хи-квадрат Пирсона.

2.2 Расчеты

Задача 1

Дано:

N = 27

,

= 0,9.

Найти: Доверительный интервал для математического ожидания при доверительной вероятности

Решение:

В данном случае для построения доверительного интервала мы используем следующую математическую статистику:. А также будем использовать квантиль распределения Стьюдента.

Нужно оценить доверительный интервал, то есть и.

,

Из таблицы квантилей распределения Стьюдента находим:

=1. 706

Ответ:

Задача 2

Дано:

= 0,99

N=25

Найти: Доверительный интервал для дисперсии D

Решение:

Для решения данной задачи используем следующие выражения:

и

А также будем использовать квантиль распределения хи-квадрат.

доверительный интервал дисперсия регрессионный

,

Из таблицы квантилей распределения хи-квадрат находим:

26. 32 < D< 121. 3

Ответ: 26. 32 < D< 121. 3

Задача 3

Дано:

N = 100

m = 18

= 0, 95

Найти: Доверительный интервал для вероятности p попадания в мишень.

Решение:

Так как N> 50, то расчет упрощён, и чтобы найти доверительный интервал для вероятности используем следующую формулу:

, где h=

— квантиль нормального распределения N (0,1) при данных значениях.

Ответ:

Задача 4

Решение:

Наша выборка

Находим максимальное и минимальное значения выборки:

Ширина подынтервала равна:

Строим гистограмму и полигон частот:

Формулы нахождения середины подынтервалов и граничных значений:

Находим оценки для математического ожидания и дисперсии по специальным формулам:

1.

Оценка для математического ожидания:

2.

Оценка для дисперсии:

Границы для математического ожидания и дисперсии:

1.

Из таблицы квантилей распределения Стьюдента находим:

=1,980

Используя формулу, которая была приведена в задаче 1, для интервальной оценки математического ожидания, получим:

Из этого следует, что математическое ожидание лежит в промежутке от 42,242 до 49,878

2.

Из таблицы квантилей распределения хи-квадрат находим:

Используя формулу, которая была приведена в задаче 2, для интервальной оценки дисперсии, получим:

Из этого следует, что дисперсия лежит в промежутке от 284,093 до 496,2.

Теперь проверяем гипотезу о том, что выборка извлечена из нормальной генеральной совокупности с математическим ожиданием и средним квадратическим отклонением равными соответственно статистическому среднему и статистическому среднему квадратичному отклонению.

Воспользуемся распределением Гаусса:

Это означает, что закон распределения подобран неправильно.

ВЫВОДЫ:

В ходе работы над первой частью курсовой работы был написан подробный теоретический обзор по теме — точечное и интервальное оценивание. Также были решены задачи по данной теме. Получен опыт нахождения статистического ряда, построения гистограммы и полигона частот. После проверки гипотезы было выяснено, что теоретическое меньше, чем практическое. Это означает, что нормальный закон распределения для данной совокупности не подходит.

3. ЧАСТЬ 2

3.1 Теоретический обзор

Регрессионный анализ, метод наименьших квадратов

В данной части будет рассмотрен регрессионный анализ, а именно метод наименьших квадратов (НМК). Но для начала нужно выяснить, что такое регрессия.

Регрессия — возвращение к более раннему состоянию или образу действия. Этот термин был введен английским психологом и антропологом Ф. Гальтоном, который он получил из конкретного примера. Обрабатывая статистические данные в связи с вопросом о наследственности роста, Ф. Гальтон нашел, что если отцы отклоняются от среднего роста всех отцов на Х дюймов, то их сыновья отклоняются от среднего роста всех сыновей меньше, чем на Х дюймов. Выявленная тенденция была названа «регрессией к среднему состоянию». После работ Карла Пирсона этот термин стали использовать и в статистике.

Из этого следует определение понятия регрессионный анализ — метод моделирования измеряемых данных и исследования их свойств.

В статистике различают регрессию с участием одной свободной переменной и с несколькими свободными переменными -- одномерную и многомерную регрессию. Также существует деление на линейную и нелинейную регрессию. Если регрессионная модель не является линейной комбинацией функций от параметров, то говорят о нелинейной регрессии. При этом модель может быть произвольной суперпозицией функций из некоторого набора. Нелинейными моделями являются, экспоненциальные, тригонометрические и другие.

Метод наименьших квадратов (МНК) — это метод оценки неизвестных случайных величин по результатам измерений, содержащим случайные ошибки. В нашем случае дана смесь — сигнал + шум. Наша задача состоит в извлечении истинного тренда.

При помощи метода наименьших квадратов вычисляются коэффициенты аппроксимирующего многочлена. Эта задача решается следующим образом.

Пусть на некотором отрезке в точках … нам известны значения… некоторой функции f (x).

Требуется определить параметры многочлена вида

, где k< N

такого, что сумма квадратов отклонений значений y от значений функции f (y) в заданных точках x была минимальной, то есть

.

Геометрический смысл заключается в том, что график найденного многочлена y = f (x) будет проходить как можно ближе к каждой из заданных точек.

Далее нужно решить следующую систему уравнений:

Запишем систему уравнений в матричном виде:

Решением является следующее выражение:

Несмещенная оценка для дисперсии ошибок наблюдений равна:

Чем величина S меньше, тем точнее описывается Y.

N — Объем выборки

k-Число параметров тренда —

считается по формуле:

Доверительный интервал для коэффициентов тренда считается так:

J = 0. 3

— квантиль распределения Стьюдента

— j-ый диагональный элемент матрицы

3.2 Расчеты

Мы будем использовать полином третьей степени, то есть коэффициентов будет 4.

Высчитываем коэффициенты по основной формуле:

График истинного тренда и его оценки:

Стандартная ошибка регрессии равна:

Доверительный интервал для коэффициентов тренда:

Построим график модуля отклонения истинного тренда от его оценки.

Воспользовавшись функцией — трассировка, программы Mathcad, найдем максимум равный: х=0,37.

Выводы:

В ходе работы была выполнена задача по нахождению истинного тренда из смеси сигнал + шум. За основу работы взят метод наименьших квадратов. Для оптимальных расчетов был использован полином третьей степени, что привело к получению расчета четырех коэффициентов модели. Были рассчитаны не только сами коэффициенты, но и их доверительные интервалы. На построенном графике представлены два тренда — истинный и его оценка. Имеются небольшие отклонения, это связано с тем, что было взято относительно небольшое количество коэффициентов.

В качестве дополнительного задания был построен график зависимости модуля отклонения истинного тренда от его оценки.

ЗАКЛЮЧЕНИЕ

В ходе выполнения данной курсовой работы был получен опыт нахождения точечной оценки и доверительного интервала для таких величин, как математическое ожидание и дисперсия, закреплены навыки построения гистограммы и полигона частот для некоторой выборки значений.

Так же был освоен метод наименьших квадратов (МНК), как один из способов в регрессионном анализе для извлечения истинного тренда из смеси сигнал + шум.

Полученные в ходе работы навыки можно использовать не только в учебной деятельности, но и в повседневной жизни.

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

1. Вентцель Е. С. Теория вероятностей: Учебник для студ. вузов, 2005. — 576 с.

2. Беляев Ю. К., Носко В. П. Основные понятия и задачи математической статистики. — М.: Изд-во МГУ, ЧеРо, 1998. с. 114

3. Чернова Н. И. Математическая статистика: Учеб. пособие / Новосиб. гос. ун-т. Новосибирск, 2007. 148 с.

4. Симонов А. А. Выск Н.Д. Проверка статистических гипотез: Методические указания и варианты курсовых заданий. Москва, 2005, 46 с.

5. Крамер Н. Ш. Теория вероятностей и математическая статистика: Учебник для вузов. — М.: ЮНИТИ-ДАНА, 2002. С. 140−144

6. Шашков В. Б. Прикладной регрессионный анализ. Многофакторная регрессия: Учебное пособие. — Оренбург: ГОУ ВПО ОГУ, 2003. — 363 с.

7. Себер Дж. Линейный регрессионный анализ, 1955. — 456с.

8. Шор. Я. Б. Статистические методы анализа и контроля качества и надежности. М.: Госэнергоиздат, 1962, с. 552, С. 92−98.

9. Большев Л. Н., Смирнов Н. В. Таблицы математической статистики. М.: Наука, 1965.

ПоказатьСвернуть
Заполнить форму текущей работой