Метод простейшего интервального оценивания для решения линейного моделирования с простым расчетом интервала

Тип работы:
Курсовая
Предмет:
Коммуникации, связь, цифровые приборы и радиоэлектроника


Узнать стоимость

Детальная информация о работе

Выдержка из работы

Государственное образовательное учреждение высшего профессионального образования

«САНКТ-ПЕТЕРБУРГСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ

АЭРОКОСМИЧЕСКОГО ПРИБОРОСТРОЕНИЯ"

КАФЕДРА ПРИКЛАДНЫХ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ В ЭКОНОМИКЕ И МЕНЕДЖМЕНТЕ

Курсовая работа на тему

Метод простейшего интервального оценивания для решения линейного моделирования с простым расчетом интервала

по дисциплине: Интеллектуальный анализ данных

Санкт-Петербург

2012

Содержание

Введение

1. Метод простого интервального оценивания

1.1 Ограниченность погрешности измерения. ПИО-оценка

1.2 Описание метода ПИО

2. Классификация статуса объектов

2.1 Характеристики статуса объектов

2.2 Диаграмма статуса объектов

2.3 Классификация новых объектов

2.4 Программная реализация ПИО метода

3. Теоретические и практические аспекты применения метода простейшего интервального оценивания

3.1 Применение проекционных методов совместно с методом ПИО на примере анализа многоканальных акустических измерений. Наглядное представление многофакторных данных

3.2 Исследование выбросов

Заключение

Список используемой литературы

Введение

Одной из старейших и вечно актуальных задач, которая активно применяется при исследовании различный физических и химических явлений является описание экспериментальных данных, построение модели и предсказание новых значений.

Работа посвящена разработке метода простейшего интервального оценивания для решения линейного моделирования с простым расчетным интервалом, применяемого при решении важных теоритических и практических задач интерпретации результатов многоканальных экспериментов. Подобный подход позволяет обрабатывать сложные наборы экспериментальных данных, пронизанных внутренними связями.

Простейшим интервальным оцениванием (ПИО) понимается метод линейного моделирования и построения интервальных оценок прогноза в многомерной калибровке. ПИО дает результат в удобном интервальном виде, учитывающем все имеющиеся неопределенности: ошибки измерения предикторов и откликов, погрешности билинейного моделирования, и т. п. Кроме того, метод ПИО предоставляет новые возможности для построения содержательной классификации влиятельности объектов.

ПИО метод основывается на идеи Л. Канторовича высказанной в 1962 году, а именно — при анализе данных, заменить минимизацию суммы квадрантов отклонений на систему неравенств, которая решается с помощью методов линейного программирования. В этом случае результат прогноза сразу имеет вид интервала, поэтому этот метод называется простым интервальным оцениванием (ПИО). В свое время эта идея не получила должного признания и развития, что было связано, по-видимому, с недостаточным быстродействием компьютеров. В 80-х-90-х гг., используя эту идею, был выполнен ряд важных прикладных работ, а частности получены интересные результаты по анализу информационной ценности кинетических измерений, а так же работы в области аналитической химии. Кроме того проводились исследования, направленные на построение интервальной оценки параметров моделей (метод центра неопределенностей), что оказалось малоплодотворным. Итоги этих исследований были подведены в монографии, где подробно рассматривается основная задача решаемая авторами. Это — задача интервальной оценки параметров моделей, погружение области возможных значений этих параметров в гиперкуб, параллелепипед, эллипсоид, и т. п.

Такая постановка задачи представляется не плодотворной и малоперспективной, что и было подтверждено практикой — за последние 10 лет новые работы в этом направлении не замечены. В тоже время, идея Канторовича может дать интересные результаты, если рассматривать многомерную калибровку (ММК) как задачу построение интервального прогноза отклика у. В этом случае удается решить две равно важны практические задачи. Во-первых, установить область неопределенности для прогноза искомого отклика, т. е. оценить точность построенной калибровки, индивидуально для каждого объекта. Во — вторых, используя подход ПИО, можно построить систему классификации объектов, т. е. установить индивидуальные особенности каждого объекта, определенные по его взаимоотношениям, как с моделью, так и с другими объектами. Общеизвестными примерами такой классификации являются такие понятия как выброс (объект, резко выделяющийся из общей закономерности) или экспериментальный объект (находящийся в периферийной области модели и оказывающий значительное влияние на ее построение). не смотря на широкое употребление этих понятий в различных исследованиях, не существует их общепризнанных определений и методов обнаружения. Метод ПИО может восполнить этот пробел.

Однако ПИО метод значительно отличается от традиционного, привычного регрессионного похода, применяемого в задачах многомерной калибровки.

Цель работы состоит в разработке теоритических и прикладных аспектов интервального анализа результатов экспериментов. В том числе: построение интервальных моделей линейной калибровки, оценка индивидуальной неопределенности прогноза, создание системы классификации объектов, определение области применения построенных моделей. Также в написании алгоритмов обработки многоканальных сигналов и создании компьютерной системы анализа результатов эксперимента, позволяющей реализовать потенциальные возможности измерительных систем и приборов; в построении методологии совместного применения проекционных методов и ПИО при решении важных теоритических и практических задач интерпретации больших наборов данных многоканальных экспериментов.

1. Метод простого интервального оценивания

1.1 Ограниченность погрешности измерения. Оценки

При анализе данных, стандартным допущением является принцип нормальной погрешности, то есть ограниченность погрешности измерения, который предполагает основы простейшего интервального оценивания. Погрешность измерения скорее ограничена, чем нормальна, показывают многочисленные исследования. Большинство экспериментаторов не связывают с принципом нормальности факт неограниченности погрешности. Практика показывает, что на стадии предварительной обработки исследований удаляют величины, лежащие за порогом трех или четырех стандартных отклонений. Объем данных, с которым работают сейчас ученые, часто превышает 10+6, так что в них уверенно можно было бы ожидать 20−30 «нормальных» значений, выходящих за 4?.

Еще один подход в пользу ограниченности погрешностей появляется при применении проекционных подходов. Так как эти методы используют формальные линейные модели, которые приближают исследуемые зависимости лишь на ограниченном участке, то, при построении таких моделей, периферийные объекты, которые могут нарушить линейность, обычно удаляют.

Рассматривается простейшая одномерная регрессия (1. 1)

Основным предположением метода ПИО является постулат об ограниченности погрешности измерения ?, утверждающий, что никакая погрешность? не может превосходить по абсолютной величине некоторую константу ?,

(1. 2)

Исследуем выводы, непосредственно вытекающие из этого постулата.

Рис. 1.1 Одномерный модельный пример: О-калибровочные и — проверочные объекты

На Рис. 1.1 приведены модельные данные, построенные для регрессии (1. 1) при а=1. Погрешность измерения моделировалась с использованием равномерного распределения шириной 1. 4, (?=0. 7). Объекты С1-С4, используются как калибровочные, объекты Т1-Т3 — проверочные. Не смотря на примитивность примера, с его помощью можно объяснить все основные свойства метода простейшего интервального оценивания.

Используя калибровочные данные (xi,yi), i=1−4 и стандартную методику обработки, можно найти МНК оценку параметра a

(1. 3)

и предсказать значение отклика y во всех точках x, ка калибровочные, так и новые, оценить дисперсию погрешности? и построить доверительный интервал:

(1. 4)

t3(P) — квантиль распределения Стьюдента с 3 степенями свободы для вероятности Р. Границы доверительных интервалов приведены на Рис. 1. 1а (Р=0. 95).

Предположим, значение? известно. Из (1. 1) и (1. 2) следует, что для каждой пары (xi,yi) из калибровочного набора выполняется условие или в эквивалентной форме (1. 5)

(1. 6)

Неравенства (1. 5) должны выполняться для всех калибровочных объектов. Так может быть только тогда, когда значение параметра, а лежит в интервале

(1. 7)

Интервал (1. 7) определяет область допустимых значений (ОДЗ) параметра а, то есть такие значения, которые не противоречат экспериментальным данным. Когда парамерт, а меняется в интервале (1. 7), то соответствующая величина отклика у=ах в произвольной точке х ограничена значениями:

(1. 8)

Таким образом построенная интервальная оценка параметра, а (1. 7), которая является аналогом точечной МНК-оценки а. Кроме того, найдены и прогнозные интервалы (1. 8) для отклика у, справедливые, как для калибровочных, так и для любых других (новых) объектов (Рис. 1. 1b).

Очевидным фактом является построение калибровки методом простейшего интервального оценивания в нашем примере «держится» только на двух объектах: С2 и С4. Они задают границы (1. 7) возможных значений параметра а, поэтому вправе назвать эти объекты граничными. Прочие калибровочные объекты С1 и С3 несущественны; их можно удалить из калибровочного набора, и результат останется прежним. то очень важное свойство метода ПИО, которое находит применение в задаче выбора представительного набора объектов.

Сходимость интервальных оценок

На другом примере приведено сравнение интервальной ПИО-оценки с обычной оценкой метода максимума правдоподобия. Рассматривается выборка х=(х1,…, хn) из нормального распределения N (а,?2), усеченного на интервале [а-?, а+?], ?=к?. Требуется построить оценку среднего значения, а при известных значениях? и к, и исследовать её стоимость, то есть зависимость точности от объема выборки n.

Оценка, а по методу максимума правдоподобия или моментов строится как среднее по выборке и её точность можно охарактеризовать приближенным доверительным интервалом где

(1. 9)

это нормированная полуширина доверительного интервала (ML размах), а хy - это квантиль нормального распределения.

С другой стороны, интервальная оценка имеет вид. Нормированную полуширину (ПИО размах) этого интервала, соответствующую доверительной вероятности Р, можно записать в виде:

(1. 10)

Функции ?(к) и ?(к) зависят от параметра к, который определяет, как проводится отсечение (к=0. 2,1,2,3,4). При к=0.2 распределение близко к равномерному, а при к=4 практически неотличимо от не усеченного нормального распределения.

Показано, что в распределяемой задаче, ПИО-оценка эффективней оценки ММП, начиная с некоторого объекта выборки n0, которая зависит от параметра к. Чем ближе усеченный закон распределения к нормальному (больше значения к), тем больше должен быть объем выборки.

Метод ПИО не использует никаких исходных предположений о виде распределения погрешности, кроме её ограниченности. Тем самым его можно считать методом, свободным от вида распределения.

1.2 Описание метода ПИО

В это главе приведем систематическое описание метода ПИО, введем основные определения, приведем доказательство в общем виде.

Рассмотрим модель линейной многомерной калибровки

(1. 11)

где у (I) — это вектор откликов; а (J) -это вектор параметров; Х (IJ) — это матрица предикторов, ?(I) — это вектор погрешностей. Ограниченность погрешности? означает, что существует такая величина ?0, что и что для любых (1. 12)

Для любого объекта (xi,yi) из калибровочного набора, i=1,…, I можно записать

(1. 13)

Значение а, удовлетворяющее (1. 13) для любого объекта i, образует полосу S (xi, yi) в пространстве параметров RJ. Вектор параметров а, удовлетворяет всем неравенствам (1. 13) одновременно тогда и только тогда, когда он принадлежит всем полосам.

Область допустимых значений (ОДЗ) А для параметров, а системы — это множество в пространстве параметров:

(1. 14)

А — это замкнутый выпуклый многогранник. При это, А является случайным множеством, поскольку оно построено с использованием случайных величин у.

Свойства ОДЗ:

— Область, А является несмещенной оценкой параметра а. Из определения ОДЗ следует, что истинное значение, а всегда принадлежит А:

— Область, А ограничена тогда и только тогда, когда матрица Х имеет полный ранг, т. е. rank X=J. Это означает что система мультиколлинеарна, т. е. rank XJ, то до исследования ПИО метода, необходимо применить какую-либо процедуру регуляризации. Например, спроецировать исходные данные на подпространстве меньшей размерности

(1. 15)

где матрица Т имеет полный ранг КJ, а затем применить метод ПИО к (1. 15).

— Область, А является состоятельной оценкой параметра а,

(1. 16)

при тех же «слабых» условиях, что и в МНК, т. е. ?j — при I-. Это свойство означает, что при увеличении количества калибровочных объектов, область, А стягивается к истинному значению а.

— Область, А образована не всеми объектами из калибровочного набора, а только некоторыми, называемыми граничными. Это означает что из калибровочного набора можно исключить все объекты, кроме граничных, и ОДЗ при этом не изменится.

Используя ОДЗ А, построенную для модели (1. 11) или (1. 15), можно предсказать значение отклика у для любого вектора х. Если параметр, а меняется внутри ОДЗ А, то значение у=xta принадлежит интервалу

(1. 17)

Интервал V является результатом прогноза метода ПИО. Для этого вычисления не требуется строить область, А в явном виде, т.к. значения v- и v+ могут быть найдены с помощью стандартных методов линейного программирования.

Кроме того, имеется ещё интервал калибровки U, который характеризует меру неопределённости в модели

(1. 18)

Величина прогнозного интервала V индивидуальна для каждого объекта, а величина интервала калибровки U — общая для всех объектов. Взаимное расположение этих интервалов (Рис. 1. 2) характеризует «качество» прогноза.

Оценка ?. Как правило, величина? неизвестна и, вместо нее, используется некоторая оценка b. ОДЗ, А зависит от b, и А (b) монотонно расширяется с увеличение b —

(1. 19)

Из (1. 19) следует, что существует минимальное значение b, при котором А (b). Это значение может быть принято в качестве оценки величины

(1. 20)

Предложенная оценка (1. 20) является состоятельной, но смещенной, т.к. bmin. Она задает нижний предел всех возможных значений ?. Поэтому необходимо оценить и верхнюю границу максимальной погрешности.

Очевидно, что любая разумная оценка b должна зависеть от двух показателей: (1) числа объектов в калибровочном наборе; чем больше объектов, тем ближе величина b к ?; (2) тяжести крыльев функции распределения погрешности; чем крылья легче, тем хуже эта оценка. Применяя традиционный статистический подход к регрессионным остаткам е=у-y, можно построить такую оценку b, что Prob {b} и, при этом, оценка b максимально близка к ?. Имитационное моделирование, проведенное для различного числа объектов с использованием различных ограничений распределений ошибки, показывает, что оценка

(1. 21)

может быть принята за искомый верхний предел? с вероятностью Р. Здесь С (I, s2, P) — эмпирическая функция, которая зависит от числа объектов в калибровочном наборе I и от оценки дисперсии остатков s2.

Значение bsic в качестве оценки? в дальнейшем используется в ПИО методе для определения прогнозных интервалов и для классификации объектов.

Точность ПИО моделирования. Значения bmin и bsic

(1. 22)

полностью характеризует точность ПИО моделирования, т. е.

— Любое априорное значение? допустимо только в том случае, если оно больше или равно bmin.

— Моделирование с помощью ПИО метода с параметром bsic гарантирует, что для объектов из калибровочного набора, «истинное» значение отклика расположено внутри соответствующего интервала.

— Даже в «наихудшем» случае, полуширина прогнозного интервала для объектов из калибровочного набора меньше или равно bsic.

— Обе оценки ?: bmin (1. 20) и bsic (1. 21) — являются состоятельными. Это означает, что для любого значения? из интервала (1. 22) выполняются свойства 2 и 4, а свойства 1 и 3 выполняются асимптотически.

2. Классификация статуса объектов

2.1 Характеристики статуса объектов

Для характеристики качества прогноза и формализации понятий «похожих» и «непохожих» объектов в рамках метода ПИО вводится следующие определения.

Пусть имеется ПИО модель, построенная с помощью набора калибровочных объектов (х i,yi), i=1, …, I, которая характеризуется своей ОДЗ А, (1. 14). Рассмотрим новый объект, т. е. пару (х, у), с которым связана своя полоса S (х, у), определяется неравенствами у-?хtа у+?. Тогда взаимное положение полосы S (х, у) и области, А характеризует статус объекта (Рис. 6. 1).

Определение 2.1. Объект (х, у) называется внутренним, если он не изменяет ОДЗ, т. е.

А S (х, у)=А,

иначе Любой объект из калибровочного набора, по построению, является внутренним (Рис. 2.1 а, b).

Определение 2.2. Объект (х i,yi) из калибровочного набора называется граничным, если существует такой параметр аА, что Граничные объекты формируют ОДЗ, и, поэтому, являются наиболее важными среди объектов калибровочного набора (Рис. 2.1 а).

Определение 2.3. Объект (х, у) называется внешним, ели он уменьшает ОДЗ, т. е.

А? S (х, у) А, иначе, а что

Согласно определения 2.1 и 2.3 все объекты делятся на внутренние и внешние. Однако среди внешних объектов можно провести более детальное различие.

Определение 2.4. Объект (х, у) называется — выбросом, если он уничтожает ОДЗ, т. е.

А? S (х, у), иначе, (Рис. 2.1 d).

Определение 2.5. Объект (х, у) называется абсолютно внешним, если для любого значения у А? S (х, у)?А.

В работе показано, что при добавлении в калибровочный набор дополнительного I+1 — го объекта, в зависимости от его статуса, происходят следующие изменения с ОДЗ А. Если объект является внешним, но не выбросом, то ОДЗ уменьшится, т. е. АI+1I , а добавочный объект станет граничным. Если объект является выбросом, то ОДЗ исчезнет, т. е. АI+1=. Классификация объектов проявляется не только во взаимном расположении полос и ОДЗ в пространстве параметров, но и во взаимном положении калибровочного, U (1. 18) и прогнозного, V (1. 17) интервалов. Это подтверждается следующими утверждениями: Утверждение 2.1. Для всех калибровочных объектов выполняется условие

Рис. 2.1 Возможные положения полосы нового объекта по отношению к данной ОДЗ в пространстве параметров

Утверждение 2.2. Объект является внутренним тогда и только тогда, когда

Утверждение 2.3. Калибровочный объект (Vi?Ui) является граничным тогда и только тогда, когда

регрессионный интервальный калибровка сигнал

Утверждение 2.4. Объект является выбросом тогда и только тогда, когда

Утверждение 2.5. Объект является абсолютно-внешним тогда и только тогда, когда для любого значения у

2.2 Диаграмма статуса объектов (ДСО)

Для того чтобы процедуру классификации объектов сделать максимально простой и наглядной, в работе введены следующие величины.

Определение2.6. ПИО-остатком называется величина-

(2. 1)

которая характеризует ?- нормализованное смещение.

Определение 2.7. ПИО- размахом называется величина-

(2. 2)

которая характеризует ?-нормализованную воспроизводимость. Целесообразность этих определений раскрывается следующими утверждениями.

Утверждение 2.6. Все калибровочные объекты удовлетворяют неравенству

Утверждение 2.7. Объект (х, у) является внутренним тогда и только тогда, когда

Утверждение 2.8. Калибровочный объект (х i, yi) является граничны, тогда и только тогда, когда

Утверждение 2.9. Объект (х, у) является выбросом тогда и только тогда, когда

.

Рис. 2.2. Результаты ПИО прогноза

Утверждение 2. 10. Объект (х, у) является абсолютно-внешним тогда и только тогда, когда h (x)1.

Используя определения 2. 6−2.7 и Утверждения 2. 6−2. 7, можно построить диаграмму статуса объектов (ДСО), прототип которой показан на Рис. 2.2 b.

2.3 Классификация новых объектов

Когда модель ММК применяется к новым объектам, соответствующие значения у неизвестны. Поэтому нельзя вычислить ПИО-остаток, r (2. 1), но всегда можно определить величину ПИО-размаха, h (2. 2). Если для нового объекта h 1 (область iia на Рис. 2.2. b), то этот объект является абсолютно-внешним. Для любого калибровочного набора можно сконструировать область в пространстве предикторов (счетов), за пределами которой располагаются абсолютно внешние объекты. Следующее утверждение определяет эту область.

Утверждение 2. 11. Пусть D — это область в пространстве предикторов, образованная всеми возможными линейными комбинациями взвешенных векторов предикторов (или счетов) х i из калибровочного набора, такими что

(2. 3)

Тогда все абсолютно внешние объеты будут расположены вне этой области.

Показано, что для решения задач многомерной калибровки, ПИО подход позволяет ввести новый метод классификации объектов. Он базируется на определениях 2. 1−2.5 и утверждениях 2. 1−2.5. При этом нет необходимости в явном виде строить ОДЗ в пространстве параметров.

Для ПИО классификации достаточно построить диаграмму статуса объектов, которая, независимо от исходной размерности задачи, представляется в двумерном пространстве. Позиция каждого объекта на ДСО определяет, подобен ли изучаемый объект объектам из калибровочного набора, и тем самым, задает разумные границы применимости построенной калибровки.

2.4 Программная реализация ПИО метода

Разработанные аспекты ПИО метода были реализованы в программе SIC (Simple Interval Calculations), которая работает под управлением системы Excel, входящий в стандартный пакет Microsoft Office. Приведено описание структуры программы, которая состоит из целого набора процедур: (1) предварительной подготовки данных; (2) проекционных регрессионных методов (МГК, РГК, ПЛС 1, ПЛС 2); (3) процедуры приведения исходной задачи к стандартной форме линейной оптимизационной модели; (4) стандартной процедуры Симплекс-метода для решения линейной оптимизационной задачи; (5) вычисления результатов, построения ДСО. Вся входная информация представляется в виде таблиц рабочих листов Excel. С помощью программы SIC можно получить следующую информацию:

— результаты интервального прогноза отклика [v-, v+];

— точечную регрессионную оценку откликов (РГК, ПЛС);

— оценки параметров: bmin и bsic;

— ПИО-остаток и ПИО-размах;

— диаграмму статуса объектов.

Информация выводится как в числовом, так и в графическом виде. Устройство программы SIC соответствует современным требованиям. Все действия выполняются либо с помощью диалогового окна, либо осуществляются с помощью VBA процедур. Программа SIC — это инструмент, созданный для интервального и регрессионного анализа результатов сложных многофакторных физических экспериментов. Программа систематически используется в работе.

3. Теоретические и практические аспекты применения метода простейшего интервального оценивания

3.1 Применение проекционных методов совместно с методом ПИО на примере анализа многоканальных акустических измерений. Наглядное представление многофакторных данных

Проекционный подход базируется на концепции «скрытых (латентных) переменных», на которых строится проекционное подпространство. Возможность наглядного представления сложных многофакторных данных физического эксперимента в проекционном пространстве позволяет исследователю лучше понять и объяснить изучаемые явления. При этом возникает необходимость (1) охарактеризовать свойства каждого отдельного объекта относительно всей группы объектов и построенной модели; (2) очертить область действия модели, а, следовательно, и надежность прогноза. Метод ПИО представляет систему классификации объектов, а так же набор однозначных правил для определения статуса (роли) каждого объекта.

Результаты ПИО классификации демонстрируются на примере применения акустических измерений с последующей математической обработкой экспериментальных данных для количественного определения следовых концентрации нефти в промышленных сточных водах в режиме реального времени.

Матрица предикторов Х состоит из акустических спектров (преобразованные с помощью быстрого преобразования Фурье) на 1024 частотах; вектор откликов у — это известное стандартные концентрации нефти (0, 2. 5,5, 10, 20, 50, 100, 300 ppm). С помощью ПЛС метода построена модель, основанная на двух ГК, при этом RMSEC= 0. 12, и RMSEP= 0. 24.

Сравнение графиков на Рис. 3.1 а) и b) показывает, какую новую информацию предоставляет ПИО метод, по сравнению с обычным ПЛС методом. Сравнивая ДСО (Рис. 3.1 а) с графиком влиятельности Рис. 3.1 b видно, что все наиболее влиятельные объекты (NN 37, 38, и 40), а так же объект, имеющий максимальное значения остатка моделирования (N5), являются граничным по ПИО классификации.

Рис. 3.1 Определение следовых концентрации нефти в воде.

ПИО классификация позволяет однозначно определять все наиболее влиятельные объекты среди калибровочного набора (Утв.2. 8). Концепция граничных объектов имеет смысл не только внутри самого метода ПИО, она объективно характеризует изучаемую структуру данных физического эксперимента.

Важным аспектом ПИО классификации является определение статуса объектов проверочного набора. В проверочном наборе обнаружено 32 внутренних и 8 внешних объектов (Рис. 3.1 а). Внешними объекты могут быть по двум причинам: (1) большая ошибка в измерениях откликов; (2) погрешность моделирования. Прогноз на такие объекты, например Т7, является ненадежным. Объект Т39 является абсолютно внешним. Такие объекты по структуре данных в предикторах отличается от калибровочных объектов. Величина прогнозных интервалов для них всегда больше, чем ?.

Таким образом, ПИО метод не только позволяет выявить граничные объекты в калибровочном наборе, но и представляет подробную информацию для индивидуальной классификации объектов проверочного набора.

3.2 Исследование выбросов

Калибровочная модель используется для предсказания откликов новых объектов. Если новый объект плохо согласуется с моделью, результат предсказания будет плохим (большая неопределенность), или даже неверным (предсказанное значение и прогнозный интервал далеки от истинного значения). В работе предлагается новый метод определения выпадающих объектов, основанный на методе простейшего интервального оценивания. Этот метод сравнивается с известным методом выпуклых оболочек (Fernandez, 2002).

Для обнаружения выпадающих объектов, предлагается построить в пространстве предикторов область, которая определяет абсолютно внешние объекты (Утв.2. 11). Для каждого объекта х i из калибровочного набора вычисляются координаты точек х ib, образующих границу области по формуле

Существенным отличием является то, что метод выпуклых оболочек учитывает только значение предикторов, в то время как метод ПИО принимает во внимание ещё и результаты моделирования отклика.

На примере анализа результатов многоканальных акустических измерений, показано, что при объединении метода ПИО с известными методами билинейного моделирования (РГК, ПЛС) появляется новый инструмент для анализа сложных многофакторных данных. Визуализация многоканальных экспериментальных данных помогает проследить имеющиеся физические зависимости, оценить качество проведенного эксперимента.

Основой для такой визуализации служит классификация статуса объектов, основанная на следующих правилах.

1. Калибровочные объекты делятся на два класса: граничные, наиболее важные объекты, и внутренние объекты, являющиеся избыточными. (Утв.2. 6−2. 7).

2. Проверочные объекты можно разделить (Утв. 2. 7−2. 10) на два основных класса: внутренние (типичные) и внешние объекты. Среди внешних объектов дополнительно выделяются абсолютно внешние объекты и выбросы.

3. Для новых объектов, имеется правило (Утв. 2. 10), выделяющее абсолютно внешние объекты. Это является существенным достижением ПИО метода, так как гарантирует, что, применяя модель для новых измерений, мы не выйдем за область действия модели.

Заключение

В работе рассмотрены теоретические, алгоритмические и методологические аспекты метода простейшего интервального оценивания (ПИО) в применении к обработке больших массивов данных многоканальных экспериментов. Обобщая полученные результаты, можно сформулировать следующие выводы:

1. Объединение проекционных регрессионных методов с методом простейшего интервального оценивания порождает мощный инструмент для решения задач многомерной калибровки. Такой подход позволяет обрабатывать большие наборы данных физических экспериментов, пронизанных внутренними связями, разделять полезную информацию и шум, представлять результаты прогноза в интервальной форме, учитывающей неопределенность в прогнозе индивидуально для каждого объекта измерения.

2. Предположение об ограниченности погрешности, лежащее в основе метода ПИО, является не недостатком, а преимуществом метода, так как, с практической точки зрения, оно более обосновано, чем традиционное допущение о нормальности, и, следовательно, неограниченности погрешностей.

3. Приведены аргументы в пользу того, что ПИО-оценки, построенные на основе экстремальных статистик, являются более эффективными, чем традиционные гладкие оценки.

4. На основе метода ПИО разработан новый подход к классификации статусов объектов и интерпретации прогнозных интервалов. Введены новые понятия: ПИО-остаток и ПИО-размах, диаграмма статуса объектов (ДСО). Даны определения понятиям внутренние, внешние, граничные объекты. Дано определение выбросов и абсолютно внешних объектов. Показано, что разработанная классификация имеет практическое значение и в рамках классических регрессионных моделей. Диаграмма статуса объектов является удобным инструментом для визуального анализа сложных сигналов. Эффективность предложенного подхода продемонстрирована на примере многоканальных акустических измерений для определения следовых концентраций нефти в воде.

5. Компьютерная программа SIC позволяет на практике применить предложенную методику, объединяющую проекционные регрессионные методы и ПИО моделирование. С ее помощью можно проводить обработку наборов многоканальных сигналов, оценивать точность калибровки, проводить классификацию объектов.

Список используемой литературы

1. Описание SIC-метода и классификации состояния объекта подход публикуется в —

2. О. Е. Родионова, KH Esbensen, А. Л. Померанцев, «Применение SIC (Simple Интервал расчета) для классификации объектов состояния и обнаружения выбросов — по сравнению с PLS / ПЦР», J. хемометрике, 18, 402−413 (2004)

3. DOI: 10. 1002/cem. 885

4. А. Л. Померанцев, О. Е. Родионова, А. Hoskuldsson, «Управление процессами и оптимизации с простой метод расчета интервала», Chemom. Intell. Lab. Syst., 81 (2), 165−179 (2006)

5. А. Л. Померанцев и О. Е. Родионова, «Многомерного статистического контроля процессов и оптимизации», там же, 209−227

6. Павлов Б. В., Родионова О. Е. Математическое моделирование сложных само ускоряющихся реакций. Теор. основы хим. технологии, 28, 251−258 (2007)

7. Павлов Б. В., Родионова О. Е. Численное решение систем линейных обыкновенных дифференциальных уравнений с постоянными коэффициентами. Ж. вычисл. матем. и матем. физ., 34, 622−627 (2007)

8. Павлов Б. В., Родионова О. Е. Методика усреднения при дискретизации кинетического интегро-дифференциального уравнения. Ж. вычисл. матем. и матем. физ., 36, 143−161 (2007)

9. Павлов Б. В., Родионова О. Е. Проблемы математического моделирования в неравновесной теории химических процессов. Хим. физ., 17, 27−40 (2007)

10. Родионова О. Е., Померанцев А. Л. Об одном методе решения обратной кинетической задачи по спектральным данным при неизвестных спектрах компонент. Кинетика и катализ, 45, 485−497 (2004).

11. Померанцев А. Л., Родионова О. Е. Содержательный и формальный подход к анализу кинетических данных. В сб. Химическая и биологическая кинетика. Новые горизонты. М. Химия, 1, 124−172, 2005 (ISBN: 5−98 109−035−9).

12. Родионова О. Е., Померанцев А. Л. Оценивание параметров в управлении Аррениуса. Кинетика и катализ, 46, 329−332 (2005).

ПоказатьСвернуть
Заполнить форму текущей работой