Альтернативные методы оценки главных компонент

Тип работы:
Реферат
Предмет:
Экономические науки


Узнать стоимость

Детальная информация о работе

Выдержка из работы

№ 3 (19) 2010
Н. И. Киселёв
Альтернативные методы оценки главных компонент
Критерии минимаксного типа рассматриваются как альтернатива методу наименьших квадратов в определении главных компонент. Оценка коэффициентов формулируется как задача линейного программирования. Предложенный подход экспериментально проверяется на известных тестовых статистических массивах. На этих данных получены результаты, не уступающие оценкам классического метода наименьших квадратов, а в некоторых задачах и превосходящие их.
Ключевые слова: главные компоненты, минимаксные критерии, линейное программирование.
1. Введение
В методе главных компонент не предполагается в явном виде, что исходные данные являются наблюдениями случайной величины с многомерным нормальным распределением, но использование метода наименьших квадратов, ковариационной матрицы, геометрических представлений типа «эллипсоид рассеяния» и т. п. выдают подсознательное предположение статистиков о модели нормального распределения. Другие модели образования исходных данных, рассматриваемые в контексте выбора метода оценивания главных компонент, в литературе не найдены. Однако в эконометрике нормальное распределение данных не является доминантой, как это было ранее в других приложениях статистических методов. Более того, в относительно простых задачах, например, при оценивании центра случайной величины по выборке, помимо выборочного среднего используется множество других оценок, в частности, медиана, середина размаха и т д, каждая из которых имеет оптимальные свойства в соответствующих распределениях случайной величины.
Для развития множественности подходов к решению важных задач математической статистики представляется целесообразным построить альтернативу классическому методу главных компонент. В частности, вместо среднеквадратичного отклонения как меры изменчивости переменных можно использовать максимальный размах, вместо критерия наименьших квадратов — минимаксный критерий отклонения, а вместо многомерного эллипсоида как геометрического образа формы данных использовать прямоугольный параллелепипед. Очевидно, что в зависимости от модели данных прикладной задачи тот или иной метод изучения геометрии многомерных наблюдений будет иметь свои преимущества
Известно, что при использовании классического метода определения главной компоненты одновременно оптимизируются два критерия: критерий минимума суммы квадратов отклонений наблюдений от этой компоненты и критерий максимума суммы квадратов значений их проекций на компоненту (Айвазян и др., 1989). Однако при выборе максимального размаха как меры отклонения наблюдений в общем случае будут получаться различные главные компоненты при использовании критерия минимаксного размаха или максимальной проекции
№ 3 (19) 2010
В этой связи, оба указанных критерия далее будут рассмотрены и применены к известным тестовым данным (выборки данных по видам цветка ириса и по макроэкономическим показателям России за 1995−2008 гг.). Для изучения их свойств приводится сравнение полученных оценок с результатами классического метода главных компонент.
Помимо основной задачи определения главных компонент, минимаксный подход дает возможность решить задачу локализации многомерных данных, а именно задачу построения параллелепипеда, который содержит все наблюдения, причем его форма и угловая ориентация в пространстве определяют геометрию исходных данных. Более того, относительный объем параллелепипеда можно использовать как меру общей линейной связи наблюдений.
2. Определение главных компонент из условия максимального размаха (1-ый метод)
Пусть X — матрица числовых данных размером пХт- т — число показателей, регистрируемых в каждом наблюдении, п — число наблюдений, п & gt- т + 1, матрица X имеет ранг т. Наблюдения х (1), х (2),…, х (п) образуют п (п -1) / 2 различных пар (х (к) — х (1)), к & gt- 1. В качестве меры расстояния (размаха) между наблюдениями пары будем использовать обычную евклидову метрику || х (к) — х (1) ||.
Определим первую главную компоненту как направление (вектор ?1), на котором достигается максимальная величина проекции среди всех пар наблюдений, т е
С = а^шахшах с (х (к) — х°))1, || с ||=1, (1)
с к, 1 '- '-
где с (х (к) — х (1)) — скалярное произведение, что при условии нормировки || с || = 1 является величиной проекции вектора (х (к) — х (1)) на направление с.
В такой постановке (1) направление первой главной компоненты очевидно, оно будет совпадать с вектором, соединяющим два наблюдения, расстояние между которыми макси-
¦с мально. Тогда наибольшая величина проекции на главную компоненту будет равна макси-
о мальному расстоянию между парами в выборке и, очевидно, что не существует другого на-
§ правления с большей величиной проекции. Если пар наблюдений с максимальным расстоя-
& gt-<- нием несколько, то решение не единственно (этот случай здесь рассматриваться не будет).
¦с Другими словами, определение первой главной компоненты сводится к нахождению пары
2 наблюдений с максимальным расстоянием. Вектор, соединяющий эту пару, указывает на-| правление главной компоненты, а его длина является нагрузкой на нее (аналог собственного му значению в классическом случае).
3 В общем случае 7-ая главная компонента вычисляется по следующему алгоритму. Пусть
2 с, с 2,…, с ,-1 — нормированные вектора вычисленных ранее главных компонент. Проекти-§ руем все наблюдения на пространство, образованное указанными векторами. В результате
3 получаем вектора проекций х, х ри,…, х (& quot-1 наблюдений. Из разложения
о
?5 «(3) = «(3) + х (3) у = 1 п
х = х рг|| +х рг±& gt-
? получаем последовательность проекций наблюдений х^^, х2рг±,…, хр^ на пространство, ^ ортогональное к ранее найденным главным компонентам. Далее следуют действия, ана-
№ 3 (19) 2010
логичные вычислению первой компоненты: полученные проекции образуют, как и выше, ?& lt-8 набор из n (n -1) / 2 различных пар, и среди них находим пару с максимальным расстояни- ® ем. Вектор, соединяющий эту пару, определяет направление, а его величина — нагрузку ^ /-ой главной компоненты. ^
Заметим, что проекционная матрица Pi1 для получения последовательности х, xp.), …, xp.) на /-ой итерации в случае ортонормированных векторов главных компонент имеет простой вид
P = C CT
1 i-1 1−1'-
где С -1 — матрица, составленная из векторов с i, с 2,…, с ,-i главных компонент размером m X (i -1).
Для подтверждения дееспособности данного подхода рассмотрим его применение к классическим данным цветков ириса (Fisher, 1936), которые зачастую используются для тестирования методов анализа многомерных данных, в частности, при распознавании образов Данные заимствованы из открытого источника (Asuncion, Newman, 2007) репозитория UCI тестовых статистических массивов, организованного в университете г. Ирвайн (Калифорния, США). Содержательно это выборка из 150 наблюдений цветков ириса, для каждого измерены 4 классификационных ботанических признака. Цветки ириса принадлежат к трем видам, которые в выборке представлены подвыборками по 50 наблюдений каждого вида Известно, что один вид линейно отделяется от двух других, которые, однако, сами не имеют линейного дискриминатора Эксперимент состоит в проверке — повторит ли изложенный выше подход известные результаты по разделению видов цветка ириса в координатах его первых двух компонент. Исходные ботанические данные предварительно масштабировались путем деления измеренных значений признака на его максимальный размах. Результаты метода максимального размаха приведены на рис 1 Для сравнения на рис 2 даны представления наблюдений в первых двух
¦

/ N '--1

— «A_Г
'- Vi V
i» •
-f «/-•
Рис. 1. Представление данных методом максимального размаха
Рис. 2. Представление данных классическим методом
№ 3 (19) 2010
компонентах по классическому методу главных компонент. Результаты по классическому методу рассчитаны автором, аналогичные результаты приведены ранее в (Зиновьев, 2000).
Обозначения на рисунках наблюдений: А — Iris-versicolor, • - Iris-virginica, ¦ - Iris-setosa.
Видно, что качественно рисунки близки, однако на рис. 1 наблюдения различных классов «разнесены» сильнее, чем на рис. 2. Другими словами, представление данных в координатах первых двух компонент, полученных методом максимального размаха, имеет несколько более четко выраженную классификационную структуру.
Подтверждением близости результатов обоих методов в данном примере является табл. 1, где приведены значения косинусов углов между векторами главных компонент и каждой осью координат (значения для классического метода даны вторым числом через «слэш»). Курсивом обозначены ячейки с большими значениями косинусов. Как видно, их значения весьма близки для обоих методов.
Таблица 1. Значение косинусов углов векторов главных компонент, полученных методом максимального размаха и классическим методом
№ вектора x1 x2 x3 x4
1 0. 57/ 0. 52 -0. 10 / -0. 26 0. 59 / 0. 58 0. 55 / 0. 57
2 0. 36 / 0. 37 0. 92 / 0. 92 -0. 13 / 0. 02 -0. 06 / 0. 06
3 0. 70 / 0. 72 — 0. 35 / -0. 24 — 0. 19 / -0. 14 — 0. 59 /-0. 63
4 0. 20 / 0. 26 — 0. 15 / -0. 12 — 0. 77 / - 0. 80 0. 58 / 0. 52
Отличие результатов этих методов имеют место лишь в нагрузках на каждую компоненту. Для рассматриваемого метода нагрузки для всех четырех компонент составляют: 48%, 29%, 15%, 8% (рассчитывались как отношение размаха по данной компоненте к суммарному размаху по всем компонентам). Для классического метода, соответственно, получаем: 73%, 22. 5%, 4%, 0. 5% (процентные значения собственных значений ковариационной матрицы). ¦с Казалось бы, классический метод предпочтительней в смысле распределения нагрузки по о главным компонентам. Однако собственные значения — это квадратичная функция от ис-§ ходных данных, тогда как размах зависит от них линейно. Если извлечь корень из собствен-& gt-<- ных значений и вновь вычислить процентное соотношение, то получим: 53%, 30%, 12. 5%,
¦с 4. 5%. Видно, что снова для обоих методов получаются близкие результаты. га
5
ц
§• 3. Определение главных компонент
о
5
ф
ir
ч
из условия минимума максимального размаха (2-ой метод)
§ Используя обозначения, введенные в предыдущем разделе, запишем условие определения
& lt-Ь л.
3 направления с первой компоненты (по величине изменчивости это будет последняя компо-
?5 нента), для которой имеет место минимум максимальной величины проекции на нее среди
3 всех значений проекций пар наблюдений
130
Ci = argminmax c (x (k& gt- - x (1& gt-)l, || c ||= 1, (2)
c k, 1 1 1

I №
3 (19) 2010
где, как и ранее, с (х (к } - х (1)) — скалярное произведение, которое при условии нормировки || с ||= 1 дает значение проекции вектора (х (к) — х (1)) на направление с.
В постановке (2) вектор с означает направление, на котором имеет место минимальная изменчивость (размах), тогда как в классическом случае первая главная компонента является направлением максимальной изменчивости. Однако в общем случае при изучении геометрии данных нет формальных предпочтений, в каком порядке строить главные компоненты: от максимальной изменчивости к минимальной или в обратную сторону. На наш взгляд, этот порядок определяется содержанием прикладной задачи. В данном случае начало построения главных компонент из условия минимальной изменчивости следует из постановки (2)
Решение задачи оптимизации (2) при, казалось бы, близком к задаче (1) виде, существенно сложнее. Рассмотрим несколько более простую задачу оптимизации (3), решение которой даст нам искомый вектор с из (2)
с1 = ш^тттах сх (1) + с0, || с ||= 1, / = 1,…, п, (3)
С, С0 1
где с0 — свободный член уравнения гиперплоскости сх + с0 = 0. Задача (3) означает поиск таких значений коэффициентов плоскости, при которых максимальное значение отклонения наблюдений от плоскости будет минимальным. Другими словами — это определение минимаксной плоскости, где отклонением точки служит ее евклидово расстояние до плоскости Несложно показать, что направляющий вектор оптимальной плоскости из (3) будет являться решением задачи (2)
В самом деле, пусть имеется решение задачи (3) — минимаксная плоскость с максимальным отклонением Ь и направляющим вектором с. Тогда проекции точек на этот вектор лежат на отрезке [Ь, — Ь], если предположить, что 0 является пересечением вектора и плоскости. Следовательно, максимальная величина проекций пар точек на вектор равна 2Ь. Предположим, что решение задачи (2) дает другой направляющий вектор с величиной максимальной проекции пар наблюдений 2Ь, меньшей, чем 2Ь. Тогда плоскость, ортогональная этому вектору и проходящая через середину отрезка 2Ь, будет иметь максимальное отклонение наблюдений от плоскости Ь меньше, чем Ь, что противоречит условию задачи (3).
Для решения задачи (3) будем использовать аппарат линейного программирования (ЛП) (Гольштейн, 1971). Введем искусственные неотрицательные переменные (невязки) Ь+ и Ь-для каждого наблюдения и переменную Ь максимального отклонения по всем наблюдениям Тогда эту задачу можно записать в терминах ЛП в канонической форме, но с одним квадратичным ограничением, связанным с условием нормировки:
Ь ® шт (4)
с, с0
Хс + с0 + Ье — Ь- = 0, Ь~& gt- 0, (5)
Хс + с0 — Ье + Ь+= 0, Ь+& gt- 0, Ь & gt- 0, (6)
II с ||= 1, (7)
№ 3 (19) 2010
где e — единичный вектор, Ь+ и Ь~ - вектора невязок размерности n. Как видно из (4) — (7), задача оптимизации имеет 2n + 1 нетривиальных ограничений и 2n + m + 2 неизвестных переменных
Поясним содержание ограничений (5) — (6). В ограничениях (5) (их n по числу наблюдений) к значению cx (l) + c0, i = 1,…, n каждого наблюдения прибавляется такая величина Ь, что их суммарное значение больше или равно нулю. Это следует из условия Ь- & gt- 0 и геометрически означает, что все наблюдения будут лежать выше или на плоскости cx + c0 = 0. Соответственно, в ограничениях (6) величина Ь вычитается, и тогда из условия Ь+ & gt- 0 следует, что все наблюдения будут лежать ниже или на плоскости. Цель решения задачи (4) — (7) состоит в нахождении таких параметров плоскости cx + c0 = 0, чтобы при данных наблюдениях (матрица X) величина Ь была наименьшая. В этом случае, очевидно, что Ь является искомым наименьшим максимальным отклонением наблюдений от плоскости cx + c0 = 0.
В результате решения (4) — (7) получаем искомый направляющий вектор ci и значение максимального отклонения Ь i (нижний индекс 1 в этих переменных означает, что они относятся к первой компоненте). Так как одновременно находится и оценка свободного члена с 01, то первая минимаксная плоскость полностью определена. Помимо этого, с помощью величины Ьi задаются две параллельные ей плоскости, отстоящие от минимаксной на эту величину и содержащие между собой все наблюдения (в том числе, лежащие на самих граничных плоскостях)
Для i-ой главной компоненты повторяется решение задачи (4) — (7), но с дополнительными условиями ортогональности искомого оптимального решения задачи найденным на предшествующих шагах направляющим векторам
C i-ic = 0. (8)
Строки матрицы C — состоят из оценок коэффициентов минимаксной плоскости, полученных на предыдущих шагах (без оценки свободного члена), т. е. если таких шагов i — 1, то
матрица Ci-i имеет размерность (i — 1) X m, и ее строки попарно ортогональны.
В результате решения (4) — (8) получаем вектор c? и i-ую пару плоскостей с расстоянием Ь i между ними, вновь содержащих между собой все наблюдения и ортогональных ранее ¦с полученным парам плоскостей.
о Пересечением m пар взаимно ортогональных плоскостей, полученных при определении § всех главных компонент, является прямоугольный параллелепипед, содержащий все на-^ блюдения. Этот параллелепипед обеспечивает простую геометрическую интерпретацию ¦с главным компонентам. Он однозначно определяется набором m различных векторов ребер, g исходящих из одной вершины, которые можно ассоциировать с главными компонентами. | Следуя общепринятому порядку перечисления компонент (где первая компонента указывает ¦о максимальную изменчивость), имеем, соответственно: максимальное по длине ребро парал-3 лелепипеда задает направление и величину (длина ребра) первой главной компоненты, вто-?f рое по длине — вторую и т. д.
§ Возвращаясь к технике решения задачи (4) — (8), заметим, что вследствие условия норми-
& lt-Ь 2 ттгт
3 ровки || c || =1 использовать непосредственно симплекс метод решения задачи ЛП не пред-s ставляется возможным. В этом случае задача решается итеративным процессом, суть которого S состоит в замене на k-ой итерации ограничения || c ||= 1 на линейное условие

J crc& lt-k-1) =1, (9)
№ 3 (19) 2010
где c (к 1)1 — решение задачи определения /-ой компоненты на (к — 1)-ой итерации. В каче- ?& lt-8
стве значения С (0) для первой итерации предпочтительней выбрать решение, полученное & lt-§
— (к) — (к-1) bi — bi
. — (к)
/ b, & lt- a,

s
первым методом для соответствующей компоненты. В этом случае решение задачи (4) — (6), ^ (8) — (9) находится за одну итерацию, а вторая необходима для срабатывания правила остановки процесса, которое в изложенном ниже эксперименте имеет вид:
— (к-1)
где Ь, — значение максимального отклонения на (к — 1)-ой итерации вычисления 7-ой компоненты, а — малая величина (в эксперименте ниже 0. 01). В случае выбора равноугольного начального условия с-0) = 1 / [т количество итераций увеличивается незначительно (на одну-две).
Как видно из (4) — (6), (8) — (9), задача ЛП при вычислении 7-ой компоненты имеет 2п + 7 — 1 нетривиальных ограничений и 2п + т + 1 неизвестных переменных, что при значительных объемах наблюдений может приводить к большим объемам вычислений. С этой точки зрения задача ЛП, двойственная к задаче (4) — (6), (8) — (9), требует меньших объемов вычислений и, более того, двойственные оценки содержат, как будет показано ниже, индикаторную информацию о самих точках
Сформулируем задачу ЛП, двойственную к задаче оптимизации (4) — (6), (8) — (9) в случае вычисления 7-ой компоненты на к-ой итерации:
g® min, (10)
i, m, v
/ (l-m) = 0, (11)
(l-m) + C T-in + gc (k-1) = 0, (12)
e (i+m) & lt-1, (13)
i& gt- o, m& gt- o,
где l и m — вектора двойственных переменных размерности n, относящиеся, соответственно, к ограничениям (5) и (6) прямой задачи, вектор v имеет размерность i -1, его компоненты не ограничены в знаке и являются двойственными оценками для ограничений (8), переменная g относится к ограничению (9). Отметим, что число ограничений (10) — (13) всего лишь m +2.
Минимаксная плоскость и пара граничных плоскостей, которые она индуцирует, имеют в многомерном случае свойства, известные по одномерной ситуации: все наблюдения находятся между минимальным и максимальным значениями, выборочная оценка центра — средняя точка находится на равном расстоянии от этих значений и устойчива к колебаниям внутренних точек выборки В многомерном случае роль минимальных и максимальных значений выполняют пары граничных плоскостей и опорные точки (т е наблюдения, лежащие на плоскостях), число которых для каждой пары не менее т + 1 (это справедливо в случае отсутствия условий
№ 3 (19) 2010
1 «
ф ао
2 ?
ф §
(8) ортогональности- каждое условие ортогональности уменьшает число т + 1 на единицу). Остальные точки — внутренние, и если при их колебаниях они не выходят из области, ограниченной парой параллельных плоскостей, то минимаксная плоскость остается прежней, т. е. в указанном смысле эта плоскость устойчива к внутренним точкам. Эти и другие свойства минимаксной регрессии более подробно рассматривались в (Киселев, 1985).
Двойственные оценки и т относятся к 7-му наблюдению и являются его важной характеристикой. Если в оптимальном решении (10) — (13) при вычислении /-ой компоненты имеем 17 = = 0, то 7-ое наблюдение лежит внутри пары минимаксных плоскостей этой компоненты. Если ki Ф 0, то т = 0, из этого следует, что 7-ое наблюдение является опорным и лежит на одной из плоскостей пары. Если ki = 0 и т Ф 0, то точка лежит на другой плоскости этой пары. Область значений Xi и т является отрезком [0, 0. 5], при этом (см. (11) и (13)) сумма по всем Xi равна 0. 5 и равна сумме по всем т. Заметим, что в задачах оценки макрохарактеристики линейной связи показателей (см. раздел 4) двойственные оценки наблюдений можно интерпретировать как меру их аномальности, связанной с отклонением наблюдений от линейной связи
Для проверки применимости минимаксного подхода к определению главных компонент использовались статистические данные, взятые из открытого источника http: //da. ta. cemi. rssi. т/ GRAF/InpDat. php «Эконометрическая модель экономики России» (В. Макаров, С. Айвазян и др.) на сайте ЦЭМИ РАН. Данные представляют поквартальные наблюдения, начиная с четвертого квартала 1995 года по 2008 год включительно, следующих четырех показателей:
х1 — значение валового внутреннего продукта (ВВП) — х2 — величина инвестиций с лагом в 4 квартала- х3 — квартальное приращение курса доллара- х4 — значение ВВП с лагом в один квартал.
Таким образом, фактические данные представляют 53 точки в четырехмерном пространстве: п = 53 и т = 4.
Эмпирические распределения рассматриваемых показателей приведены на рис 3 Следует отметить, что визуально они весьма отличаются от нормального В этом случае применение классического метода главных компонент с использованием свойств нормального распределения (средние значения, ковариационная матрица и т д) не является обоснованным
ч-I
ВВП
Инвестиции
Приращение курса доллара

Рис. 3. Эмпирические плотности распределений показателей
В результате применения изложенной выше процедуры определения главных компонент путем многократного решения задачи (10) — (13) получен параллелепипед, косинусы углов
134
/

№ 3 (19) 2010
между ребрами которого (направление компонент) и осями координат приведены в табл. 2. ^ Длины ребер параллелепипеда в процентном отношении равны: первое ребро (первая глав- 8 ная компонента) по длине составляет 61% от общей суммы всех четырех ребер, второе (вто- ^ рая компонента) — 30% и два последних — по 5% и 3%. Заметим, что исходные измерения ^ показателей предварительно масштабировались путем деления значений каждого показателя на его размах и центрировались вычитанием его минимального значения
Для сравнения по этим данным вычислена их ковариационная матрица и найдены ее собственные значения и вектора, т е главные компоненты определены классическим методом. В процентном отношении эти собственные значения следующие: первое составляет 88. 4%, второе — 11%, третье — 0. 5% и четвертое — 0. 1%. Как и в первом эксперименте, переходим от квадратичной характеристики изменчивости к линейной (т. е. извлекаем корень из собственных значений и пересчитываем процентные соотношения) В результате получаем: первая компонента содержит 68. 5%, вторая — 24%, третья — 5% и четвертая — 2. 5%, что вновь близко к минимаксному методу.
Также главные компоненты вычислялись первым методом из условия максимального размаха. Представим в виде триады процентные отношения для всех трех методов. Первая тройка чисел — это процент нагрузки первой главной компоненты для первого, второго и классического методов соответственно, вторая тройка чисел — это процент второй компоненты и т д
57% - 61% - 68. 5%, 34% - 30% - 24%, 6% - 6% - 5%, 3% - 3% - 2. 5%.
Как видно из приведенных значений, в классическом методе суммарная изменчивость на направлениях первого и второго собственного векторов практически равна изменчивости по первым двум «длинным» ребрам параллелепипедов рассматриваемых методов.
Матрица нормированных векторов ребер (косинусы углов между векторами и осями координат) приведена в табл. 2, где первое и второе число в ячейке относится к первому и второму минимаксному методу, а третье число — косинусы собственных векторов для классического случая Курсивом выделены ячейки, где имеют место минимальные углы с соответствующими осями. Отметим, что в данном примере выделенные ячейки совпадают для всех методов на первых двух компонентах
Таблица 2. Косинусы углов между главными компонентами и осями координат для трех методов
№ вектора Х1×2×3 Х4
ВВП Инвестиции Изменение курса доллара ВВП с лагом
1 0. 66 / 0. 70 / 0. 71 0 10 / 0 12 / 0 11 — 0. 47 / - 0. 33 / - 0. 10 0. 58 / 0. 63 / 0. 68
2 0. 24 / 0. 22 / 0. 06 0. 13 / 0. 14 / 0. 05 0. 87 / 0. 94 / 0. 99 0 41 / 0 22 / 0 07
3 0. 66 / 0. 62 / 0. 17 0 26 / 0 24 / 0 98 0. 11 / 0. 0 / 0. 03 — 0. 70 / - 0. 74 / - 0. 01
4 — 0. 29 / - 0. 28 / - 0. 67 0. 95 / 0. 95 / - 0. 12 — 0. 10 / - 0. 10 / 0. 01 0. 07 / 0. 08 / 0. 72
Из таблицы косинусов следует, что значения первого самого длинного ребра определяется, в основном, первым и четвертым показателями (ВВП и ВВП с лагом в один квартал),
№ 3 (19) 2010
причем вклад каждого из них примерно одинаков Второе ребро имеет весьма малый угол с показателем «приращение курса доллара», т. е. в основном связано с этим показателем. Нагрузки на третье и четвертое ребро для минимаксных методов и классического метода расходятся и, если пытаться их интерпретировать, получаются разные версии
Сравнение первого и второго методов показывает, что они хорошо согласуются на всех компонентах Сравнение этих методов с классическим показывает, в целом, хорошую согласованность на первых двух векторах На двух последних компонентах, которые учитывают малую долю изменчивости, согласования между минимаксными и классическим методом не наблюдается
В целом, эксперимент на использованных реальных данных демонстрирует, на наш взгляд, разумные результаты, во многом хорошо согласованные с расчетами классическим методом наименьших квадратов Для изучения эффективности минимаксного подхода требуются, естественно, дополнительные теоретические исследования и эксперименты, которые определят области предпочтительного применения метода
Заметим, однако, что минимаксный подход следует рассматривать не только как альтернативу классическим главным компонентам, представляется, что он дает дополнительную полезную информацию В частности, как уже отмечалось, локализация многомерных данных в простом геометрическом образе (параллелепипеде), на гранях которого находится часть наблюдений, позволяет получить ряд содержательно интересных результатов
4. Относительный объем параллелепипеда в определении меры общей линейной связи показателей
Помимо параллелепипеда (обозначим его /& gt-1), построенного выше как пересечение т пар минимаксных плоскостей, рассмотрим другой прямоугольный параллелепипед Р0, ребра которого равны, соответственно, размахам по каждому показателю, а грани перпендикулярны координатным осям. Параллелепипед Р0 является также пересечением т пар параллельных плоскостей, каждая из которых определяется по одному показателю без учета их взаимной зависимости, то* гда как при построении Р1 учитывается по существу линейная связь показателей. В этом случае о можно ввести новую макрохарактеристику линейной связи р всей совокупности рассматри-
§ ваемых показателей как величину относительного объема параллелепипеда Р1 в Р0. *

о
ф
р = 1- V / УР» у
5 где УР и УР объемы, соответственно, параллелепипедов Р1 и Р0. Извлечение корня степе-
ни т (размерность пространства показателей) из отношения объемов элиминирует влияние размерности Значение р находится на отрезке [0, 1], где значение 1 указывает на наличие, 2 как минимум, одной строгой линейной зависимости между показателями, а значение 0 со-
§ ответствует их независимости
?5 Как известно, в общем случае объем косоугольного параллелепипеда равен модулю де-
Ц терминанта матрицы, состоящей из векторов его ребер, исходящих из одной вершины. В на-
? шем случае, при определении параллелепипеда как пересечения т пар плоскостей, удобно
^ его объем вычислять по формуле
136

№ 3 (19) 2010
Vp = 2^… bjdet[c,, (14) |
ф о
где, как и выше, b i — максимальное отклонение наблюдений от /-ой минимаксной плоско- ^ сти и матрица [с, состоит из направляющих векторов минимаксных плоскостей. Для пря- ^ моугольных параллелепипедов знаменатель в (14) равен 1. Формулы для объемов параллелепипеда (14) и эллипсоида (15) (см. ниже) приведены на сайте http: //www. pmpu. ru/vf4/dets/ geometry/ автора А. Ю. Утешева.
В случае эксперимента на макроэкономических данных, отношение собственно объемов Р1 / Р0 равно 0. 11 для первого метода и 0. 07 для второго. Эти значения, казалось бы, указывают на высокую степень линейной связи. Однако вычисление коэффициента линейной связи р, который учитывает влияние размерности, приводит, соответственно, к значениям 0. 42 и 0. 49, что указывает уже не на высокую, но заметную линейную связь рассматриваемых показателей в исходных данных
Представляет интерес сравнение объема полученного параллелепипеда с объемом минимально возможного эллипсоида, содержащего все наблюдения. Методика сравнения следующая По данным эксперимента вычисляется выборочная ковариационная матрица и находится обратная ей матрица Q. Искомый эллипсоид с центром в выборочной оценке средних? и определяется как
(х — х — ц) = В2,
здесь радиус В2 равен квадрату расстояния от центра /и до максимально удаленной точки, т. е. самая удаленная точка наблюдений находится на поверхности эллипсоида. Отметим, что в этой постановке объем существенно зависит от значения самой удаленной точки. Для оценки зависимости объема от расстояния приведем 9 самых удаленных наблюдений от выборочного центра /& lt- в порядке убывания квадрата расстояния: 38. 9, 27. 55, 19. 35, 11. 52, 11. 42, 11. 15, 7. 96, 7. 78, 6 .9.
Объем эллипсоида вычисляется по известной формуле:
рШ12 Вт
гг /о. 14 /, /^ч, где Г () — гамма-функция. (15)
Г (т /2 + 1) ^е^)
Если В2 = 38. 9, то объем эллипсоида равен 80% от объема параллелепипеда Р0. В то же время аналогичное отношение для построенного выше минимаксного параллелепипеда равно 7% (2-ой метод) Очевидно, что такая неэффективность эллипсоида является следствием множителя Вт в формуле его объема. Если отбросить самую удаленную точку, тогда В = 27. 55, и указанное отношение составляет уже 40%, а при удалении трех точек (тогда В = 11. 52) имеем отношение 6. 8% и получаем меньший объем эллипсоида сравнительно с минимаксным параллелепипедом
Заметим, что точки с большими квадратами расстояния от центра эллипсоида, равными 38. 9 и 27. 55, имеют в данном примере экономический смысл. Точка с расстоянием 38. 9 — это 53-е наблюдение в выборке данных, соответствующее четвертому кварталу 2008 года, т. е. началу кризиса 2008 года, а точка с 27. 55 — это четвертый квартал 1998 года, т. е. начало кризиса 1998 года.

137

№ 3 (19) 2010
В данном эксперименте существенное преимущество минимаксного параллелепипеда над эллипсоидом в задаче локализации многомерных данных, возможно, объясняется тем, что распределение исходных показателей значительно отличается от нормального (см. рис. 3). Для сравнения этих методов в случае показателей, форма распределения которых приближается к нормальному закону, были использованы данные из источника (Ферстер, Ренц, 1985). Наблюдения представляют выборку по 52 предприятиям из двух показателей:
х1 — стоимость основных фондов- х2 — объем производства за квартал.
Объем параллелепипеда и эллипсоида оценивался аналогично эксперименту с 4-мя показателями, описанному выше В результате объем параллелепипеда, построенного вторым минимаксным методом, оказался равным 27% от объема Р0, что меньше объема эллипсоида, равного 34%. На рисунке 4 приведено визуальное представление результатов эксперимента
Рис. 4. Вид эллипсоида и параллелепипеда, включающих все наблюдения

0 4. Заключение
с
1
? 1. Рассмотренные методы вычисления главных компонент показали в численных экспе-
* риментах результаты (распределение изменчивости по главным компонентам и их направле-
2 ние), которые близки оценкам классического метода наименьших квадратов. В задаче лока-
| лизации многомерных наблюдений эти методы дают лучшие результаты.
^ 2. Вычислительная простота и наглядность метода максимального размаха делают полез-о
3 ным его применение на стадии предварительного анализа эконометрических данных, также
?5 «
2 он интересен как некоторый альтернативный взгляд на данные при использовании классиче-
ф
§ ского метода. •
3 3. Второй минимаксный метод помимо определения главных компонент перспективно
?5 использовать в задачах локализации многомерных данных и оценки общей линейной связи
:с показателей. а
? 4. Теоретические свойства оценок в предложенных методах оценивания главных компо-
^ нент пока не изучены, но, как известно, в одномерном случае минимаксная оценка (середина
№ 3 (19) 2010
выборочного размаха) при равномерном распределении случайной величины имеет скорость сходимости 1 / п, тогда как выборочное среднее значение в модели нормального распределе- | ния имеет скорость 1yfn. Таким образом, можно ожидать эффективность рассмотренных ^ методов в моделях данных с высокой степенью неопределенности, в частности, при равно- ^ мерном законе распределения наблюдений внутри некоторого параллелепипеда
Список литературы
Айвазян С. А., Бухштабер В. М., Енюков И. М., Мешалкин Л. Д. (1989). Прикладная статистика. Классификация и снижение размерности. М.: Финансы и статистика.
Гольштейн Е. Г. (1971). Теория двойственности в математическом программировании и ее приложения. М.: Наука.
Зиновьев А. Ю. (2000). Визуализация многомерных данных. Красноярск: Издательство Красноярского государственного технического университета.
Киселев Н. И. (1985). Линейное программирование в экстремальных задачах статистики. Ученые записки по статистике, т. 49. М .: Наука.
Ферстер Э., Ренц Б. (1983). Методы корреляционного и регрессионного анализа. М .: Финансы и статистика
Asuncion A., Newman D. J. (2007). UCIMachine Learning Repository. http: //archive. ics. uci. edu/ml/. Irvine, CA: University of California, School of Information and Computer Science.
Fisher R. A. (1936). The use of multiple measurements in taxonomic problems. Annual Eugenics, 7 (II), 179−188.

ПоказатьСвернуть
Заполнить форму текущей работой