Как из наблюдаемых корреляций оценить причинно-следственные связи? Сравнение подходов, используемых в экономике и компьютерных науках

Тип работы:
Реферат
Предмет:
Экономические науки


Узнать стоимость

Детальная информация о работе

Выдержка из работы

2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
457
Экономический журнал ВШЭ. 2015. Т. 19. № 3. С. 457−496. HSE Economic Journal, 2015, vol. 19, no 3, pp. 457−496.
Как из наблюдаемых корреляций оценить причинно-следственные связи? Сравнение подходов, используемых в экономике и компьютерных науках
Арефьев Н. Г., Кузнецов С. А., Пономарёв К. А.
Мы сравниваем подходы к идентификации структурных моделей, разработанные в экономической литературе и в литературе по компьютерным наукам. Из эконометрической литературы мы рассматриваем метод инструментальных переменных, условие ранга для идентификации систем одновременных уравнений, а также различные условия для идентификации структурных векторных авторегрессий. Из литературы по компьютерным наукам мы рассматриваем результаты, полученные в рамках анализа каузальности в литературе по вероятностным моделям на графах. Большинство рассмотренных результатов переведены на два языка и представлены как на языке линейной алгебры, принятой в эконометрике, так и на языке графических каузальных моделей, популярных в компьютерных науках. Каждый из рассмотренных подходов имеет свои сравнительные преимущества и недостатки: подход, разработанный в компьютерных науках, позволяет более гибко выбирать гипотезы о зависимости или независимости струк-
Данная работа является частью более глобального проекта, за помощь в работе над которым авторы благодарят Алину Арефьеву, Светлану Брызгалову, Илью Воскобойникова, Булата Гафарова, Бориса Демешева, Олега Ицхоки, Григория Канторовича, Алексея Нечунаева, Анатолия Пересецко-го, Александра Смирнова, Рамиса Хабибулина, Antoine d'-Autume, Jean-Bernard Chatelain, Jean-Pierre Drugeon, Jean-Marie Dufour, James Hamilton, Maarten Janssen, Jessie Li, Judea Pearl, Christopher Sims, Alain Trognon, Mark Watson и анонимного рецензента Экономического журнала ВШЭ. Авторы также благодарны участникам групп 7inR, Macroteam и других коллег из НИУ ВШЭ и Университета Париж-1 за плодотворные дискуссии. Данное научное исследование (грант № 14−01−0088) выполнено при поддержке Программы «Научный фонд НИУ ВШЭ» в 2014/2015 гг.
Арефьев Николай Геннадьевич — Ph. D (экономика) университета Париж-1, доцент департамента теоретической экономики и старший научный сотрудник научно-учебной лаборатории макроэкономического анализа НИУ ВШЭ. E-mail: n. arefiev@gmail. com
Кузнецов Сергей Андреевич — магистр экономики, факультет экономических наук НИУ ВШЭ. E-mail: kusnetzov. sergey@gmail. com
Пономарёв Кирилл Александрович — студент факультета экономических наук НИУ ВШЭ. E-mail: ponomkirill@gmail. com
Статья получена: апрель 2015 г./ Статья принята: август 2015 г.
458
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
турных шоков, а подход, разработанный в эконометрике, более гибок в работе с циклическими моделями. Мы предлагаем обобщающую процедуру идентификации, которая позволяет использовать преимущества каждого из подходов. Это не только дает возможность легко переносить результаты из одной области исследований на другую, но также достигать полной или частичной идентификации новых моделей, чего нельзя было добиться, используя ни один из рассмотренных методов в отдельности. Мы также включаем в обзор разработанные в литературе методы данно-ориентированной идентификации, когда используемые для идентификации гипотезы не только имеют теоретическое обоснование, но и могут быть частично или полностью протестированы на данных. Большинство результатов представлены в терминах линейных гауссовых моделей, однако предложенная процедура идентификации легко обобщается на нелинейные, негауссовы, и даже на непараметрические модели.
Ключевые слова: идентификация- структурные модели- вероятностные модели на графах- каузальность- метод инструментальных переменных- системы одновременных уравнений- структурные векторные авторегрессии.
1. Введение
Одной из типовых задач в экономике является идентификация причинно-следственных связей и структурных шоков, взаимодействие которых привело к наблюдаемым в данных ковариациям или другим, более общим зависимостям. Эта задача оказывается сложнее, чем оценка функции совместного распределения наблюдаемых величин или построение прогноза, так как одна и та же функция распределения может быть сгенерирована моделями, подразумевающими различные причинно-следственные связи. Для предсказания влияния проводимой политики на экономику, тем не менее, требуется оценка не только функции распределения, но причинно-следственных связей, что, в свою очередь, требует решения задачи идентификации. В данной работе мы сравниваем подходы к решению задачи идентификации, разработанные в литературе, посвященной методу инструментальных переменных, системам одновременных уравнений, структурным векторным авторегрессиям, а также в литературе, посвященной вероятностным моделям на графах, которые активно изучаются в компьютерных науках.
Вклад нашей работы в литературу заключается в следующем. Во-первых, мы используем общий язык для представления результатов из разных областей литературы. А именно, все результаты представлены как в терминах, определенных в литературе по системам одновременных уравнений, так и в терминах вероятностных моделей на графах. Это позволяет нам сравнить вышеперечисленные теории и увидеть, какие результаты являются специфическими для каждой области и могут быть перенесены из одного раздела литературы в другой. Во-вторых, в разделе 8 мы предлагаем обобщающий алгоритм проверки идентификации параметров, который позволяет использовать совместно различные критерии для идентификации. В отличие от литературы по системам одновременных уравнений и от литературы по структурным векторным авторегрессиям предложенный алгоритм позволяет более гибко выбирать ограничения на ковариацион-
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
459
ную матрицу остатков. В отличие от литературы по вероятностным моделям на графах алгоритм не предъявляет никаких требований к цикличности модели. В-третьих, мы приводим пример, который демонстрирует, что предложенный алгоритм не только комбинирует имеющиеся результаты, но и позволяет доказать идентификацию новых моделей, что было невозможно сделать ни одним из приведенных методов по отдельности. В дополнение, данный алгоритм легко адаптируется к нелинейным, негауссовым или даже непараметрическим моделям, что позволяет перенести описываемые в работе результаты на более широкий класс проблем.
В работе мы рассматриваем преимущественно линейные гауссовы модели с независимыми между наблюдениями и идентичными (i.i.d.) структурными шоками. Однако большинство рассмотренных нами методов применимы и при более общих предпосылках, включая негауссовы, не i.i. d, нелинейные и даже непараметрические модели. При этом нарушение гипотез нормальности, независимости или идентичности может упростить анализ, дав дополнительные условия для идентификации. Например, в разделе 7.1 данной работы приведен обзор литературы, которая использует для идентификации структурных векторных авторегрессий гетероскедастичность структурных шоков. Таким образом, гипотезы линейности и нормальности не являются гипотезами, упрощающими анализ, а скорее наоборот: позволяют выработать критерии идентификации, которые работают в самых общих случаях.
Работа построена следующим образом. В разделе 2 представлена постановка задачи, которая является общей для литературы по системам одновременных уравнений (SEM, Simultaneous Equations Models), структурным векторным авторегрессиям (SVAR, Structural Vector Autoregressions) и вероятностным моделям на графах (PGM, Probabilistic Graphical Models). Затем в разделах с 3 по 6 сделан обзор различных методов идентификации: метода инструментальных переменных, условия ранга для SEM, условия Рубио-Рамиреса и др. для SVAR, метода частичной идентификации, идентификации на основе графических моделей, а также нескольких менее значимых методов. В разделе 7 приводится короткий обзор теории данно-ориентированной идентификации, которая в последние годы возникла на стыке литературы по SVAR и PGM. В разделе 8 предлагается обобщающий алгоритм, а также демонстрируется на примере возможность идентификации новых моделей с помощью этого алгоритма. В заключении мы поднимаем проблемы и обсуждаем нерешенные задачи, общие для всей литературы.
2. Постановка задачи
Большинство задач, рассмотренных в данной работе, могут быть записаны в форме системы одновременных уравнений, представленной в следующем виде:
(1) AY = BZ + гт,
где Y — вектор эндогенных переменных размерности n X1- Z — вектор экзогенных или предопределенных переменных размерности m Xl, именуемый в дальнейшем вектором инструментов- ?Y — вектор структурных шоков размерности n X1- A и B — матрицы параметров соответствующей размерности. Матрица A невырожденная. Все переменные
460
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
центрированы, поэтому константа в уравнении (1) опущена. Структурные шоки? Y имеют нормальное распределение с нулевым математическим ожиданием и положительно определенной ковариационной матрицей ZY. Переменные в векторе Z могут коррелировать друг с другом, однако они являются независимыми относительно структурных шоков? Y, что является основным их отличием от переменных в векторе Y и что их делает инструментами. Как мы обсуждаем ниже, модель, представленная в форме (1), не только позволяет получить прогноз Y для заданного значения X, но и описывает все причинно-следственные связи в экономике, и поэтому она называется структурной моделью.
В некоторых разделах данной работы мы полагаем, что переменные вектора Z были сгенерированы случайным гауссовым процессом вида SZ = ?Z, где матрица S является обратимой, а вектор? Z состоит из нормально распределенных случайных величин. По определению инструментов, векторы? Y и? Z должны быть независимыми. Вся модель может быть представлена в виде
Мы используем yi для обозначения эндогенной переменной из вектора Y, zi — для обозначения экзогенной переменной из вектора Z, а xi — для обозначения переменной, которая может быть как эндогенной, так и экзогенной. Y_i используется для обозначения всех переменных вектора Y кроме yi.
Введем понятие общего и частичного равновесия. Для заданного набора значений экзогенных переменных Z и структурных шоков? Y под общим равновесием мы понимаем набор значений переменных вектора Y, для которого выполняются уравнения (1). Для заданных значений Z, ?Y и Y_i, частичным равновесием для уравнения i называется значение yi, при котором i-е уравнение системы (1) обращается в равенство.
Все задачи, рассмотренные в данной работе, мы сводим к оценке взаимного влияния переменных друг на друга. Предложенные ниже определения общего и прямого влияния одной переменной на другую близки, но не идентичны определению влияния, используемому в компьютерных науках [Bollen, 1989- Pearl, 2014].
Для того чтобы определить каузальный эффект, введем в модель вектор воображаемых переменных Г размерности n х1 следующим образом:
(2)
PX = ?,
(3)
AY = BZ + diag (A)T+?Y,
где diag (A) — матрица размерности n Xn, диагональные элементы которой равны диагональным элементам матрицы A, а внедиагональные элементы равны нулю. Измене-
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
461
ние Yi? Г на единицу представляется гипотетическим экспериментом, в ходе которого внешний наблюдатель удерживает значение yi на единицу выше своего нового равновесного значения и наблюдает реакцию системы на данное изменение.
Определение 1 (общее влияние одной эндогенной переменной на другую).
Общим влиянием yi на у. мы называем частную производную у. по Yi в полном равновесии, определенном системой уравнений (3).
Из Определения 1 следует, что общее влияние yi на у ¦ равно
ГA 1diag (A.
Ввиду того, что вектор Г является воображаемым, в приложениях вместо взятия производной у. по Yi берется производная у. по ?.
Определение 2 (общее влияние экзогенной переменной на эндогенную). Общим влиянием zi на у j мы называем частную производную у ¦ по zi в полном равновесии, определенном системой уравнений (1).
Из этого определения следует, что общее влияние z на у}. равно Г A-B1.
Определение 3 (прямое влияние эндогенной или экзогенной переменной xt на эндогенную переменную у¦). Прямым влиянием х{ на у}- мы называем частную производную уj по xi в частичном равновесии, определенном j-м уравнением системы (1) при условии, что значения всех остальных переменных кроме xi и у j остаются неизменными.
Таким образом, прямое влияние zi на у ¦ равно a^ / ajj для пары эндогенных переменных и bji /ajj в случае, если первая переменная является экзогенной, где ai}- и bi- -
соответствующие элементы матриц A и B.
Пример 1. Рассмотрим модель спроса и предложения:
(4а) q + ap = ?d,
(4б) q-вр = ?,
d s
где p и q — логарифмы равновесных цены и количества-? и? — шоки спроса и предложения. Целью эмпирического анализа может быть предсказание последствий введения налога на рассматриваемое благо, для чего требуется оценить параметры, а и в, интерпретируемые как эластичности спроса и предложения.
Модель (4) является примером циклической модели, для которых существует бесконечно много способов сведения к форме (1). Рассмотрим следующую форму записи:
462
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
(5)
(1 а
1 -в
(9 1 i p)
f"d
V?)
Для формы записи (5) задача оценки эластичности спроса сводится к задаче оценки прямого влияния p на q в соответствии с Определением 3, а задача оценки обратной эластичности предложения — к задаче оценки прямого влияния q на p. Возможны и другие способы записи задачи (4) в матричной форме, для которых задача оценки эластичностей функций спроса и предложения может по-другому соотноситься с Определениями 1, 2 и 3.
Пример 2. Одной из задач в макроэконометрике является оценка влияния проводимой монетарной политики на основные макроэкономические переменные. Например, целью работы может быть оценка влияния ставки процента r, устанавливаемой Федеральной резервной системой США (ФРС США), на темп прироста выпуска g и на инфляцию п в рамках следующей структурной векторной авторегрессии:
(6) AYt = + et,
i=1
где Y =(r п g …), ар — количество лагов в оцениваемой модели. Многоточие в векторе Y означает, что в него могут быть включены и другие переменные помимо r, п и g. Модель (6) может быть сведена к виду (1) посредством следующей замены переменных:
y — Y, z r-2… Y-p)T, B = (B2 … Bp).
Оценка структурной векторной авторегрессии (6) может преследовать два типа целей. Примером цели первого типа может быть оценка правила проведения монетарной политики. Современная макроэкономика предсказывает (см., например: [Romer, 2011]), что федеральная система США использует при выборе ставки процента правило Тейлора, в соответствии с которым увеличение темпа роста выпуска или увеличение инфляции приводит к увеличению ставки процента r со стороны ФРС США. Нас может интересовать ответ на следующий вопрос: насколько сильное влияние g и п оказывают на определяемую со стороны ФРС США федеральную ставку процента? Таким образом, целью исследования может быть оценка прямого влияния yt и п{ на rt в соответствии с Определением 3.
Нас также может интересовать ответ на следующий вопрос: что будет в экономике, если федеральная система отклонится от монетарного правила, временно установив ставку процента выше или ниже уровня, определенного правилом Тейлора? Другими словами, нас могут интересовать оценки функций импульсного отклика, показывающих динамический отклик выпуска и инфляции на стимулирующий или сдерживающий шок монетарной политики. Для этого нам потребуется оценить общее влияние ставки процента на текущие значения эндогенных переменных в соответствии с Определением 1, а затем оценить влияние текущих эндогенных переменных на свои же будущие значения в соответствии с Определением 2. Поиск ответа на данный вопрос является примером цели второго типа.
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
463
2.1. Графическая интерпретация структурных моделей
В компьютерных науках основным инструментом анализа идентификации является каузальный граф, заданный Определением 4 ниже [Edward, 2000- Koller, 2009- Pearl, 2009]. При этом в компьютерных науках обычно рассматривают полный каузальный граф, в то время как для сопоставления результатов из компьютерных наук с результатами из теории систем одновременных уравнений и векторных авторегрессий нам потребуется понятие условного каузального графа.
Определение 4 (полный и условный каузальный граф). Каузальным графом или каузальной диаграммой для модели (3) называется направленный граф, в котором каждой переменной x{ модели соответствует вершина графа, а каждому ненулевому элементу матрицы P, например р., соответствует направленное ребро x. ^ x,.
• На полном каузальном графе изображены все ребра, ассоциируемые с ненулевыми элементами матрицы P. Иногда поверх каузального графа изображают дополнительную информацию о возможной корреляции ошибок. В этом случае двунаправленная пунктирная дуга между i-й и j-й вершинами означает, что ошибки? и? ¦ могут быть
скоррелированы, в то время как отсутствие дуги означает независимость.
• На условном каузальном графе изображены лишь ребра, ассоциируемые с ненулевыми элементами матриц A и B.
Введем для дальнейших рассуждений некоторые понятия из теории графов. Если в графе присутствует направленное ребро xt ^ х ¦, то вершина xt называется родителем
вершины х, ах, — ребенком xt. Путь в графе — это последовательность направленных ребер, проходящая от одной вершины до другой. Вершина x, называется потомком xt в графе G, а xt предком x ¦, если существует путь xt x,. Каждая вершина интер-
претируется как путь длины 1. Два пути называются независимыми, если они не содержат общих вершин. Путь, начинающийся и заканчивающийся одной и той же вершиной, называется циклом. Модель, которая не содержит циклы, называется рекурсивной, в противном случае она называется циклической.
а) Полный каузальный граф
6) Условный каузальный граф
У2
У2
Рис. 1. Полный и условный каузальный графы для структурной модели (7)
464
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
Пример 3. Рассмотрим следующую структурную модель:
(7)
1 а12 0 Ъц Ъ12 '- У1 ^ (? у 3 1
0 1 а23 0 Ъ22 у2? у 2
а31 а32 100 уз = ?3
0 0 0 1 s12 z1 ?1
v 0 0 0 s21 1 j v z2 j v ?2 j
Покажем сначала, как строится полный каузальный граф для данной модели. Модель включает в себя пять переменных, y1, у2, у3, ^ и z2, поэтому полный каузальный
граф включает в себя пять соответствующих вершин (см. рис. 1а). Выразим у1 из первого уравнения, у2 из второго уравнения и т. д. Мы видим, что в уравнение для у1 входят у2, z-l и z2, поэтому вершины у2, z-l и z2 являются родителями у1 на рис. 1а. В уравнение для у2 входят у3 и z2, поэтому соответствующие вершины являются родителями у2 на каузальном графе. По аналогии, из третьего уравнения следует, что у1 и у2 являются родителями у3 а из четвертого и пятого — что z3 и z2 являются родителями друг для
друга. Кроме того, никаких ограничений не было наложено на ковариационную матрицу структурных шоков, поэтому все эндогенные переменные попарно связаны пунктирными двунаправленными дугами. Таким образом, на рис. 1а мы изобразили полный каузальный граф.
На рис. 1б изображен условный каузальный граф для модели (7). В отличие от полного графа, на условном графе не изображаются связи между экзогенными переменными, а также не указывается, какие пары структурных шоков могут быть зависимыми.
Для рекурсивных моделей каузальный граф всегда является единственным, для циклических же всегда существует несколько представлений модели в графической форме. Например, в модели спроса и предложения (4) один структурный граф соответствует форме записи, при которой p выражено из уравнения спроса, а q — из уравнения предложения, а другой граф — форме записи, когда p выражено из предложения, а q — из спроса. Результаты, рассмотренные ниже, не зависят от того, какую именно форму мы будем использовать.
2.2. Проблема идентификации
Итак, промежуточной или конечной целью анализа системы (1) является оценка общего или прямого влияния разных переменных друг на друга в соответствии с Опреде-
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
465
лениями 1, 2 или 3. Для этого нам необходимо оценить параметры структурной модели (1). Из данных, однако, мы можем оценить лишь функцию плотности условного распределения f (Y | Z). Ввиду гипотезы нормальности остатков, функция f (Y | Z) однозначно определяется вектором условного ожидания и условной дисперсии Y:
(8а) E (Y | Z) = A~1BZ = MZ,
(8б) var (Y | Z) = A~%A~T =Q.
При этом матрицу M можно оценить из векторной регрессии Y на Z, а матрицу D. можно оценить как ковариационную матрицу остатков данной регрессии. Во всей работе мы полагаем, что имеется достаточное количество наблюдений и достаточная вариация Z для оценки f (Y | Z).
Однако знания условной плотности распределения недостаточно для оценки параметров структурной модели (1), так как существует бесконечное количество значений параметров, дающих на выходе одну и ту же функцию условного распределения. Действительно, умножим модель (1) слева на любую невырожденную матрицу размерности n X n. В результате мы получим другую структурную модель:
(9) A Y = BZ + ?,
где A = FA, B = FB и e = Fe. Модели (1) и (9) эквивалентны в наблюдениях, что означает, что они генерируют одну и туже функцию условного распределения f (Y | Z). Действительно, в гауссовом случае модель (9) дает то же условное ожидание и ту же условную дисперсию остатков, что и модель (1):
(10а) E (Y | Z) = A~1BZ = (FA)-FB)Z = A~XF~1FBZ = A~1BZ,
(10б) var (Y | Z) = E (A-1 EETA~T) = E ((FA)-1 (FE)(FE)T (FA)-T) = A~%A~T.
Таким образом, не существует способа, позволяющего лишь на основе наблюдения реализаций Y и Z отличить модель (1) от модели (9).
Однако существование бесконечного числа различных значений параметров, дающих одну и ту же функцию распределения наблюдаемых переменных, еще не означает, что соответствующие модели подразумевают различные причинно-следственные связи. Общий эффект влияния экзогенных переменных на эндогенные одинаков для всех моделей, эквивалентных в наблюдениях, так как A 1B = (FA) 1 FB = A 1 °F 1 FA = A *B для
любой невырожденной матрицы F, а это произведение как раз и определяет соответствующий эффект, см. Определение 2. Однако прямые воздействия и оцененные полные воздействия одних эндогенных переменных на другие почти для всех значений парамет-ров1 остаются неизменными тогда и только тогда, когда матрица F является диагональ-
1 Термин «почти для всех значений параметров» в данной работе означает, что соответствующее свойство выполняется для множества всех значений параметров, кроме множества меры ноль.
466
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
ной. Для прямого воздействия этот результат следует из Определения 3. Для общего воздействия этот результат возникает ввиду того, что вместо отклика системы на изменение воображаемого вектора Г в практических приложениях мы оцениваем отклик системы на изменение оцененных шоков? т, а при умножении (1) на недиагональную матрицу F оцененному шоку ?- соответствует не, а некоторая линейная комбинация элементов вектора Г.
Под «разными» структурными моделями мы понимаем модели, которые подразумевают различные причинно-следственные связи. Поэтому при умножении модели на диагональную матрицу F мы получаем не «другую», а «такую же» структурную модель. Чтобы избежать множественности представления одной и той же модели, вводится правило нормализации, которое не влияет на причинно-следственные связи, но позволяет задать структурную модель единственным образом. Например, мы можем предположить, что все диагональные элементы матрицы, А равны единице. Такая нормализация соответствует предположению при оценке одномерной регрессии у = Ь1 z1 + Ь2z2 + … о том, что коэффициент в левой части перед переменной у равен единице, что представляется разумным предположением. Нормализация позволяет избежать множественности представления одной и той же структурной модели, однако не позволяет без дополнительных предпосылок получить интересующие нас причинно-следственные связи из оцененной функции плотности условного распределения f (Y | Z).
Если целью построения модели является лишь построение прогноза динамики вектора Y, то наличие бесконечного числа моделей, эквивалентных в наблюдениях истинной модели, не является проблемой, так как все эквивалентные в наблюдениях модели имеют одну и ту же функцию плотности условного распределения f (Y | Z), следовательно, все они дают один и тот же прогноз Y для заданного Z. Однако если целью построения модели является оценка причинно-следственных связей в соответствии с Определениями 1 и 3, то знание функции распределения переменных модели оказывается недостаточным для решения этой задачи.
Для определения причинно-следственных связей требуется решить задачу идентификации, наложив на матрицы параметров в модели (1) дополнительные ограничения, именуемые идентификационными ограничениями. Если мы априори знаем, что какие-то параметры матриц, А и В являются нулевыми либо удовлетворяют более сложным ограничениям, то модель, удовлетворяющая данным ограничениями и дающая заданную функцию условного распределения f (Y | Z), может оказаться единственной — в этом случае модель является полностью идентифицированной. Модель может также оказаться частично идентифицированной, если будет идентифицирована лишь часть каузальных эффектов, заданных Определениями 1 и 3.
3. Метод инструментальных переменных
Метод инструментальных переменных работает с единственной структурной моделью, которую в матричной форме можно представить следующим образом:
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
467
(11)
'-1 ai2 & quot- '- У ^ '- 0 ^ z + '- е1'-'-
=
v a21 1) v У 2) V Ъ21) v е2)
В литературе [Магнус, Катышев, Пересецкий, 2007- Imbens, 2014- Wooldridge, 2012] данная структурная форма обычно задается в форме требования релевантности и валидности инструмента z. В терминах (11) релевантность инструмента z означает, что коэффициент Ъ21 отличен от нуля, а валидность инструмента — что z ортогонален структурному шоку и коэффициент Ъ11 равен нулю. При этом не накладывается никаких ограничений на ковариационную матрицу структурных шоков, так же как и на значения параметров a12 и a21, кроме тех, которые гарантируют обратимость матрицы А. Метод инструментальных переменных немного отличается от общей постановки задачи (1), так как допускает корреляцию инструмента со структурным шоком е2.
Структурный граф для модели (11) имеет следующий вид:
Z1 V
У1
У2
Данная модель является частично идентифицированной, так как в ней идентифицирован только параметр a21. Этот параметр может быть оценен следующим образом. Решим модель (11) в ожиданиях относительно вектора эндогенных переменных:
(12а) E (y11 z)= z = к1 z,
1 — ai2a21
(12б) E (y21 z) =---------z = n2z,
1 — ai2a21
откуда a12 = -п1 / п2, а коэффициенты п1 и п2 могут быть оценены методом наименьших квадратов.
Пример 4. Рассмотрим следующую модель спроса и предложения:
(13а) q + ар = ed,
(13б) q — вр = zs +еs,
где большинство обозначений следуют Примеру 1 (см. систему уравнений (4)), а новая
переменная zs — детерминанта предложения, которая в литературе по инструментальным переменным называется инструментом для управления предложением.
По определению детерминанты предложения, изменение значения zs сдвигает кривую предложения, оставляя неизменным положение кривой спроса. Если мы оценим
468
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
E (q | zs) и E (p | zs) из данных, а потом посмотрим, как изменяются p и q при изменении zs, то наблюдаемая вариация p и q будет соответствовать разным кривым предло-
dE (q | zs)/dzs
жения, но одной и той же кривой спроса, откуда следует, что отношение--------
dE (p | zs)/ dzs
измеряет эластичность кривой спроса, равного в модели (13) значению (-а).
При этом мы не можем идентифицировать параметры второго уравнения системы, так как не сможем отличить на данных модель (13) от модели, в которой вместо второго уравнения записано, например, среднее арифметическое между первым и вторым уравнениями:
(14а) q + ap = i
(14б) а-в q+ 2
p =- z 2
d
+
е^+е^
2
Так как модели (13) и (14) имеют одну и ту же функцию совместного распределения f (p, q | zs) и удовлетворяют всем идентификационным ограничениям (= 0, b2 Ф 0),
не существует статистического способа убедиться, что именно модель (13), а не модель (14) является истинной. Таким образом, второе уравнение в данной модели не идентифицировано.
4. Системы одновременных уравнений и условие ранга
Метод одновременных уравнений можно рассматривать как обобщение метода инструментальных переменных для работы с более сложными структурами [Fisher, 1976- Rubin, Leipnik, 1950- Wooldridge, 2012]. В данной литературе обычно не вводится никаких ограничений на ковариационную матрицу ошибок, а все идентификационные гипотезы сводятся к ограничениям включения, исключения и линейным ограничениям на параметры. Ограничением включения является гипотеза о том, что какой-то коэффициент структурной модели не равен нулю, а ограничением исключения — что какой-то другой коэффициент равен нулю. Линейное ограничение на параметры требует, чтобы линейная комбинация каких-то коэффициентов в каком-то заданном уравнении равнялась нулю. Например, в методе инструментальных переменных (11) гипотезой включения является b21 Ф 0, а гипотезой исключения b11 = 0.
Гипотезы исключения и линейные ограничения на параметры формулируются следующим образом:
(15) ejP Y j = 0,

где ej — это j-й столбец единичной матрицы- P — первые n строк матрицы P (т.е. P = (A B)), а Yj — матрица, задающая ограничения наj-ю строку, при этом каждому ог-
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
469
раничению исключения или линейному ограничению на j-ю строку соответствует один столбец матрицы? j.
Рассмотрим пример (7). В этом примере введено одно ограничение на первую строку, a13 = 0, два ограничения на вторую строку, a21 = b21 = 0, и два ограничения на третью
строку, b31 = b32 = 0. Эти ограничения можно задать с помощью следующих матриц? j:
(16)

'- 0 ^ '- 1 0^ '- 0 0N
0 о о О о
1? = '- т2 о о? = '- Т3 о о
0 0 1 1 0
о о о V0 ^
Если мы подставим, например, ?3 в (15), то получим:
(17) (0 0 I)
(1 ai2 ai3 bii b12 ^
a21 1 a23 b21 b22
V a31 a32 1 b31 b32 J
(0 0'-
0 0
0 0
1 0
V0 1
= (b31 b32)= °& lt-
что задает ограничения на третью строку.
Идентификация параметров в системах одновременных уравнений обычно проверяется построчно [Fisher, 1976- Rubin, Leipnik, 1950- Wooldridge, 2012], используя условие ранга.
Теорема 1 (см. [Fisher, 1976- Rubin, Leipnik, 1950- Wooldridge, 2012]). Предположим, что на ковариационную матрицу структурных шоков X не наложено никаких ограничений. Для заданных значений параметров истинной модели P каждый параметр в j-й строке идентифицирован тогда и только тогда, когда rank ((?-) = (п — 1).
470
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
В примере (7) почти для всех значений параметров имеем
(
(18а) rank (^) = rank
(0 ^
1 ai2 0 b11 b12 ^
0 1 a23 0 b22
Va31 a32 1 0 0 J
= rank
(b ^ 12
22
V 0 J
= 1,
(18б) rank) = rank
1 ai2 0 b11 b12 ^
0 1 a23 0 b22
Va31 a32 1 0 0 J
V0 J J
(1 0))
0 0
(1 b ^ 1 IJ11
(18в) rank) = rank
1 ai2 0 b11 b12 ^
0 1 a23 0 b22
Va31 a32 1 0 0 J
0 0
0 1
V0 0JJ
(0 0^
0 0
0 0
10
V0 1JJ
= rank
0 0
V a31 0 J
= 2,
(bn 6,2 '-
= rank
0 b.
22
V 0 0 J
= 2.
1
к
Таким образом, вторая и третья строки являются идентифицированными, а первая — нет. Как мы обсуждали выше, идентификация j-й строки является необходимым и достаточным условием для определения прямого влияния всех эндогенных и экзогенных переменных на у ¦, а также для определения общего влияния у ¦ на все остальные
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
471
переменные. Следовательно, ограничения включения и исключения (16) позволяют оценить прямое влияние любой переменной на y2 и y3, а также общее влияние у2 или
y3 на любую другую эндогенную переменную.
Для сопоставления результатов, полученных в экономике и компьютерных науках, имеет смысл перевести условие ранга на язык графически моделей. Для этого мы используем следующие два определения.
Определение 5 (Идентифицированная вершина). Вершина у{ в условном каузальном графе является идентифицированной, если все параметры в структурном уравнении под номером i являются идентифицированными.
Таким образом, идентификации вершины yt достаточно для оценки всех прямых воздействий на yi и всех полных воздействий yi на другие эндогенные переменные.
Определение 6 (Идентифицирующий путь для родителя вершины у). Рассмотрим вершину уj, являющуюся родителем yi. Если в условном каузальном графе
существует путь, начинающийся с инструмента и достигающий данного родителя, zk ^ ykt ^ yk2 ^… ^ yj, то такой путь называется идентифицирующим путем для
родителя y. вершины yt.
Используя Определения 5 и 6, условие ранга может быть сформулировано следующим образом.
Теорема 2 (Графическая интерпретация условия Ранга, [Arefiev, 2014]). Предположим, что все ограничения на параметры заданы в форме ограничений включения и исключения, отображенных на условном каузальном графе. Предположим также, что на ковариационную матрицу структурных шоков? г не наложено никаких ограничений. Почти для всех значений параметров вершина yt идентифицирована тогда и только тогда, когда для каждого родителя yi существует независимый идентифицирующий путь в условном каузальном графе.
4.1. Графическая интерпретация условия ранга
а) Идентификация уг
b) Идентификация уз
У1
Уз
У1
Уз
У2
У2
Рис. 2. Графическая интерпретация условия ранга
472
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
Вернемся к Примеру 3 и начнем с вершины у2. У этой вершины два родителя, z2 и у3 (см. рис. 2a). Следовательно, для идентификации этой вершины требуются два независимых идентифицирующих пути. Такие пути действительно присутствуют. Путь z1 ^ у1 ^ у3 по определению является идентифицирующим путем для родителя у3
вершины у2, так как он начинается с инструмента zx и достигает соответствующего родителя. Вершина z2 создает идентифицирующий путь длины единица для самой себя: путь начинается с z2 в роли инструмента и достигает z2 в роли родителя вершины у2. У этих двух путей нет ни одной общей вершины, следовательно, пути являются независимыми. Таким образом, по Теореме 2, вершина у2 является идентифицированной, что означает, что все параметры во второй строке (7) являются идентифицированными.
Аналогичным образом можно продемонстрировать идентификацию вершины у3:
вершина имеет двух родителей, у3 и у2, для которых присутствуют два независимых идентифицирующих пути, zx ^ у3 и z2 ^ у2. Вершина у3 не идентифицирована, так как она имеет трех родителей, z2, у3, у3, но во всей системе имеется только два инструмента, zx и z2, так как невозможно провести три независимых пути, которые бы начинались с двух инструментов, условие ранга для у3 не выполнено.
Рассмотрим структурную векторную авторегрессию, представленную в следующем
виде:
В отличие от литературы по системам одновременных уравнений, стандартной предпосылкой в литературе по структурным векторным авторегрессиям является гипотеза об ортогональности структурных шоков, в соответствии с которой ковариационная матрица структурных шоков Хг является диагональной (см.: [Blanchard, Quah, 1993- Gior-dani, 2004- Hanson, 2004- Rubio-Ramirez, Waggoner, Zha, 2010- Sims, 1992- Sims, 1980]). Кроме того, литература по структурным векторным авторегрессиям обычно использует другое правило нормализации: вместо предпосылки о том, что для любого i = 1,2,…, n
выполняется aii = 1, полагается, что ковариационная матрица структурных шоков нормализована к единичной матрице = 1), при этом элементы на главной диагонали матрицы A строго положительны, aii & gt- 0.
Гипотеза ортогональности структурных шоков упрощает процедуру идентификации, так как теперь среди всего множества моделей, эквивалентных в наблюдениях, мы
5. Подходы к идентификации структурных векторных авторегрессий
(19)
i=1
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
473
можем рассматривать только те, которые имеют диагональную ковариационную матрицу. С учетом этого ограничения, две модели, представленные параметрам [A, B ] и A, BJ, являются эквивалентными в наблюдениях тогда и только тогда, когда существует ортогональная матрица R, такая, что A = RA, B = RB, и? = Re, где ортогональная матрица определена как матрица, удовлетворяющая RRT = I. Действительно, с одной стороны, если существует такая ортогональная матрица, что, А = RA, B = RB, и e = Re, то модели [ A, B ] и А, B J будут эквивалентными в наблюдениях, так как они дают одну и ту же функцию условного распределения f (Y | Z)
(20) E (Y | Z) = A~1BZ = (RA)-1 RBZ = A-1 RT1RBZ = A~1BZ,
(21) var (Y | Z) = var (Y — A1 BZ) = var (Y — A~XBZ), одну и ту же единичную ковариационную матрицу структурных шоков
(22) E (eeT) = E (Re (Re)) = RE (eeT) = RRT = I = E (eeT),
и одни и те же шоки в редуцированной модели
(23) u = A1 e = (RA)-1 Re = A~1R ~1Re = A~1e.
С другой стороны, если две модели [A, B ] и А, B J эквивалентны в наблюдениях,
то найдется такая ортогональная матрица R, что, А = RA, B = RB и e = Re. Действительно, раз матрица A является обратимой, пусть R = AA-1. Матрица R ортогональна, так как в противном случае будет нарушено E (e) = I = E (eT). Условие, А = RA выполняется по определению R, а выполнение условий B = RB и e = Re следует из (20) и (23).
Так как ортогональная матрица имеет n (n -1)/2 степеней свободы, необходимым условием идентификации структурной векторной авторегрессии (19) является наложение как минимум n (n -1)/2 ограничений на параметры модели [Rothenberg, 1971].
5.1. Условие Рубио-Рамиреса и др.
Условие Рубио-Рамиреса и др. [Rubio-Ramirez, Waggoner, Zha, 2010] включает в себя две модификации условия ранга для систем одновременных уравнений, которые были сделаны с целью адаптации условия ранга к гипотезам и методам, используемым в литературе по структурным векторным авторегрессиям. Первая модификация учитывает гипотезу ортогональности структурных шоков. Авторы показывают, что в случае ортогональных шоков мы можем удалять идентифицированные уравнения из матрицы P, и
474
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
если условие ранга окажется выполненным для оставшихся строк, то эти строки также идентифицированы и подлежат удалению.
Вернемся к примеру (7) и проверке условия ранга в уравнениях (18), но предположим теперь, что структурные шоки являются ортогональными. Как и ранее, на первом шаге мы проверяем, что условие ранга не выполнено для первой строки. На втором шаге мы вновь видим, что условие ранга выполнено для второй строки, что означает, что мы
можем удалить вторую строку из матрицы Р. Обозначим полученную матрицу Рг:
(24)
Р =
(1
12
V°31 a32
0 b11 b12 10 0

J
На третьем шаге мы возвращаемся к проверке идентификации первой строки, но теперь ранг полученной матрицы сравниваем не с двумя, а с единицей, так как матрица
Pj_ имеет не три строки, а две:
(25)
rank = = rank
0 Л
V1 у
= 1.
Что является достаточным условием для идентификации у1. После этого мы мо-
жем удалить первую строку из матрицы Р1, получив Р2, и найти ранг произведения
Р2ХР3. Так как ранг этого произведения нам нужно сравнивать с нулем, условие ранга для
третьей строки всегда выполнено. Следовательно, если для модели (7) мы предполагаем ортогональность структурных шоков, то эта модель полностью идентифицирована.
Вторая модификация условия ранга была введена для того, чтобы учесть возможные нелинейные ограничения на параметры структурной модели. Например, после работы Бланшара и Каха [Blanchard, Quah, 1993] макроэкономисты часто вводят долгосрочные ограничения на параметры модели. Рассмотрим перманентный шок переменной j, Vt: ?t = ej, где e}- - j-й столбец единичной матрицы. Можно показать, что в пределе система (19) стремится к следующему стационарному состоянию:
-T
(26)
Y =
A -1B
V i=1 J
e3 =IR -e-,
где элемент [IR показывает долгосрочный отклик j-й переменной на перманентный
Jy
i-й структурный шок. Например, Бланшар и Ках [Blanchard, Quah, 1993] вводят гипотезу о том, что перманентный шок спроса не влияет на долгосрочный уровень выпуска, что оказывается достаточным для того, чтобы отличить шоки совокупного спроса от шоков совокупного предложения в оцененной ими модели.
Для того чтобы включить анализ ограничения на долгосрочные функции импульсного отклика, Рубио-Рамирес и др. [Rubio-Ramirez, Waggoner, Zha, 2010] рассматривают класс преобразований параметров f (A, B), обладающих следующим свойством:
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
475
(27) f (RA, RB) = Rf (A, B).
Примерами такого преобразования может выступать функция долгосрочного отклика f (A, B) = IR, преобразование матриц параметров в самих себя, f (A, B) = P, их
комбинация, f (A, B) = (R^P). Рассматриваются ограничения, наложенные на преобразование f (A, B) по аналогии с (15):
(28) eT]f (A, B) Wt = 0.
Рубио-Рамирес и др. [Rubio-Ramirez, Waggoner, Zha, 2010] обобщают процедуру идентификации, рассмотренную в данном разделе выше, для случаев, когда вместо матрицы P в условии ранга для моделей с ортогональными шоками используется f (A, B), и доказывают достаточность соответствующих условий.
5.2. Рекурсивная идентификация
Наиболее ранние работы в области структурных векторных авторегрессий используют рекурсивную схему идентификации, также именуемую в литературе треугольной идентификацией. В соответствии с рекурсивной схемой, переменные в векторе Y расставляются в таком порядке, что для любых пар индексов i и j, таких, что i & gt- j, предполагается, что прямое воздействие у ¦ на yi отсутствует- иначе говоря, матрица A в модели
(19) имеет нижнюю треугольную форму. Вместе с гипотезой ортогональности структурных шоков этого оказывается достаточно для полной идентификации модели.
Так как рекурсивная идентификация является частными случаем идентификации с помощью условий Рубио-Рамиреса и др., мы не рассматриваем подробно этот раздел литературы.
5.3. Частичная рекурсивная идентификация
Условие Рубио-Рамиреса и др. [Rubio-Ramirez, Waggoner, Zha, 2010], представленное в предыдущем разделе, покрывает многие случаи, включая рекурсивную идентификацию, однако оно не покрывает некоторые случаи, рассмотренные в литературе по частичной идентификации (см.: [Bernanke, Mihov, 1995- Christiano, Eichenbaum, Evans, 1996- Christiano, Eichenbaum, Evans, 1999]). Целью исследования может быть оценка причинноследственных связей не всей модели, а только одного уравнения. Если нам удастся идентифицировать коэффициенты в строке i системы (19), то мы сможем оценить прямое воздействие всех переменных на yi, а также общее воздействие yi на все эндогенные переменные.
Для того чтобы достичь частичной рекурсивной идентификации для yi, все переменные модели кроме yi делят на две группы, Y1 и Y2, такие, что текущие значения пе-
476
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
ременных вектора yt могут напрямую влиять на все текущие переменные системы, текущее значение yi может напрямую влиять только на Y2, а текущие значения переменных вектора Y2 могут напрямую влиять только на текущие значения других переменных этого же вектора. В результате индекс переменной yi может поменяться, однако это не
является проблемой, так как порядок переменных в векторе Y может быть произвольным. В литературе [Bernanke, Mihov, 1995- Christiano, Eichenbaum, Evans, 1996, 1999] доказывается, что если мы оценим треугольную модель с порядком переменных (Y1 yi Y2), то уравнение номер i окажется идентифицированным верно.
5.4. Графическая интерпретация методов идентификации SVAR
Если структурные шоки являются ортогональными, то помимо первичных инструментов, рассмотренных в разделе 3, для построения идентифицирующих путей мы также можем использовать рекурсивные и относительные инструменты. Эти инструменты создают дополнительные идентифицирующие пути, следовательно, позволяют идентифицировать дополнительные параметры модели.
Определение 7 (Относительный инструмент). Рассмотрим модель с ортогональными структурными шоками. Эндогенная переменная у ¦ является относительным инструментом для родителя вершины yi, если уj не является потомком yi.
Определение 8 (Рекурсивный инструмент). Рассмотрим модель с ортогональными структурными шоками. Любая идентифицированная вершина является рекурсивным инструментом для еще неидентифицированных вершин.
Теорема 3 предлагает графическую интерпретацию условия Рубио-Рамиреса и др. [Rubio-Ramfrez, Waggoner, Zha, 2010] и теории частичной идентификации. Возможность использования рекурсивных инструментов для идентификации доказывается из условия Рубио-Рамиреса и др., а возможность использования относительных инструментов — из теории частичной идентификации.
Теорема 3 (Графическая интерпретация условия Рубио-Рамиреса и др. и теории частичной идентификации, [Arefiev, 2014]). Предположим, что структурные шоки являются независимыми, следовательно, матрица X является диагональной. Если для каждого родителя yi существует независимый идентифицирующий путь, начинающийся с первичного, рекурсивного или относительного инструмента и достигающий соответствующего родителя, то вершина yi идентифицирована почти для всех значений параметров.
Вернемся к примеру (7). На рис. 2а мы показали, что вершина y2 является идентифицированной, следовательно, если мы вводим гипотезу ортогональности структурных шоков, y2 может быть использована в качестве рекурсивного инструмента для идентификации y1. В этом случае каждый из родителей y1, коими являются z1, z2 и y2, созда-
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
Ml
ет идентифицирующий путь длины единица для самого себя. Это доказывает идентификацию вершины у1.
5.5. Идентификация на основе знаковых ограничений
Ввиду того, что экономисты на данный момент не смогли подобрать набор идентифицирующих гипотез для структурных макроэконометрических моделей, с которым были бы согласны все исследователи, популярность набирают методы знаковой идентификации [Fry, Pagan, 2011- Gafarov, Olea, 2015- Kilian, Murphy, 2012- Uhlig, 2005]. Рассматриваются ограничения в форме нестрогих неравенств на отдельные параметры модели или же на функции импульсного отклика. Очевидный недостаток данного подхода заключается в том, что после наложения знаковых ограничений получается не единственная оцененная модель, а целый набор моделей. Когда же помимо неопределенности модели принимаются в расчет еще и доверительные интервалы для оцененных параметров, результаты обычно получаются неинформативными. По имеющейся у нас информации, несмотря на теоретическую привлекательность, пока что эти методы не позволили получить ни одной функции импульсного отклика, значимо отличающегося от нуля. Поэтому мы не будем останавливаться подробно на этих методах.
6. Методы идентификации, применяемые в компьютерных науках
В данном разделе мы говорим преимущественно о вероятностных моделях на графах (PGM), имеющих успех во многих приложениях, разработанных специалистами в компьютерных науках для медицины, образования, генетических исследований, распознавания образов, текстов и т. д. [Edward, 2000- Koller, 2009- Lauritzen, Spiegelhalter, 1988- Pearl, 2009- Yuan, Lin, 2007]. Мы уже частично начали рассматривать соответствующую литературу, введя понятие каузального графа в разделе 2 и предложив интерпретации известных условий идентификации на языке графических моделей. В данном разделе мы сначала рассмотрим несколько базовых понятий из теории PGM, которые будут использованы в следующих разделах, а затем приведем несколько полученных в компьютерных науках результатов, полезных для идентификации.
6.1. d-сепарация и коллайдеры
Одним из базовых инструментов анализа графических моделей является анализ d-сепарации2 вершин каузального графа. Ниже мы вводим формальное определение d-сепарации, из которого следует, что если две вершины графа являются d-сепарирован-ными, то знание значения, которое принимает случайная величина, ассоциируемая с одной вершиной графа, не позволяет улучшить прогноз для случайной величины, ассоциируемой со второй вершиной графа. Чтобы лучше понять это определение, рассмотрим пример, который демонстрирует, когда наблюдение одной случайной величины помогает или не помогает улучшить прогноз другой случайной величины.
2 Термин d-сепарация является калькой с английского d-separation, или directional separation.
478
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
Пример 4 (d-сепарация). В этом примере мы отойдем от гипотезы линейных гауссовых моделей. Предположим, что количество туристов в городе зависит только от двух переменных — близости города к морю и количества достопримечательностей. Количество туристов, в свою очередь, влияет на число отелей и сувенирных лавок. Каузальная диаграмма для данной структурной модели изображена на рис. 3.
[Достопримечательности! [Море]
LQie-пи! LMara3HHbH
Рис. 3. Каузальный граф
Рассмотрим случаи, когда одна переменная может содержать информацию о другой переменной при условии, что мы, возможно, наблюдаем какие-либо дополнительные переменные. Мы можем рассуждать следующим образом.
• Если в городе много туристов, то, вероятно, там много отелей, и наоборот. Следовательно, количество отелей и количество туристов не являются d-сепарированными.
• Если в городе много достопримечательностей, вероятно, там много туристов, а значит там, вероятно, много и отелей. Таким образом, количество достопримечательностей и количество отелей не являются d-сепарированными. Однако если мы знаем, что в городе много туристов, то информация о количестве достопримечательностей не помогает улучшить прогноз по количеству отелей, следовательно, количество достопримечательностей и количество отелей становятся d-сепарированными, когда мы наблюдаем количество туристов.
• Если в городе большое количество достопримечательностей, это может означать, что туда приезжает много туристов, однако ничего не говорит о близости города к морю. Однако если в городе почти нет достопримечательностей, но мы видим, что там много туристов, можно сделать предположение, что город, вероятно, расположен близко к морю. Такой же вывод может быть сделан, если мы знаем, что в городе много отелей. Таким образом, количество достопримечательностей и близость к морю являются d-се-парированными, если мы не наблюдаем количество туристов, количество отелей, или количество магазинов, однако они перестают быть d-сепарированными, когда мы наблюдаем хотя бы одну из этих случайных величин.
Пример 4 показывает роль коллайдеров и V-структур в распространении информации. V-структурой называется подграф вида xt ^ xk ^ x ¦, а xk в такой структуре называется коллайдером. В Примере 4 количество туристов является коллайдером, который блокирует распространение информации между количеством достопримечательностей и близостью к морю, когда мы не наблюдаем коллайдер или одного из его потомков, однако наблюдение коллайдера или одного из потомков открывает соответствующий путь.
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
479
Определение 9 (Активный путь). Путь х1 — … — xn в графе G называется активным, если в нем не встречается V-структур.
Например, путь Достопримечательности ^ Туристы ^ Магазины является активным, а путь Достопримечательности ^ Туристы ^ Море — нет.
Определение 10 (d-сепарированные вершины). Вершины х. и х. называются
d-сепарированными на графе G, если не существует активного пути между вершинами xt и Xj. Обозначение: d — SepG (xt, х.).
В Примере 4 имеем: d — SepG (Достопримечательности, Море).
Определение 11 (условно активный путь). Путь х1 — … — хп в графе G называется активным при условии Wе X, если:
(1) для каждой V-структуры xi-1 ^ xf ^ xi+1 верно, что х{ или один из его потомков является элементом множества наблюдаемых переменных W-
(2) в этом пути не встречается других х. е W.
Определение 12 (условная d-сепарация). Вершины х. и х. называются d-сепа-рированными в графе G при условии W, если не существует активного пути из х. в х,
' J
при условии W. Обозначение: d — SepG (xt, х. | W)
Если вершины xt и х ¦ являются d-сепарированными, то функции распределения соответствующих случайных величин являются независимыми: f (xt, х.) = f (xt) f (х.). Аналогично, для условной d-сепарации d — SepG (xt, х. |W) выполняется
f (X, xj |W) = f (x |W)f (xj |W).
В гауссовом случае xt и x. являются независимыми тогда и только тогда, когда corr (xt, х.) = 0, и независимыми при условии Wтогда и только тогда, когда частная корреляция corr (xt, X. | W) = 0, где частная корреляция определена как корреляция между остатками регрессий xt и х. на W.
Пример 5. Причинность по Грейнжеру и d-сепарация.
Рассмотрим структурную модель, представленную на рис. 4. В отличие от оригинального теста Грейнжера [Granger, 1969], для простоты мы рассматриваем лишь первые лаги эндогенных переменных. По определению уг не является причиной у2 по Грейнжеру, если Lag (у2) и у2 являются независимыми при условии Lag (у2), что почти для всех значений параметров верно тогда и только тогда, когда d — SepG (у2, Lag (ух) | Lag (у2)). В со-
480
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
ответствии с этим определением, на рис. 4 мы видим, что почти для всех значений параметров у1 является причиной у2 по Грейнжеру тогда и только тогда, когда существует хотя бы один из двух путей: Lag (у1) ^ у2 или Lag (у1) ^ у1 ^ у2.
Lag (yi)
Lag (у2)
У1
Рис. 4. Пример на причинность по Грейнжеру
В этом примере мы можем заметить различие между причинностью по Грейнжеру и влиянием переменных друг на друга, соответствующим Определениям 1−3 данной работы. Например, если в модели на рис 4. отсутствуют ребра Lag (у1) ^ у2 и Lag (у1 ] ^ у1, но присутствует ребро у1 ^ у2, то переменная у1 не является причиной по Грейнжеру для у2, однако у1 напрямую влияет на у2 в соответствии с Определением 3. Подробнее о том, как связаны понятия причинности по Грейнжеру с другими определениями каузальности, можно посмотреть в литературе [Dahlhaus, Eichler, 2003- Eichler, 2006- Hoover, 2006- White, Chalak, Lu, 2011].
6.2. Идентификация в компьютерных науках
Литература по компьютерным наукам рассматривает преимущественно рекурсивные модели. Если бы при этом была использована гипотеза независимости структурных шоков, то вопроса об идентификации не возникало бы, так как рекурсивные модели с ортогональными структурными шоками всегда полностью идентифицированы. Однако шоки в рассмотренных ниже утверждениях могут быть зависимыми.
Многие результаты, полученные в компьютерных науках, повторяют результаты, полученные в теориях SEM и SVAR. В данном разделе мы приводим лишь те, которым мы не нашли аналогов в указанных выше разделах литературы.
6.2.1. Идентификация на основе C-компонент
Иногда каузальные графы бывают слишком сложными для прямого графического анализа, особенно если ошибки нескольких переменных зависимы между собой. Методы идентификации, которые мы рассмотрели, могут не работать для полного графа, однако, если выделить некоторый подграф, они вновь окажутся эффективными. Для того чтобы определить такой подграф, используем понятие С-компоненты.
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
481
Определение 13 (C-компонента). Пусть V- множество всех вершин полного каузального графа G. C-компонентой вершины xt, которую мы обозначим С, называется максимальное множество вершин S с V, такое, что xt е S, и все вершины этого множества соединены друг с другом двунаправленными дугами, т. е. их ошибки попарно зависимы.
Задачу идентификации в рамках полного графа можно разбить на задачи идентификации в рамках отдельных компонент, используя следующий результат.
Теорема 4 (Идентификация с использованием С-компонент [Tian, 2005]). Рассмотрим подграф Gt, образованный С-компонентой вершины xt и родителями всех вершин, входящих в эту С-компоненту. Вершина xt идентифицирована в Gt тогда и только тогда, когда эта вершина идентифицирована и в полном каузальном графе G.
Рассмотрим пример, представленный на рис. 5а. Заметим, что вершины x3, xs и x6
принадлежат одной компоненте {x3, x5, x6 }, назовем ее C6. Следовательно, для проверки идентификации x3, x5 или x6 во всей структурной модели достаточно проверить идентификацию в подграфе G6, см. рис. 5б. Переменные xt, x2 и x4 в модели на рис. 5б обладают всеми необходимыми свойствами инструментов, следовательно, мы можем рассмотреть модель, ассоциируемую с рис. 4б, в которой x4, x2, x4 е Z, а x3, x5, x6 eY, а затем воспользоваться условием ранга, чтобы убедиться, что эти вершины идентифицированы, см. Теорему 2.
а) Полный каузальный граф
XI
б) Подграф Gb xi
Рис. 5. Полный каузальный граф и подграф G6, построенный на основе компоненты С6
6.2.2. Идентификация по правилу отсутствия арок
Определение 14 (Арка). Аркой называется подграф из двух вершин, в котором как минимум одна вершина является родителем второй и в которой ошибки не ортогональны.
Например, на рис. 5а присутствует арка x5 — x6. Используя это понятие, Брито и Перл [Brito, Pearl, 2002] предложили следующий графический критерий идентификации.
482
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
Теорема 5 (правило отсутствия арок [Brito, Pearl, 2002]). Любая рекурсивная модель, в которой нет арок, полностью идентифицирована.
Рассмотрим пример, представленный на рис. 6. Задача состоит в том, чтобы идентифицировать коэффициент a43. Данная задача не такая тривиальная, как может показаться на первый взгляд: не очевидно, выполнены ли предпосылки теоремы Гаусса — Маркова. Например, если попытаться построить регрессию х4 на х2 и х3, то возникает следующая проблема: включение в модель переменной х2 открывает путь х3 ^ х4 ^ х4, так как х2 является потомком х1. Следовательно, в этой модели присутствует механизм обратной связи от х4 к объясняющим переменным. Более того, в данной постановке задачи отсутствуют инструменты, подходящие для идентификации рассматриваемого параметра. Однако в данной модели нет арок, поэтому в соответствии с Теоремой 5 она полностью идентифицирована и все параметры могут быть оценены, например, методом максимального правдоподобия.
Рис. 6. Пример модели, удовлетворяющей условию отсутствия арок
7. Данно-ориентированная идентификация
Иногда гипотезы, использованные для идентификации, можно частично или полностью проверить на данных, и в этом случае говорят о данно-ориентированной идентификации. Множество удачных примеров приложений такого подхода в компьютерных науках описано в работе [Koller, 2009]. В экономической литературе встречаются два подхода к этой задаче: идентификация на основе гипотезы о гетероскедастичности структурных шоков и идентификация на основе анализа частичных корреляций. Кроме того, идентификацию иногда проверяют, тестируя напрямую сверхидентифицирующие ограничения, однако предыдущие два способа частично покрывают третий, являясь более удобными на практике, поэтому мы отдельно не рассматриваем третий способ.
7.1. Идентификация на основе гипотезы о гетероскедастичности
Данный метод данно-ориентированной идентификации используется в работах [Klein, Vella, 2010- Lanne, Lutkepohl, Maciejowska, 2010- Li, Muller, 2009- Lowbell, 2012- Lutke-pohl, Netsunajev, 2015- Magnussonm Mavroeidis, 2014- Rigobon, 2013- Rossi, 2005]. Предположим, что экономика может функционировать в различных режимах S4, S2SNS, отли-
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
483
чающихся друг от друга вариацией структурных шоков. Ковариационная матрица структурных шоков для первого режима по-прежнему нормирована к единице, Vt е Sk: E (eteTt) = I, однако допускается зависимость ковариационной матрицы от режима:
Vt е Sk: E (eteTt) = Лк,
где Лк — диагональная матрица с главной диагональю, состоящей из элементов X1k, X2k,¦¦¦, Кк. Если для каждой пары i, j, i Ф j существует хотя бы один режим к, в котором Xik Ф X jk, то становится возможным оценить все уравнения модели (доказательство можно найти в работе [Lanne, Lutkepohl, Maciejowska, 2010]), хотя этого не достаточно для того, чтобы ассоциировать уравнения с переменными. Этот результат продемонстрирован в следующем примере.
Пример 6. Идентификация на основе гипотезы о гетероскедастичности.
Рассмотрим следующую модель:
(29)
Л
V°21 a22)
'- У1 ]
v У)

V С2)
Из данных мы можем оценить матрицу концентрации C, которая определена как обратная матрица ковариации вектора эндогенных переменных. В режиме Sk истинная матрица концентрации зависит от параметров следующим образом:
(30) Ck = AT Л-1 A.
Предположим, что в экономике существуют два режима, в первом режиме Лх = I, а во втором режиме Л2 = diag, X2) = Л, причем Ф X2. Оценив матрицу концентра-
ции в двух режимах, получаем систему из шести уравнений с шестью неизвестными:
(31)
С11,1 = а11 + a21'-
C12,1 = aiiai2 + а21а22'-
Сц 2 — X^n + X
2 21'-
2, л «2
C22,1 ai2 +a22'- С12,2 = Xiaiiai2 + X2a2ia22'- С22,2 =Xiai2 + X2a22 '-
где Cj k — элемент (i, j) матрицы концентрации в режиме k.
Как показано в литературе [Lanne, Lutkepohl, Maciejowska, 2010], система (31) имеет два решения: первое решение — это истинная модель (29), а второе решение выглядит следующим образом:
a21 a22 f *'- f e ^ 1
v ai1 ai2 — v У- v e2 у
(32)
484
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
В соответствии с Определениями 1 и 3, модели (29) и (32) различны, так как предсказывают разное влияние у1 на у2 и у2 на у1. Следовательно, нам требуются дополнительные идентифицирующие гипотезы, чтобы отличить эти модели друг от друга.
В литературе встречаются несколько подходов к тому, как можно выделить режимы с различной вариацией структурных шоков: оцениваются модели с экзогенно заданными границами режимов, с переходом, заданным логистической функцией, с марковским переключением между режимами, а также модели, в которых структурные шоки определяются процессом GARCH. Обзор соответствующих подходов представлен в исследовании [Lutkepohl, Netsunajev, 2015].
Теория идентификации на основе анализа частичных корреляций возникла из литературы по PGM и опирается на понятие d-сепарации. Большинство работ по графической идентификации SVAR рассматривают лишь рекурсивные модели и анализируют d-сепарации, ассоциируемые лишь с матрицей A в модели (19) (см.: [Bryant, Bessler, 2011- Fra-getta, Meline, 2013- Hoover, 2005- Kwon, Bessler, 2011- Moneta, 2008- Oxley, Reale, Wilson, 2009- Reale, Wilson, 2001- Richardson, Spirtes, 1999- Wilson, Reale, 2008]). Однако такой подход позволяет полностью или частично данно-идентифицировать структурные модели лишь в редких случаях. В работе [Arefiev, 2014] этот подход обобщен до циклических моделей, также предложен метод поиска d-сепарации не только в матрице A, но и в матрицах B также рассматриваются все перекрестные d-сепарации между любой парой матриц из множества {A, Bt}. Такой подход дает намного больше ограничений включения
и исключения, что позволяет данно-идентифицировать значительно большее количество структурных моделей. В работе [Arefiev, 2014] также предложен пример использования данного метода для идентификации монетарной модели SVAR для американской экономики.
Рассмотрим подробнее, как работает этот метод. В работе [Arefiev, 2014] вводится понятие условной частной корреляции, которое является частным случаем обычной частной корреляции. В практических приложениях при оценке SVAR условную частную корреляцию можно оценить на основе следующей блочной бутстрап процедуры. На каждом шаге бутстрап мы повторяем следующие операции.
1. Из вектора Y сформировать вектор Y1 путем случайной перестановки без повторений блоков вектора Y заданной длины. Вектор Y1 аппроксимирует случайный вектор, с таким же маргинальным распределением, как и вектор Y, но независимый от вектора Z.
2. Сформировать вектор X путем случайной выборки с замещением блоков
3. Оценить матрицы концентрации C и C как обратные матрицы ковариации векторов X и Х1.
7.2. Идентификация на основе анализа частичных корреляций
X = (Y Z) и вектор Х1 путем случайной выборки с замещением блоков Xt =(y[ Zt). Порядок элементов в случайных выборках одинаков для векторов X и X1.
1.
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
485
4. Оценить матрицу условной концентрации C следующим образом:
• все элементы в строках с 1 по n и в столбцах c 1 по n скопировать из матрицы C, для любых i, j таких, что выполняется хотя бы одно условие: i & lt- n
либо j & lt- n, имеем: Cj = c, —
• элементы, расположенные ниже строки n и правее столбца n, посчитать как разницу между соответствующими элементами матриц C и C:
Vi & gt- n, j & gt- п: cj = cij — Cij.
После проведения заданного числа итераций значения C и C усредняются по всем итерациям, а значения условных частных корреляций для пары переменных xi, Xj рассчитывается следующим образом:
(33)
4
c c
ч j
j
Эти корреляции обладают следующими свойствами.
Теорема 6 (Свойства условных частных корреляций [Arefiev, 2014]). Рассмотрим модель с ортогональными структурными шоками. Условные частные корреляции, определенные (33), удовлетворяют следующим свойствам:
• для эндогенных переменных, т. е. для Vi & lt- n, имеем pii = -1-
• для инструментов, т. е. Vi & gt- n, pii = 0 тогда и только тогда, когда соответствующий инструмент не релевантен, т. е. коэффициент перед этим инструментом в каждом структурном уравнении равен нулю. В противном случае pii & lt- 0 —
• для эндогенных переменных и для инструментов, почти для всех значений параметров, Vi, j, i Ф j: pii = 0 тогда и только тогда, когда в модели нет ни одного уравнения, включающего в себя одновременно обе переменных, xi и X,. В противном слу-
' J
чае Pij е (-14].
Пример 7 (пример полной тестируемой идентификации). Рассмотрим пример, который демонстрирует, каким образом Теорема 6 может быть использована для данно-ориентированной идентификации. Возьмем модель спроса и предложения, в которой
d S
присутствуют как детерминант спроса z, так и детерминант предложения z:
(34а) q + ар = zd +?d,
(34б) q — вр = zs +?s.
Чтобы воспользоваться Теоремой 6, необходимо сделать предположение о независимости структурных шоков, E (?d?s) = 0. Изобразим частичный моральный граф, который определен как ненаправленный граф, вершинами которого являются случайные пе-
486
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
ременные модели, а каждое структурное уравнение создает клику — набор попарно смежных вершин. Этот граф изображен на рис. 7: уравнение (34а) создает клику {q, p, zd }, а уравнение (34б) — клику {q, p, Z }.
Рис. 7. Частичный моральный граф для уравнения (30)
Почти для всех значений параметров, по Теореме 6, частичный моральный граф может быть оценен из данных, что открывает возможность для данно-ориентированной идентификации. Действительно, в этом графе между двумя вершинами отсутствует ребро тогда и только тогда, когда нет ни одного структурного уравнения, в котором бы появлялась соответствующая пара переменных, что почти для всех значений параметров верно тогда и только тогда, когда соответствующая условная частная корреляция равна нулю. Оценив частичный моральный граф из данных, мы можем решить задачу покрытия графа кликами: найти настолько мало клик, насколько возможно, чтобы покрыть весь граф. В данном примере эта задача имеет единственно решение, состоящее из двух клик:
{q, p, zd } и {q, p, zs}. Зная, что исходная система состояла из двух уравнений и что задача покрытия кликами имеет единственное решение из двух клик, мы можем восстановить все ограничения включения и исключения, присутствующие в истинной модели. В данном примере этого оказывается достаточно для полной идентификации.
8. Обобщающий алгоритм
Каждый из рассмотренных выше подходов имеет свои сильные и слабые стороны. Сильной стороной методов, разработанных эконометристами, является относительная простота работы с циклическими моделями. Однако разработанные в этой литературе подходы обычно рассматривают только две крайние гипотезы относительно структурных шоков — либо все шоки могут быть попарно коррелированными, либо все шоки являются независимыми. Методы, разработанные в литературе по графическим моделям, являются более гибкими с точки зрения выбора гипотез о коррелированности шоков, однако они значительно хуже адаптированы для работы с циклическими моделями. Алгоритм, представленный в данном разделе, позволяет использовать сравнительные преимущества каждого из методов. В одном из примеров ниже мы показываем, что этот обобщающий алгоритм позволяет идентифицировать некоторые вершины, которые в противном случае не могли быть идентифицированы ни одним из рассмотренных выше методов по отдельности. Кроме того, предложенный обобщающий алгоритм может быть легко адаптирован к нелинейным и непараметрическим моделям.
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
487
Обобщающий алгоритм
Шаг 1:
• Использовать любые перечисленные в данной работе критерии для того, чтобы найти идентифицированные вершины.
Шаг 2:
• Если найдена хотя бы одна идентифицированная вершина у., оценить остатки ?, ассоциируемые с этой вершиной. В дальнейшем рассматривать оцененные остатки? в качестве инструментов для идентификации тех вершин {у. }, для который предполагается? ^? . Вернуться к шагу 1.
• Завершить алгоритм, если на шаге 1 не найдено ни одной новой идентифицированной вершины.
Возможность оценки структурных шоков на втором шаге этого алгоритма становится осуществимой потому, что идентификация i-й вершины означает идентификацию не только i-го структурного уравнения, но также и i-го структурного шока. Оценку ?
можно провести, например, методом максимального правдоподобия либо использовать двух- или трехшаговый метод наименьших квадратов. Многошаговые методы наименьших квадратов позволяют работать, в том числе, и с нелинейными или непараметрическими моделями, что обобщает рассматриваемый подход на соответствующий класс моделей. Использование? в качестве инструмента для у ¦ возможно потому, что при условии? ^ .,? отвечает всем требованиям, которые мы предъявляем к инструменту,
хотя и является оцененным, а не наблюдаемым инструментом.
Вновь вернемся к Примеру 3 и посмотрим, как предложенный алгоритм может помочь нам идентифицировать модель. Используя условие ранга, мы проверили, что вершина у2 является идентифицированной, а раз так, то мы можем оценить структурный шок ?2, например, трехшаговым методом наименьших квадратов, и нанести оцененные шоки на условный структурный граф как новую переменную, см. рис. 8a. Если мы вводим гипотезу о том, что структурные шоки? и ?2 ортогональны друг другу, то независимо от того, какие гипотезы мы делаем о матрице ковариации в целом, ?2 является валидным инструментом для оценки у1. А раз так, то для каждого родителя у1 на рис. 8а имеется независимый идентифицирующий путь, следовательно, вершина у1 идентифицирована почти для всех значений параметров. Если же мы не сделали гипотезу об ортогональности? и ?2, то можем воспользоваться тем, что условие ранга также доказывает идентификацию и у3, и если мы предполагаем ортогональность? и ?3, то можем использовать ?3 в качестве инструмента. В этом случае вершина у1 также идентифицирована, см. рис. 8б.
Обобщающий алгоритм позволяет не только использовать одновременно все доступные критерии для идентификации, но также позволяет решать новые, ранее нере-
488
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
шенные задачи. Эта возможность возникает по двум причинам. Во-первых, вершины, идентифицированные с помощью одного метода, могут рассматриваться как рекурсивные инструменты для другого метода. Во-вторых, относительные инструменты, разработанные в литературе по частичной идентификации для анализа ацикличных моделей, могут выполнять функции инструментов также и в циклических моделях.
а) Идентификация у если предполагается е _L Е2
У1 Уз
б) Идентификация у, если предполагается е _1_ ?3
У1 Уз
Рис. 8. Обобщение различных достаточных условий для идентификации
Чтобы продемонстрировать второй результат, рассмотрим следующий пример:
(35)
'- Р11 Р12 0 0 ^
Ри Р22 0 0
0 Р32 Р33 Р34
V 0 0 Р 43 Р44 у
Каузальный граф для данной модели изображен на рис. 9. Можно проверить, что ни одно условие по отдельности не позволяет идентифицировать ни одну вершину в этом графе. Однако заметим, что х2 является относительным инструментом для идентификации х4, а х4 — рекурсивным инструментом для идентификации х3. Таким образом, использование обобщающего алгоритма позволяет идентифицировать вершины х3 и х4, которые не могут быть идентифицированными рассматриваемыми методами по отдельности.
*1
*4
Рис. 9. Пример модели, в которой частичную идентификацию некоторых вершин можно доказать, используя лишь комбинацию методов из разных областей литературы
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
489
9. Сложные вопросы и нерешенные проблемы
Несмотря на успех проанализированных методов во многих областях, в литературе имеется ряд нерешенных вопросов. Во-первых, большинство рассмотренных методов работают лишь для сравнительно разряженных моделей. Если, например, все ограничения на модель накладываются в форме ограничений включения и исключения, то нам требуется как минимум n (n — 1) нулевых элементов для модели с зависимыми шоками или n (n -1)/2 нулевых элементов для модели с ортогональными шоками для того, чтобы выполнить лишь необходимые, но не достаточные условия для полной идентификации. Для случаев, когда нулевых ограничений на параметры оказывается недостаточно, в литературе ведется поиск альтернативных методов идентификации, например использования ограничений на долгосрочные функции импульсного отклика [Blanchard, Quah, 1993], либо использование гетероскедастичности структурных шоков (см. раздел 7.1 данной работы). Однако даже с использованием этих заменителей найти подходящий набор идентифицирующих ограничений обычно бывает очень сложно.
Если мы имеем набор ограничений на параметры, который является одновременно необходимым и достаточным для идентификации, то этот набор никак не ограничивает совместную функцию распределения наблюдаемых случайных величин, следовательно, не дает возможностей для данно-ориентированной идентификации. Поэтому для применения методов данно-ориентированной идентификации требуется, чтобы истинная модель удовлетворяла еще большему числу ограничений. Если же модель не является достаточно разряженной для данно-ориентированной идентификации и структурные шоки оказываются гомоскедастичными, в нашем распоряжении не останется никаких методов для проверки выбранных идентификационных гипотез, следовательно, нам придется полагаться лишь на теоретическое обоснование. Однако, как мы знаем из литературы по инструментальным переменным, выбор даже одной теоретически обоснованной гипотезы для идентификации — задача очень трудная и далеко не всегда решаемая. Для оценки же SVAR с n эндогенными переменными требуется обосновать как минимум n (n -1)/2 теоретических гипотез. Наверное, не будет преувеличением сказать, что экономисты редко верят во все те идентификационные гипотезы, которые они используют в своих работах.
Специалисты по компьютерным наукам часто впадают в другую крайность: не полагаясь на априорную теорию, они используют лишь те ограничения, которые не противоречат данным. Как правило, речь идет об оценивании рекурсивной модели и выборе такого направления ребер, которое максимизирует функцию правдоподобия с небольшим штрафом за «лишние» ребра. Проблема с данным подходом заключается в следующем. Конечной целью работы обычно является не оценка самой модели, а построение прогнозов и доверительных интервалов для каких-то показателей с помощью этих моделей. Такая процедура также включает в себя проблему последовательного тестирования гипотез: на первом шаге тестируются гипотезы, когда оценивается структурная модель, а на втором — когда с помощью этой модели оцениваются функции распределения интересующих нас параметров. Однако в настоящее время в литературе не предложено никаких надежных статистических методов для построения доверительных интервалов при последовательном тестировании гипотез, следовательно, нет никаких гарантий, что оце-
490
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
ненная модель позволит получить достоверные доверительные интервалы для оцененной модели.
Необходимо также помнить об ограничениях использования структурных эконометрических моделей, о которых говорил Лукас [Lucas, 1976]. Решение задачи идентификации в экономических задачах позволяет оценить влияние переменных друг на друга лишь при условии неизменности правил проведения политики. Если же политическое правило изменяется, то частный сектор, подстроившись под новое правило, может начать по-другому реагировать на прежние шоки, и в результате многие причинно-следственные связи изменятся. Для того чтобы оценить причинно-следственные связи в экономике с изменяющимися политическими правилами, необходимо выйти за рамки чисто статистического анализа и построить микроэкономически обоснованную модель, как это делается, например, в литературе по динамическим стохастическим моделям общего равновесия.
На наш взгляд, в современной литературе можно найти решение задачи идентификации в рамках двух классов задач. Первый класс — это задачи, решаемые методом инструментальных переменных. При использовании этого метода требуется ввести теоретически обоснованные и убедительные гипотезы для использования лишь одного инструмента, что во многих приложениях является решаемой задачей. Второй класс задач — это разряженные модели с гетероскедастичностью структурных шоков и с хорошей теоретической базой. Для таких моделей мы можем применить одновременно теоретические обоснования для выбора идентификационных гипотез и элементы данно-ориентирован-ной идентификации.
* *
*
СПИСОК ЛИТЕРА ТУРЫ
Магнус Я. Р., Катышев П. К., Пересецкий А. А. Эконометрика. Начальный курс: Учеб. 8-е изд., испр. М.: Дело, 2007.
Andrews D.W., ChengX. Estimation and Inference with Weak, Semi-Strong, and Strong Identification // Econometrica. 2012. 80. P. 2153−2211.
Arefiev N. A Theory of Data-Oriented Identification with a SVAR Application: Higher School of Economics Research Paper № WP BRP 79/EC/2014. Moscow: NRU HSE, 2014.
Bernanke B., Mihov I. Measuring Monetary Policy // Quarterly Journal of Economics. 1998. 113. 3. P. 869−902.
Blanchard O., Quah D. The Dynamic Effects of Aggregate Demand and Supply Disturbances // American Economic Review. 1993. 83. 3. P. 655−673.
Bollen K. Structural Equations with Latent Variables. New York: John Wiley, 1989.
Brito C., Pearl J. A New Identification Condition for Recursive Models with Correlated Errors // Journal Structural Equation Modeling. 2002. 9. P. 459−474.
Bryant H. L, Bessler D.A. Proving Causal Relationships Using Observational Data // Computational Economics. Forthcoming. 2011.
Chen B., Pearl J. Graphical Tools for Linear Structural Equation Modeling. Forthcoming in Psy-chometrica. 2015.
Christiano L.J., Eichenbaum M., Evans C.L. The Effects of Monetary Policy Shocks: Evidence from the Flow of Funds // Review of Economics and Statistics. 1996. 78. 1. P. 16−34.
2015
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
491
Christiano L.J., Eichenbaum M., Evans C.L. Monetary Policy Shocks: What Have we Learned and to What Extend // Handbook of Macroeconomics. Vol. 1A. Amsterdam: North Holland, 1999.
Dahlhaus R., Eichler M. Causality and Graphical Models in Time Series Analysis // Oxford Statistical Science Series. 2003. P. 115−137.
Edward D. Introduction to Graphical Modelling. 2nd ed. New York: Springer, 2000.
Eichler M. Graphical Modeling of Dynamic Relationships in Multivariate Time Series // Handbook of Time Series Analysis: Recent Theoretical Developments and Applications. 2003.
Fisher F. The Identification Problem in Econometrics. 2nd ed. NewYork: Mc Graw-Hill, 1976.
Fragetta M., Melina G. Identification of Monetary Policy in SVAR Models: A Data-oriented Perspective // Empirical Economics. 2013. 45. P. 831−844.
Fry R., Pagan A. Sign Restrictions in Structural Vector Autoregressions: A Critical Review // Journal of Economic Literature. 2011. 49. P. 938−960.
Gafarov B., Olea J.L.M. On the Maximum and Minimum Response to an Impulse in SVARS. Manuscript. 2015.
Gali J., Lopez-Salido J.D., Valles J. Technology Shocks and Monetary Policy: Assessing the Fed'-s Performance // Journal of Monetary Economics. 2003. 50. P. 723−743.
Giordani P. An Alternative Explanation of the Price Puzzle // Journal of Monetary Economics. 2004. 51. P. 1271−1296.
Granger C.W.J. Investigating Causal Relations by Econometric Models and Cross-spectral Methods // Econometrica. 1969. 37. 3. P. 424−438.
Hanson M.S. The «Price Puzzle» Reconsidered // Journal of Monetary Economics. 2004. 51. P. 13 851 413.
Hoover K.D. Automatic Inference of the Contemporaneous Causal Order of a System of Equations // Econometric Theory. 2005. P. 69−77.
Hoover K.D. Causality in Economics and Econometrics, an Entry for the New Palgrave Dictionary of Economics: Working Paper. Duke University, 2006.
Imbens G. Instrumental Variables: an Econometrician'-s Perspective: NBER Working Paper 19 983.
2014.
Kilian L., Murphy D.P. Why Agnostic Sign Restrictions are not Enough: Understanding the Dynamics of Oil Market VAR Models // Journal of the European Economic Association. 2012. 10. P. 1166−1188.
Klein R., Vella F. Estimating a Class of Triangular Simultaneous Equations Models without Exclusion Restrictions // Journal of Econometrics. 2010. P. 154−164.
Kwon D.H., Bessler D. Graphical Methods, Inductive Causal Inference, and Econometrics: A Literature Review // Computational Economics. 2011. 38. P. 85−106.
Koller D. Probabilistic Graphical Models: Principles and Techniques (Adaptive Computation and Machine Learning Series). The MIT Press, 2009.
Lanne M., Ltitkepohl H., Maciejowska K. Structural Vector Autoregressions with Markov Switching // Journal of Economic Dynamics and Control. 2010. 34. P. 121−131.
Lauritzen S.L. Graphical Models. Oxford University Press, 1996.
Lauritzen S.L., Spiegelhalter D.J. Local Computations with Probabilities on Graphical Structures and Their Application to Expert Systems // Journal of the Royal Statistical Society. Series B (Methodological). 1988. 50. P. 157−224.
Li H., Muller U.K. Valid Inference in Partially Unstable GMM Models // Review of Economic Studies. 2009. 76.
Lowbel A. Using Heteroskedasticity to Identify and Estimate Mismeasured and Endogenous Regressor Models // Journal of Business and Economic Statistics. 2012. 1. P. 67−80.
Lucas R. Econometric Policy Evaluation: A Critique // Brunner K., Meltzer A. The Phillips Curve and Labor Markets. Carnegie-Rochester Conference Series on Public Policy 1. New York: American Elsevier, 1976. P. 19−46.
Lutkepohl H., Netsunajev A. Structural Vector Autoregressions with Heteroskedasticity: A Comparison of Different Volatility Models: SFB 649 Discussion Paper 2015−015. 2015.
492
ЭКОНОМИЧЕСКИЙ ЖУРНАЛ ВШЭ
№ 3
Magnusson L. M, Mavroeidis S. Identification Using Stability Restrictions // Econometrica. 2014. 82. P. 1799−1851.
Moneta A. Graphical Causal Models and VARs: An Empirical Assessment of the Real Business Cycles Hypothesis // Empirical Economics. 2008. 35. 2. P. 275−300.
Oxley L., Reale M., Wilson G. Constructing Structural VAR Models with Conditional Independence Graphs // Mathematics and Computers in Simulation. 2009. 79. P. 2910−2916.
PearlJ. Causality Models, Reasoning, and Inference. 2nd ed. Cambridge University Press, 2009.
Pearl J. Trygve Haavelmo and the Emergence of Causal Calculus // Econometric Theory. Special Issue on Haavelmo Centennial. 2014.
Reale M., Wilson G. Identification of Vector AR Models with Recursive Structural Errors Using Conditional Independence Graphs // Statistical Methods and Applications. 2001. 10. P. 49−65.
Richardson T., Spirtes P. Automated Discovery of Linear Feedback Models // Computation, Causation and Discovery / ed. by C. Glymour, Cooper G.F. Menlo Park: MIT Press, 1999.
Rigobon R. Identification Through Heteroskedasticity // Review of Economics and Statistics. 2013. 85. P. 777−792.
Romer D. Advanced Macroeconomics. McGraw-Hill, 2011.
Rossi B. Optimal Tests for Nested Model Selection with Underlying Parameter Instability // Econometric Theory. 2005. 5. P. 962−990.
Rothenberg T.J. Identification in Parametric Models // Econometrica: Journal of the Econometric Society. 1971. P. 577−591.
Rubin H., Leipnik R.B. Measuring the Equation Systems of Dynamic Economics // Statistical Inference in Dynamic Economic Models. Cowles Commission Monograph, 1950.
Rubio-Rami'-rez J.F., Waggoner D.F., Zha T. Structural Vector Autoregressions: Theory of Identification and Algorithms for Inference // The Review of Economic Studies. 2010. 77. P. 665−696.
Sims C.A. Macroeconomics and Reality // Econometrica. 1980. 48. P. 1−48.
Sims C. Interpreting the Macroeconomic Time Series Facts: The Effects of Monetary Policy // European Economic Review. 1992. 36. P. 2−16.
Tian J. Identifying Direct Causal Effects in Linear Models // Proceedings of the National Conference on Artificial Intelligence. Vol. 20. Menlo Park, CA- Cambridge, MA- London- AAAI Press- MIT Press, 2005.
Uhlig H. What are the Effects of Monetary Policy on Output? Results from an Agnostic Identification Procedure // Journal of Monetary Economics. 2005. 52. 2. P. 381−419.
White H., Chalak K., Lu X. Linking Granger Causality and the Pearl Causal Model with Settable Systems // Journal of Machine Learning Research, Workshop and Conference Proceedings. 2011. 12. P. 1−29.
Wilson G.T., Reale M. The Sampling Properties of Conditional Independence Graphs for I (1) Structural VAR Models // Journal of Time Series Analysis. 2008. 29. P. 802−810.
Wooldridge J. Introductory Econometrics: A Modern Approach // Cengage Learning. 2012. Ch. 16.
Yuan M., Lin Y. Model Selection and Estimation in the Gaussian Graphical Models // Biometrica. 2007. 90. P. 831−844.
2015
HSE Economic Journal
493
From Correlation to Causation: Econometric versus Computer Science Approaches
Arefiev Nikolay1, Kusnetzov Sergey2, Ponomarev Kirill3
1 National Research University Higher School of Economics,
20, Myasnitskaya st., Moscow, 101 000, Russian Federation.
E-mail: n. arefiev@gmail. com
2 National Research University Higher School of Economics,
20, Myasnitskaya st., Moscow, 101 000, Russian Federation.
E-mail: kusnetzov. sergey@gmail. com
3 National Research University Higher School of Economics,
20, Myasnitskaya st., Moscow, 101 000, Russian Federation.
E-mail: ponomkirill@gmail. com
We compare approaches to identification of structural models developed in econometrics and computer science literature. In the econometric literature we consider the method of instrumental variables, the rank condition for simultaneous equations models, and various conditions for identification from the theory of structural vector autoregressions. In the computer science, we consider the literature on causality within the theory of probabilistic graphical models. Most results have been translated into two languages: the language of linear algebra, which is ubiquitous in econometric literature, and the language of graphical models, which is popular in computer science. Each approach that we consider has its relative advantages and weaknesses: the approach developed in computer science is more flexible when working with intricate structural shocks independence structures, and the approach developed in econometrics is more efficient for cyclical models. We also propose a unifying procedure for identification that uses advantages of both approaches. Using this procedure, the researcher can easily translate the results from one branch of the literature into the language of the other, and fully or partially identify new models, which could not be identified using any of the considered approaches separately from the others. We also review the literature on data-oriented identification, where the identification restrictions are not only theoretically justified, but also fully or partially empirically verified. Most results are formulated within linear Gaussian models- however, the unifying procedure of identification easily generalizes to nonlinear, non-Gaussian, or even nonparametric models.
Key words: identification- structural models- probabilistic graphical models- causality- instrumental variables- simultaneous equations models- structural vector autoregressions.
JEL Classification: C30.
494
HSE Economic Journal
No 3
* *
*
References
Magnus Ja.R., Katyshev P.K., Pereseckij A.A. (2007) Jekonometrika. Nachal’nyj kurs: Ucheb. 8-e izd., ispr. [Econometries. The Initial Course. Tutorial. 8 th ed. corrected]. Moscow: Delo.
Andrews D.W., Cheng X. (2012) Estimation and Inference with Weak, Semi-Strong, and Strong Identification. Econometrica, 80, pp. 2153−2211.
Arefiev N. A (2014) Theory of Data-Oriented Identification with a SVAR Application. Higher School of Economics Research Paper no WP BRP 79/EC/2014. Moscow: NRU HSE.
Bernanke B., Mihov I. (1998) Measuring Monetary Policy. Quarterly Journal of Economics, 113, 3, pp. 869−902.
Blanchard O., Quah D. (1993) The Dynamic Effects of Aggregate Demand and Supply Disturbances. American Economic Review, 83, 3, pp. 655−673.
Bollen K. (1989) Structural Equations with Latent Variables. New York: John Wiley.
Brito C., Pearl J. (2002) A New Identification Condition for Recursive Models with Correlated Errors. Journal Structural Equation Modeling, 9, pp. 459−474.
Bryant H. L, Bessler D.A. (2011) Proving Causal Relationships Using Observational Data. Computational Economics. Forthcoming.
Chen B., Pearl J. (2015) Graphical Tools for Linear Structural Equation Modeling. Forthcoming in Psychometrica.
Christiano L.J., Eichenbaum M., Evans C.L. (1996) The Effects of Monetary Policy Shocks: Evidence from the Flow of Funds. Review of Economics and Statistics, 78, 1, pp. 16−34.
Christiano L.J., Eichenbaum M., Evans C.L. (1999) Monetary Policy Shocks: What Have we Learned and to What Extend. Handbook of Macroeconomics, vol. 1A. Amsterdam: North Holland.
Dahlhaus R., Eichler M. (2003) Causality and Graphical Models in Time Series Analysis. Oxford Statistical Science Series, pp. 115−137.
Edward D. (2000) Introduction to Graphical Modelling. 2nd ed. New York: Springer.
Eichler M. (2003) Graphical Modeling of Dynamic Relationships in Multivariate Time Series. Handbook of Time Series Analysis: Recent Theoretical Developments and Applications.
Fisher F. (1976) The Identification Problem in Econometrics. 2nd ed. NewYork: Mc Graw-Hill.
Fragetta M., Melina G. (2013) Identification of Monetary Policy in SVAR Models: A Data-oriented Perspective. Empirical Economics, 45, pp. 831−844.
Fry R., Pagan A. (2011) Sign Restrictions in Structural Vector Autoregressions: A Critical Review. Journal of Economic Literature, 49, pp. 938−960.
Gafarov B., Olea J.L.M. (2015) On the Maximum and Minimum Response to an Impulse in SVARS. Manuscript.
Gall'- J., Lopez-Salido J.D., Valles J. (2003) Technology Shocks and Monetary Policy: Assessing the Fed'-s Performance. Journal of Monetary Economics, 50, pp. 723−743.
Giordani P. (2004) An Alternative Explanation of the Price Puzzle. Journal of Monetary Economics, 51, pp. 1271−1296.
Granger C.W.J. (1969) Investigating Causal Relations by Econometric Models and Cross-spectral Methods. Econometrica, 37, 3, pp. 424−438.
Hanson M.S. (2004) The «Price Puzzle» Reconsidered. Journal of Monetary Economics, 51, pp. 13 851 413.
Hoover K.D. (2005) Automatic Inference of the Contemporaneous Causal Order of a System of Equations. Econometric Theory, pp. 69−77.
Hoover K.D. (2006) Causality in Economics and Econometrics, an Entry for the New Palgrave Dictionary of Economics. Working Paper, Duke University.
2015
HSE Economic Journal
495
Imbens G. (2014) Instrumental Variables: an Econometrician'-s Perspective. NBER Working Paper
19 983.
Kilian L., Murphy D.P. (2012) Why Agnostic Sign Restrictions are not Enough: Understanding the Dynamics of Oil Market VAR Models. Journal of the European Economic Association, 10, pp. 1166−1188.
Klein R., Vella F. (2010) Estimating a Class of Triangular Simultaneous Equations Models without Exclusion Restrictions. Journal of Econometrics, pp. 154−164.
Kwon D.H., Bessler D. (2011) Graphical Methods, Inductive Causal Inference, and Econometrics: A Literature Review. Computational Economics, 38, pp. 85−106.
Koller D. (2009) Probabilistic Graphical Models: Principles and Techniques (Adaptive Computation and Machine Learning Series). The MIT Press.
Lanne M., Lutkepohl H., Maciejowska K. (2010) Structural Vector Autoregressions with Markov Switching. Journal of Economic Dynamics and Control, 34, pp. 121−131.
Lauritzen S.L. (1996) Graphical Models. Oxford University Press.
Lauritzen S.L., Spiegelhalter D.J. (1988) Local Computations with Probabilities on Graphical Structures and Their Application to Expert Systems. Journal of the Royal Statistical Society, Series B (Methodological), 50, pp. 157−224.
Li H., Muller U.K. (2009) Valid Inference in Partially Unstable GMM Models. Review of Economic Studies, 76.
Lowbel A. (2012) Using Heteroskedasticity to Identify and Estimate Mismeasured and Endogenous Regressor Models. Journal of Business and Economic Statistics, 1, pp. 67−80.
Lucas R. (1976) Econometric Policy Evaluation: A Critique. Brunner K., Meltzer A. The Phillips Curve and Labor Markets. Carnegie-Rochester Conference Series on Public Policy 1. New York: American Elsevier, pp. 19−46.
Lutkepohl H., Netsunajev A. (2015) Structural Vector Autoregressions with Heteroskedasticity: A Comparison of Different Volatility Models. SFB 649 Discussion Paper 2015−015.
Magnusson L. M, Mavroeidis S. (2014) Identification Using Stability Restrictions. Econometrica, 82, pp. 1799−1851.
Moneta A. (2008) Graphical Causal Models and VARs: An Empirical Assessment of the Real Business Cycles Hypothesis. Empirical Economics, 35, 2, pp. 275−300.
Oxley L., Reale M., Wilson G. (2009) Constructing Structural VAR Models with Conditional Independence Graphs. Mathematics and Computers in Simulation, 79, pp. 2910−2916.
Pearl J.(2009) Causality Models, Reasoning, and Inference. 2nd ed. Cambridge University Press.
Pearl J. (2014) Trygve Haavelmo and the Emergence of Causal Calculus. Econometric Theory, Special Issue on Haavelmo Centennial.
Reale M., Wilson G. (2001) Identification of Vector AR Models with Recursive Structural Errors Using Conditional Independence Graphs. Statistical Methods and Applications, 10, pp. 49−65.
Richardson T., Spirtes P. (1999) Automated Discovery of Linear Feedback Models. Computation, Causation and Discovery (eds. C. Glymour, Cooper G.F.), Menlo Park: MIT Press.
Rigobon R. (2013) Identification Through Heteroskedasticity. Review of Economics and Statistics, 85, pp. 777−792.
Romer D. (2011) Advanced Macroeconomics. McGraw-Hill.
Rossi B. (2005) Optimal Tests for Nested Model Selection With Underlying Parameter Instability. Econometric Theory, 5, pp. 962−990.
Rothenberg T.J. (1971) Identification in Parametric Models. Econometrica: Journal of the Econometric Society, pp. 577−591.
Rubin H., Leipnik R.B. (1950) Measuring the Equation Systems of Dynamic Economics. Statistical Inference in Dynamic Economic Models. Cowles Commission Monograph.
Rubio-Rami'-rez J.F., Waggoner D.F., Zha T. (2010) Structural Vector Autoregressions: Theory of Identification and Algorithms for Inference. The Review of Economic Studies, 77, pp. 665−696.
Sims C.A. (1980) Macroeconomics and Reality. Econometrica, 48, pp. 1−48.
496
HSE Economic Journal
No 3
Sims C. (1992) Interpreting the Macroeconomic Time Series Facts: The Effects of Monetary Policy. European Economic Review, 36, pp. 2−16.
Tian J. (2005) Identifying Direct Causal Effects in Linear Models. Proceedings of the National Conference on Artificial Intelligence, vol. 20. Menlo Park, CA- Cambridge, MA- London- AAAI Press- MIT Press.
Uhlig H. (2005) What are the Effects of Monetary Policy on Output? Results from an Agnostic Identification Procedure. Journal of Monetary Economics, 52, 2, pp. 381−419.
White H., Chalak K., Lu X. (2011) Linking Granger Causality and the Pearl Causal Model with Settable Systems. Journal of Machine Learning Research, Workshop and Conference Proceedings, 12, pp. 1−29.
Wilson G.T., Reale M. (2008) The Sampling Properties of Conditional Independence Graphs for I (1) Structural VAR Models. Journal of Time Series Analysis, 29, pp. 802−810.
Wooldridge J. (2012) Introductory Econometrics: A Modern Approach. Cengage Learning, ch. 16.
Yuan M., Lin Y. (2007) Model Selection and Estimation in the Gaussian Graphical Models. Bio-metrica, 90, pp. 831−844.
Подписано в печать 06. 10. 2015. Формат 70*100 1/i6-Печ. л. 12,0. Тираж 500 экз. Заказ №

ПоказатьСвернуть
Заполнить форму текущей работой