Модель идентификации личности на основе медицинской информации

Тип работы:
Реферат
Предмет:
ТЕХНИЧЕСКИЕ НАУКИ


Узнать стоимость

Детальная информация о работе

Выдержка из работы

УДК 6549−681. 3
Г. А. Попов, И. М. Космачева Астраханский государственный технический университет
МОДЕЛЬ ИДЕНТИФИКАЦИИ ЛИЧНОСТИ НА ОСНОВЕ МЕДИЦИНСКОЙ ИНФОРМАЦИИ
Введение
Переход общества на качественно новый уровень информационного обмена, повсеместное внедрение компьютерных технологий обработки медицинской информации, развитие корпоративных информационных систем требуют нового подхода к разработке правовых и технологических гарантий защиты информации, в том числе составляющей врачебную тайну, от несанкционированного доступа. В данной работе предлагается модель, которая позволяет количественно оценить вероятность утечки информации в процессе обработки медицинских данных. Такая модель позволит обеспечить количественный контроль защиты медицинской информации от ее несанкционированного использования.
Анализ проблемы
Информация о факте обращения за медицинской помощью и определенные сведения, связанные с этим, составляют врачебную тайну, их предоставление третьим лицам определено законом [1]. Нарушение тайны влечет за собой ответственность в соответствии с законодательством Российской Федерации [2, 3]. Перечень случаев, когда предоставление сведений, составляющих врачебную тайну, допускается без согласия гражданина или его законного представителя, является ограниченным и определен законодательством [1]. В то же время существуют законы, предусматривающие ответственность (в том числе уголовную [2]) за нарушение неприкосновенности частной жизни граждан. Таким образом, проблема сохранения врачебной тайны остается разрешенной не полностью. Использование врачебной тайны возможно с согласия гражданина или его законного представителя.
Допускается передача сведений, составляющих врачебную тайну, другим гражданам, в том числе должностным лицам, в интересах обследования и лечения пациента, для проведения научных исследований, публикаций в научной литературе, использования этих сведений в учебном процессе и в иных целях [1]. Важные исследовательские задачи невозможно решить, не имея больших массивов медицинской информации. Однако запрет или ограничение на доступ исследователей к личной медицинской информации пациентов без получения согласия сотен, тысяч или десятков тысяч индивидов сделал бы подобные исследования практически невозможными. Не придает уверенности и утверждение о том, что устранение информации, удостоверяющей личность (обезличивание) [3], может решить все проблемы, связанные с конфиденциальностью. Ведь оставшаяся в «лишенных идентичности» базах данных информация, включая дату рождения, пол и т. п., после сопоставления с открытыми для доступа базами данных позволит установить четкую связь между историей болезни и конкретным лицом.
Медицинская тайна традиционно считалась наиболее характерным видом конфиденциальной информации. Обеспечение конфиденциальности пациента идет вразрез, например, с интересами индустрии медицинского страхования. С введением в действие Закона Российской Федерации «О медицинском страховании граждан в Российской Федерации» [4] и созданием системы обязательного медицинского страхования доступ к сведениям, составляющим врачебную тайну, получают такие участники обязательного медицинского страхования, как страховщики, территориальные фонды обязательного медицинского страхования. Минздравом Р Ф (приказ № 291) и Фондом социального страхования (приказ № 167) утвержден совместный приказ от 6 октября 1998 г. «Об утверждении Инструкции о порядке осуществления контроля за организацией экспертизы временной нетрудоспособности» [5]. Инструкция предусматривает, что для оценки работы проверяющим должны быть представлены в том числе медицинские карты амбулаторных и стационарных больных. Соответственно расширяется перечень оснований, установленный Основами об охране здоровья граждан [1], при наличии которых сведения, составляющие врачебную тайну, могут быть раскрыты без согласия пациента. Подобное положение не соответствует действующему законодательству. В то же время жесткая защита конфи-
денциальной информации в медицине, ограничение доступа к ней не должно сказываться на качестве предоставляемых медицинских услуг, эффективности проводимого лечения, на результатах научных исследований и осложнять их проведение. Актуальной является разработка технологии использования медицинской информации, которая оптимально сочетала бы в себе необходимость защиты врачебной тайны, регламентации обмена конфиденциальными данными и использования сведений медицинского характера для оказания эффективной и качественной помощи пациентам, проведения научно-исследовательских работ.
С данной задачей связана проблема возможности идентификации личности на основе данных лабораторных анализов, опросов пациентов, исследований, проводимых в ходе медицинской деятельности. Эта проблема встает перед человеком, нуждающимся в помощи специалистов, и в то же время желающим застраховать себя от возможности использования конфиденциальной информации во вред себе. Для решения этой задачи сформируем модель идентификации личности по набору значений диагностических показателей. В доступной литературе подобной модели авторам найти не удалось.
Модель идентификации личности
Рассмотрим следующую формализованную модель, устанавливающую степень идентификации личности по набору значений диагностических признаков. Назовем набор всех возможных признаков медицинским образом (картой).
Пусть X = (Хь Х2, …, Хп} - множество диагностических признаков, по которым устанавливаются возможные заболевания человека.
Набор имеющихся заболеваний, если он достаточно редкий, позволяет с большой вероятностью идентифицировать личность, особенно если такая информация дополняется какими-то справочными сведениями о человеке (пол, вес, др.). В свою очередь, для каждого набора заболеваний характерно свое сочетание значений диагностических признаков. Таким образом, по комбинации значений диагностических показателей можно с определенной вероятностью идентифицировать личность. При этом чем реже наблюдается комбинация, тем она уникальнее, тем выше вероятность идентификации, реальнее утечка информации о пациенте. В рамках предлагаемой модели уровень опасности распространения врачебной тайны будет связан с расчетом вероятности
Р (Х, = X!, X 2 = *2, …, Хк = хк) =
= Р (X, = х,)• Р (X2 = *2 |Х, = х,)… Р (Хк = *к|Х, = х, …, Хк_, = хы).
Вероятность заданного сочетания значений диагностических показателей должна быть близка к нулю в случае идентификации личности.
Такая форма расчета вероятности предполагает большой объем статистической информации, а в случае большого количества комбинаций признаков и вариации их значений становится затруднительной даже с использованием ЭВМ. Анализ структуры данных подобного рода требует привлечения многомерных моделей. В статистической литературе (и в медицинской в том числе) основное внимание уделяется методам классического статистического анализа преимущественно одномерных совокупностей. Многомерный анализ не очень развит, особенно в нетривиальных ситуациях (зависимые случайные величины, дискретные значения переменных). В первом приближении для изучения данной проблемы можно предложить следующую модель.
Предполагается, что имеются некоторые данные о пациентах, сгруппированные по имеющимся заболеваниям.
Фиксировались жалобы пациента, объективный статус (включая измерение артериального давления, частоты сердечных сокращений, другие данные обследования), результаты лабораторных исследований, инструментальных исследований, которые вносились в одну из матриц
В1, …, Вт.
(
В1
а
її
а,
V Лї
К ї
а
Л
їпї
а
КЛ
(
Вт =
а
її
аК і
V Ктї
… а

їпт
… а.
где а7 — значение 7-го признака і-го больного с диагнозом Ът.
Связь заболеваний с характерными для них значениями диагностических признаков можно описать векторами Ъ1, Ъ2, …, Ът (образ болезни):
Ъ1 = (Ъ1(1), Ъ1(2), Ъ1(п,), …, Ът = (Ъ?& gt-, Ъ (т …, ътт)), где Ъ/(1) — наиболее вероятное значение (мода) 1-го признака при /-м заболевании. Для признаков, измеряемых в номинальных шкалах, можно использовать метод Харрингтона для оцифровки их значений [6]. Все значения признаков заболевания или определенного состояния человека первоначально преобразуем в номинальные (логические), принимающие только два значения: 0 (отсутствует патология) и 1 (присутствует патология). Для признаков, по которым отсутствует информация, 0 или 1 устанавливаются из следующих соображений: если наиболее вероятному значению признака соответствует отсутствие патологии, присваивается ноль, в противном случае — 1.
Затем строим матрицы 5 (/ = 1, 2, …, т) для групп пациентов с одним из диагнозов — Ъ1, Ъ2, …, Ът:
V Л1
кЛ
1п,
к, щ
11
11
s
5 т =
(5 .У ^
Л11 А1п"
. sк 1 … Sk п /
V Кт1 ктпт J
где s
V
[1, есть патология,
[0, нет патологии.
. 1 к/
Тогда 1/ (1) = - У — частота патологии 1-го признака при /-м заболевании. Таким обра-
к/ к=1
зом, можно установить классы различных симптомов: неспецифические, специфические, высокоспецифические и патогномоничные. Симптом, встречающийся при разных заболеваниях, определяется как неспецифический. Специфический симптом — это симптом, часто встречающийся при определенном заболевании (р & gt->- 0,5) — высокоспецифический — практически обязательный признак заболевания (р & gt->- 0,7). Симптомы, наблюдающиеся только при одном заболевании, имеют абсолютное диагностическое значение и называются патогномоничными (р = 1). Аналогичным образом можно установить степень использования информации о значении 1-го признака при /-м заболевании, которая может быть различной в разных медицинских учреждениях.
рт =
р11
Ркт
Р1п
Ркт
где Р" =
1, используется,
½, редко используется, 0, не используется.
Тогда р1 (1) = - У рк1 — частота применения информации о значении 1-го признака при /-м
1
к.
к=1
заболевании.
Такую информацию можно получить и с помощью экспертного опроса специалистов.
По этой информации пациентов можно первоначально разделить на две группы: типичные, нетипичные. Представляет интерес изучение распределений значений признака и сочетаемости (несочетаемости) данного диагностического признака с другими.
По такой информации можно получить первичную приближенную оценку возможной идентификации пациента из имеющейся группы.
т
п
к
В силу возможной зависимости принимаемых значений признаков при наличии нескольких заболеваний, значения некоторых признаков могут выходить за границы, характерные для отдельных заболеваний. Поэтому, в общем случае, исходная информация должна задаваться в виде условных вероятностей Р (х1, …, хп | Ь., …, Ь.) для разных наборов болезнейЬ., …, Ь^.
Практически построить набор указанных вероятностей крайне сложно, поэтому компромиссным является задание зависимостей между значениями диагностических признаков и заболеваниями корелляционной матрицей Я, описывающей попарную зависимость.
С (Ъл) Р11
Р1п
Р п1
(Ъ, к)
(Ъ к)
где р. характеризует связь между /-м и ,-м признаками при наличии заболевания Ь
.к 2, …, т}.
В матрице Яьд1, к, Ък)
р. Ъ. Ъ к) = шах'-
{р//
(Ъ1)
¦ Р,
(Ъ к)
характеризует связь между /-м и -м
признаками при наличии комплекса заболеваний Ь, …, Ь, к =1… т.
Признаки могут быть как однотипными, что бывает редко, так и разнотипными. Под этим термином понимается их различная метрологическая оценка. Поэтому для описания тесноты связи могут быть использованы разные модели: коэффициент сопряженности, ассоциации, би-сериальный коэффициент корреляции, ранговый, коэффициент корреляции Пирсона.
Построение корреляционных матриц позволит проанализировать зависимость случайных величин, определить комбинации признаков, совместное распределение которых значимо не отличается от совместного распределения этих признаков с дополнительными.
Центральная предельная теорема показывает, что в случае, когда результат измерения (наблюдения) складывается под действием многих причин, причем каждая из них вносит лишь малый вклад, а совокупный итог определяется аддитивно, распределение результата измерения (наблюдения) близко к нормальному. Известно, что многие медицинские данные подчинены логнормальному, нормальному распределению [7]. Очевидно, что многомерный нормальный закон далеко не всегда является наилучшей моделью для описания реально наблюдаемых многомерных случайных величин. Однако в литературных источниках очень трудно найти примеры использования в этих целях других математических моделей. Нас интересует вопрос, насколько корректны выводы, если истинная модель многомерного закона в той или иной мере отличается от нормального.
Требуется дальнейшее исследование, анализ результатов аппроксимации многомерного распределения с помощью нормального закона, условия его допустимого использования.
Так, пусть случайная величина (Х1, Х2, …, Хп) распределена по п-мерному нормальному закону с плотностью
Ф (Х^ Х2, …, Хп) =-
1
-2 У У КУ 2 /=1]=1
(-1)
(х/ -а/)(х, -а,)
2 л 2 К
где а/ - математическое ожидание одномерной составляющей X- (/ = 1, 2, …, п) — |К/ | - определитель ковариационной матрицы (кЛ случайной величины (Х1, Х2, ., Хп):
(к& gt-)=
к" Кг
к" к,
К К п2
К
К/, = М[(X/ - а-)(X, — а,)], /,. = 1, п,
К. 1 — элементы матрицы, обратной по отношению к ковариационной матрице (К.).
Р
е
п
Используя предположение о совместном нормальном распределении значений диагностических признаков, запишем:
х, +А, х2 +Л2 хк +Ак
Р (Х, = х, X2 = Х2,…, Хк = Хк) = | | … |(р (X, X2,…, Хк) СХ, … СХк.
Х1 Х2 Хк
В силу того, что эта вероятность может оказаться слишком малой величиной, дополнительно пронормируем ее:
^+А1 Х2 +Л2 Хк +Ак
| | … |р (X, X2, …, Хк) СХ, … йХк
Х Х2 ^к
Р (Х, = х, X 2 = Х2, …, Хк = Хк) =
тах (Р (X, X 2, …, Хк))
Нормальный закон является предельным для законов распределения непрерывных случайных величин, но и многие дискретные случайные величины при наложении стремятся к нормальному. Встает вопрос: нельзя ли многомерное распределение дискретных величин задать известным теоретическим законом, используя ковариационную матрицу?
Для дискретных величин (в том числе номинальных, с присвоенными метками 0,, и т. д.) предлагается такая модель:
X, Х2 — две дихотомические переменные, описывающие, например, пол человека и его предрасположенность к какому-то заболеванию (наследственность), принимающие случайные бинарные значения. Сопоставим множеству случайных точек (X, Х2) нормальный закон распределения следующим образом:
Р, Р2
Р (Х, = Х, X 2 = Х2) = | | р (Х, X 2) СХ, СХ 2 ,
а, а2
если х. = 0, то а. = -?, р. =, 2, если х. =, то а. =, 2, Р. = +?.
Тогда вероятность заданного сочетания значений всех диагностических показателей будет вычисляться по формуле
а, а 2 ак
Р (X, = Х, X2 = Х2, …, Хк = Хк) = 11… |р (X, Х2, …, Хк) СХ, … СХк. (Ц
Р, Р2 Рк
, Для непрерывной величины Х{.
а =х, Р =х +Аг.
2. Для дискретной величины X, с принимаемыми значениями 0,, …, N если х. = 0, то а. = -?, Р. =, 2, если х. = I,, & lt- I & lt- N -, то а. = I —, 2, Р. = I +, 2, если х. =, то а. = N —, 2, Р. =+?.
В формуле (,) размерность может быть плавающей, в зависимости от числа признаков, которые будут участвовать в идентификации. Комбинации признаков и их значений можно смоделировать в ходе имитационного эксперимента, качество и точность решения с использованием формулы (,) сравнивается с эмпирическим распределением данных. Для тестирования метода на устойчивость, специфичность, чувствительность будем формировать случайные выборки разного объема с данными о пациентах.
Таким образом, на основе описанной модели может быть реализована процедура возможной идентификации личности по комбинации значений диагностических признаков.
Процедура состоит из следующих этапов:
, Формирование и классификация диагностических признаков.
2. Сбор фактической информации о значениях выделенных показателей на основе данных амбулаторных карт, историй болезни.
3. Формирование ковариационной матрицы по данным, полученным на втором этапе.
4. Расчет вероятности по формуле (!) при заданном наборе конкретных значений диагностических признаков.
5. Задается уровень, А — достоверность идентификации (число, близкое к нулю, значение которого целесообразно выбирать исходя из размера выборки), с которым сравнивается вычисленное значение вероятности на предыдущем этапе. Если вероятность Р & lt- А, то ассоциируем имеющийся набор значений диагностических признаков с заданной личностью.
Заключение
Предлагаемая формализованная процедура оценки вероятности утечки информации впервые позволяет создать аппарат количественного контроля за распределением доступа к врачебной информации, ее распространением. Представляется, что предложенный метод оценки степени возможной идентификации личности при обработке медицинских данных может являться инструментарием в комплексном анализе проблемы обеспечения защиты персональных данных. Большие объемы медицинских баз данных, длительные сроки хранения такой информации требуют некоторой специальной технологии, контролирующей процессы обработки подобного рода информации с разграничением прав доступа к информации на основе вычисленного коэффициента «узнаваемости», которая может опираться на предлагаемые в работе подходы. Метод, безусловно, требует дальнейшей проверки и уточнения.
СПИСОК ЛИТЕРА ТУРЫ
,. Основы законодательства Российской Федерации об охране здоровья граждан (приняты Верховным Советом Р Ф 22. 07. 93 г. № 5488-,).
2. Уголовный кодекс РФ от, 3 июня, 996 г. № 63-Ф3 (последнее изменения внесены 27 июля 2006 г.)
3. Федеральный закон Российской Федерации от 27. 07. 2006 №, 52-ФЗ «О персональных данных».
4. Закон Российской Федерации от 28. 06., 99, №, 499-, «О медицинском страховании граждан в Российской Федерации».
5. Приказ Минздрава Р Ф № 29, и Фонда социального страхования №, 67 «Об утверждении Инструкции о порядке осуществления контроля за организацией экспертизы временной нетрудоспособности».
6. Ларичев О. И., Мошкович Е. М. Качественные методы принятия решений. Вербальный анализ решений. — М.: Физматлит,, 996. — 208 с.
7. Петри А., Сэбин К. Наглядная статистика в медицине: Учеб. пособие для вузов / Пер. с англ. — М.: ГЭОТАР МЕД, 2003. —, 44 с.
Получено, 6., 0. 2006
THE MODEL OF PERSONAL IDENTIFICATION ON THE BASIS OF MEDICAL INFORMATION
G. A. Popov, I. M. Kosmacheva
The formalized model of possible personal identification while processing medical data is offered in the work. In the basis of the model there is a calculation of the probability of acceptance of fixed values by setting the diagnostic factors. This probability under the small values speaks about the possibility of personal identification. Checking the degree of this probability will allow tracking and prevention of the attempts of the unauthorized access to the medical information of restricted access. The given model can be an instrument in the complex analysis of the problem of the personal data securing. The proposed approaches can be used in the development of special technology checking the processes of the handling of medical information defining the right of the access to it on the basis of the calculated & quot-factor of identification& quot-.

ПоказатьСвернуть
Заполнить форму текущей работой