Математическая модель процесса интеграции информационных систем на основе онтологий

Тип работы:
Реферат
Предмет:
ТЕХНИЧЕСКИЕ НАУКИ


Узнать стоимость

Детальная информация о работе

Выдержка из работы

МАТЕМАТИЧЕСКАЯ МОДЕЛЬ ПРОЦЕССА ИНТЕГРАЦИИ ИНФОРМАЦИОННЫХ СИСТЕМ НА ОСНОВЕ ОНТОЛОГИЙ Бубарева О. А., Попов Ф. А.
Бийский технологический институт (филиал) федерального государственного бюджетного образовательного учреждения высшего профессионального образования «Алтайский государственный технический университет им. И. И. Ползунова» (Тоссия, 659 305, Алтайский край, г. Бийск, ул. Трофимова, 27) ап-
gel@bti. secm. ги
Для обеспечения автоматизации и информатизации всех видов деятельности ВУЗы разрабатывают интегрированные автоматизированные информационные системы (ИАИС). При постоянных изменениях в бизнес-процессах вуза разработчики ИАИС вынуждены постоянно заниматься корректировкой программ и моделей данных, что приводит к структурной и семантической неоднородности интегрируемых систем.
С целью разрешения данной проблемы в статье предлагается математическая модель процесса интеграции ИС с неоднородными онтологическими спецификациями, позволяющая анализировать семантические связи, закономерности и зависимости, возникающие между ними. Предложен метод определения меры семантической близости концептов (классов объектов) как суммы атрибутивной, таксономической и реляционной составляющих с учетом весовых коэффициентов. С целью автоматического определения весовых коэффициентов используется генетический алгоритм. Предложен также метод классификации уровней близости концептов с целью построения результирующей (интегрированной) онтологии из нескольких исходных. Представлены результаты вычислительного эксперимента, подтверждающие целесообразность построения такого рода моделей и их практическую значимость.
Ключевые слова: онтология, интеграция данных, информационная система, семантическая близость.
MATHEMATICAL MODEL OF THE INTEGRATION OF INFORMATION SYSTEMS BASED ONTOLOGY
Bubareva O. A. Popov F. A.
Biysk Technological Institute (branch) of the federal government budget of educational institutions of higher education & quot-Altai State Technical University. of I. I. Polzunov& quot- (Russia, 659 305, Altay territory, Biisk, street Trofimova, 27) angel@bti. secna. ru
Universities develop the integrated automated information systems (IAIS) for supporting automation and information of all types of activity. With continuous changes in business processes of university, developers have to constantly deal with IAIS adjustment programs and data models, which leads to structural and semantic heterogeneity of integrated systems.
In order to solve this problem in the paper we propose a mathematical model of the integration of IS with heterogeneous ontological specifications, which analyzes the semantic context, patterns and dependencies that arise between them. A method for determining the measure of semantic similarity of concepts (object classes) as the sum of the attribute, taxonomic and relational component of the weights. In order to automatically determine the weights used by a genetic algorithm. Proposed as a method of classification levels of similarity of concepts in order to build the resulting (integrated) ontology from multiple source. The results of computing experiment confirming expediency of creation of such models and their practical importance are presented.
Keywords: ontology, integration of data, information system, semantic similarity.
Для обеспечения автоматизации и информатизации всех видов деятельности вузы разрабатывают интегрированные автоматизированные информационные системы (ИАИС) [2]. При постоянных изменениях в бизнес-процессах вуза разработчики ИАИС вы-
1
нуждены постоянно заниматься корректировкой программ и моделей данных, что приводит к структурной и семантической неоднородности интегрируемых информационных систем и необходимости повторной разработки приложений-конверторов. Для решения проблемы семантической неоднородности информации возможно использование онтологий [3]. Создание общедоступных онтологий предметных областей в определённой мере решает проблему неоднородности онтологических спецификаций для определённых групп ИС. Однако в ИАИС вуза используются несколько идентифицированных предметных областей, к которым предъявляются различные требования. Поэтому, для обеспечения семантически корректной интероперабельности неоднородных ИС, в контексте предметной области задачи, необходимо выяснить общность и различия онтологий, лежащих в их основе, согласовать неоднородные онтологические спецификации и на базе соответствий онтологических контекстов осуществлять преобразование информации [1].
Авторами разработан алгоритм построения результирующей онтологии из нескольких исходных на основе результатов сравнения концептов, отношений и атрибутов. Задача интеграции ИС сводится к задаче построения отображений и интеграции онтологий, а затем и установление взаимосвязей схем интегрируемых ИС, т. е. сохранение соответствия множества онтологий ИС заданному набору семантических зависимостей, позволяя установить взаимодействие между ИС.
Как правило, объектная схема ИАИС вуза включает в себя элементы, которые соответствуют сущностям разных предметных областей, каждый объект характеризуется значениями набора атрибутов и представляется как множество упорядоченных пар вида
и = {& lt- at, dt & gt-}, (1)
где ai — атрибут объекта, di — значение атрибута i Е [1 … п], п — количество атрибутов.
Базовым понятием предлагаемой модели является концепт С. Каждый концепт онтологии информационной системы идентифицируется по имени и характеризуется типом. Поэтому концепт зададим как:
Ci = (Namei, typei), (2)
где Namei — уникальное имя (идентификатор) -го концепта- typei — тип i-го кон-
цепта (абстрактный, представимый, либо составной).
Зададим следующее множество концептов С = {Ci |i = 1,2,…, п} и множество отношений между концептами:
R = {R±, R2, R3l (3)
где Я^- отношение наследования (отношения «класс-подкласс»), Я1(С1, С2), где С1
— надкласс концепта С2-
Я-2 — отношение агрегации (отношения «часть/ целое»), Я2^С1,А'-): атрибуты концепта С1 входят во множество атрибутов всех концептов А'-.
Я3 — отношение ассоциации (семантические отношения), обладающее свойством транзитивности.
Вводится функция интерпретации I, сопоставляющей каждому концепту онтологии множество элементов объектной схемы информационной системы, и каждой роли — декартово произведение таких множеств. Интерпретация называется моделью онтологии 0(1еМ (0У), если она удовлетворяет всем значениям в С и Я. Онтология, не имеющая моделей, называется противоречивой.
Описание онтологических моделей информационных систем, автоматизирующих деятельность ВУЗа, которые состоят из информационных объектов, формально можно представить в следующем виде:
0 =& lt- С, А, в, МА, Мс, Я, I & gt-, (4)
где С = {С11? = 1,2,…, п] - множество концептов- А = = 1,2, … , —
множество атрибутов концептов- в = {д^ 1ьк = 1,2,., к] -множество ограничений, накладываемых на атрибуты- Мс: С ^ 2А — отображение, задающее для каждого концепта множество его атрибутов- Ма: А ^ в — отображение, задающее ограничения на каждый атрибут- Я — множество отношений- I — функция интерпретации.
Информационная система, использующая онтологию О, представлена в виде:
и0 =& lt- 0, и, Ми, МК & gt-, (5)
где и = [щ, Щ,…, ип} - множество элементов объектной схемы ИС- Ми: и ^ С
— отображение, ставящее в соответствие элементу объектной схемы его концепт, Мц: и X
и ^ Я — отображение, ставящее в соответствие связям между элементами объектной
схемы их отношения в онтологии, и для любого элемента и Е и выполняется условие:
множество атрибутов элемента объектной схемы и соответствует атрибутам его концепта, т. е. {а: & lt- а, й & gt-Е и] = Мс (Ми (и)).
Обозначим через Н0- множество онтологических моделей информационных систем, использующих онтологию 0.
Обозначим изменение информационной системы как отображение:
р: Н0 ^ Н0,
где Н0 — множество неоднородных информационных систем. Изменение онтологии:
(7)
обозначения: С = U1& lt-i<-N С, U = U 1& lt-i<-N Ri, 1 = U 1& lt-i<-N h, A = U 1& lt-i<-N Ai,
Различные онтологии ИС, входящие в О, могут иметь пересекающиеся множества атрибутов, типов и концептов. На базе нескольких исходных онтологий, которые используют информационные системы, осуществляется построение результирующей онтологии с сохранением исходных спецификаций в таком виде, чтобы она включала все возможные отношения между концептами и не содержала эквивалентные (дублирующие) концепты. Для этого необходимо, чтобы отображения Мй, Мс, МА, MR на одинаковых концептах онтологий ИС совпадали. Результирующая онтология определяет соответствия концептов и правила их интерпретации между ИС, что позволяет успешно установить их взаимодействие.
Информационная система U'- = & lt- О, U, Ми, MR & gt- называется интегрированной на множестве ИС U^, если U^ = [U°, U2, ¦¦¦, UN } непротиворечиво, т. е. существуют Щ U ^ С, МГС: С^2а, М: A ^ G, MR: U X U ^ R, являющиеся расширением соответствующих отображений: Мс^, Ма^, Myi (1 & lt- i & lt- N).
Для осуществления согласованного изменения данных в ИС необходимо установление между онтологиями семантических зависимостей, которые определяют семантическую близость концептов. Таким образом, цель интеграции заключается в сохранении соответствия множества онтологий информационных систем заданному набору семантических зависимостей.
Под семантической зависимостью, заданной на онтологии О, предполагается z-предикат, заданный на О.
Множество семантических зависимостей Z = {z1, z2, z3, z4, z5) непротиворечиво, если существует онтология О, которая удовлетворяет зависимости zi.
G = U 1& lt-i<-N Gi, U = U 1& lt-i<-N Ui.
На практике зависимость между онтологиями необходимо сводить к зависимостям между концептами, которые в них входят. Они были рассмотрены, проанализированы и отнесены в следующие 5 классов:
1. Эквивалентность г1: тар (С1) = С2, ?/ (^ССх, С2)|Ус* Е О^У^- Е 02) & gt- Ъ, где Ъ —
порог меры семантической близости Б{С1, С2), при которой строится отображение концепта С1 в онтологию 02.
г2 2
2. Обобщение (С1 ^ С2), где отображение г: С1 ^ С2- отображение, ставящее в
соответствие концепту С1 множество концептов С2.
г3
3. Уточнение (С1 ^ С2), где 23: С1 ^ С2- отображение, ставящее в соответствие
множеству концептов С1 концепт С2.
4 г4
4. Частичная эквивалентность г. (С ^ С2).
Пересечение множеств атрибутов концептов С2 и С (А2 П А1 ^ 0) свидетельствует о наличии общих атрибутов. Это означает, что существует некоторый концепт С, являющийся надклассом для концептов С2 и С1, а сами концепты принадлежат одному уровню иерархии.
5. Различие г5. Пустое пересечение множеств атрибутов концептов С2 и С1 (А2 П А1 = 0).
Модель системы интеграции данных на основе онтологий представим в виде кортежа:
& lt- 0, и0,2, Р, тар & gt-, (8)
где 0 =& lt- С, А, в, Б, МА, Мс, И, I & gt- - онтология ИС, и0 — информационная система с онтологией 0, 2 = {г1, г2, г3, г4, г5} - множество семантических зависимостей, Р: Н0 ^ Я0-такое отображение, что Уи0 Е Н0, У г Е 2, выполнено г (Р (и0)), тар: 01 ^ 0j —
отображение онтологий.
Для численной оценки семантической близости концептов онтологий авторами выбран подход, основанный на результатах исследований профессора университета Мангейма (Германия) А. МаеёеЬе [4, 5]. В соответствии с этим рассматриваются атрибутивная, таксономическая и реляционная меры, результаты измерений с использованием каждой из них с учетом весовых коэффициентов и используются для комплексной оценки семантической близости.
При этом авторами предлагается определять атрибутивную меру не как пересечение диапазонов числовых значений атрибутов концептов, а как отношение пересечения множеств атрибутов к объединению множеств атрибутов концептов. Предлагается также определять весовые коэффициенты автоматически с использованием генетического алгоритма. Основные преимущества предлагаемого подхода заключаются в выявлении ключевых концептов для построения результирующей онтологии, устранения субъективности описаний понятий онтологии и зависимости от точек зрения разработчиков онтологий.
Определим Sт (ci, Cj) как мера близости двух концептов на основе их положения, SR (ci, Cj) — мера близости двух концептов на основе сопоставления их отношений, SA (ci, Cj) — мера близости двух концептов на основе сопоставления атрибутов и значений атрибутов концептов.
Мера близости 5(с^, с) двух концептов с? онтологии 0 и с онтологии 0'- определяется как:
5(с1, с) = С • 5 Т (с^, с) + г • 5К (с^, с) + а • 5А (с{, с), (9)
где С — вес, определяющий важность меры близости 5 Т (с^, с) — г — вес, определяющий важность меры близости 5к (с?, с) — а — вес, определяющий важность меры близости 5А (с1, с).
С учетом того, что С, г, а Е [0- 1], С + г + а = 1, 5(с^, с) Е [0- 1], причем если концепты идентичны сI = с, тогда 5(с?, с) = 1, если концепты различны и не имеют общих характеристик, тогда 5(с1, с) = 0.
Для автоматического определения параметров С, г, а используется генетический алгоритм, где индивид представляется в виде тройки генов (С, г, а). В роли функции приспособленности выступает целевая функция:
и.г.а = С • 5 Т (с0 с) + г • 5к (с0 с) + а • 5А (с0 с).
К сформированной популяции потенциальных решений со следующими ограничениями С, г, а Е [0- 1], С + г + а = 1 применяются стандартные операторы отбора, кроссовера и мутации.
Критерий выбора: максимизация суммы мер семантической близости между концептами двух онтологий.
Ъ, г, а = Хс[, с--еС5(с1, ^). с1^с_/
Для выделения меры семантической близости, при которой концепты эквивалентны, необходимо выбрать пороговое значение меры близости. Разработан метод определения
критерия подобия концептов для классификации отображений в пять групп: эквивалентность, частичная эквивалентность, обобщение, уточнение, неопределенность.
Ь = тах (5(с1, су) Ус1? О1, Усу? 02) * (1 — рх), (10)
где р1 — процент, при котором Ь считается порогом подобия для определения эквивалентности концептов.
ц = тт^^, Су)|Усг? О1, Ус]? О2) * (1 — Р2), (10)
где р2 — процент, при котором с считается порогом подобия для определения отсутствия эквивалентности концептов.
Рассмотренная математическая модель реализована на ЭВМ в рамках специального программного обеспечения, использованного при интеграции онтологий, построенных на объектных схемах информационных систем управления учебным процессом и финансового планирования вуза. Обе системы были разработаны независимо друг от друга в период, предшествовавший рассматриваемому исследованию, и функционировали на основе использования собственных локальных баз данных, обмен информацией между которыми осуществлялся с помощью программ-конвертеров.
В результате проведенного вычислительного эксперимента была создана интегрированная онтология, позволившая в короткие сроки объединить локальные базы данных упомянутых систем, исключить дублирование, а также обеспечить целостность и непротиворечивость представленных в них сведений.
Кроме того, аналогичная работа была проведена экспертом-аналитиком, соответствующие результаты представлены в таблице 1.
Таблица 1. Сравнение параметров процесса отображения онтологий
Способ интеграции Найденные семантические зависимости Критерий оценки (средние значения)
Обоб- щение Уточ- нение Эквива- лент- ность Частичная эквивалент- ность Полнота (Ю Точ- ность (Р) Мера (Рі)
Эксперт 7 3 4 14 0,86 0,82 0,86
Модель 12 3 8 16 0,98 0,94 0,98
Заключение
Построенная математическая модель интеграции онтологий ИС адекватно описывает их семантические особенности. Алгоритм интеграции с использованием онтологий в целом лишен многих недостатков, присущих чисто техническим методам, и предоставляет
возможность разработки интегрированных ИС, работающих с информацией на семантическом уровне. Практическое использование рассмотренных методов моделирования позволило в короткие сроки и с высоким качеством объединить локальные базы данных систем управления учебной деятельностью и финансового планирования в процессе развития ИАИС Бийского технологического института.
Список литературы
1. Бубарева О. А., Попов Ф. А., Ануфриева Н. Ю. Использование онтологий с целью интеграции данных в рамках автоматизированных информационных систем ВУЗов // Фундаментальные исследования. — 2011. — № 12 (часть 1). — С. 85−88.
2. Бубарева О. А., Попов Ф. А. Подсистема расчета себестоимости образовательной услуги в составе интегрированной автоматизированной информационной системы ВУЗа// Современные проблемы науки и образования. — 2011. — № 6- URL: www. science-education. ru/100−5053 (дата обращения: 16. 03. 2012).
3. Бездушный А. А. Математическая модель системы интеграции данных на основе онтологий // Журнал «Вестник НГУ», серия «Информационные технологии». -Новосибирск, 2008. — Т.6. Вып. 2. — С. 15−40.
4. Botzenhardt, A.- Maedche, A. & amp- Wiesner, J.: Developing a Domain Ontology for Software Product Management. Proceedings of the 5th International Workshop on Software Product Management (IWSPM-2011), Trento, Italy. IEEE Xplore, Digital Library, 2011.
5. Maedche A., Zacharias V. // Proc. 6th European PKDD Conf. LNCS V. 2431. Berlin: Springer, 2002. P. 348.
Рецензенты:
1. Оскорбин Николай Михайлович, д.т.н., профессор, заведующий кафедрой теоретической кибернетики и прикладной математики ФГБОУ ВПО «Алтайский государственный университет».
2. Темербекова Альбина Алексеевна, доктор педагогических наук, профессор кафедры алгебры, геометрии и методики преподавания математики Горно-Алтайского государственного университета, зав. научно-исследовательской лаборатории «Инновационные образовательные технологии» Г АГУ.

ПоказатьСвернуть
Заполнить форму текущей работой