Метод формализации естественно-языковых данных в системах мониторинга

Тип работы:
Реферат
Предмет:
Языкознание


Узнать стоимость

Детальная информация о работе

Выдержка из работы

Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. — 92 с., ил. ISBN 978−5-4297−0009−0
УДК 621. 396. 43
Работа выполнена при финансовой поддержке Министерства образования и науки РФ в рамках ФЦП «Исследования и разработки по приоритетным направлениям развития научно-технологического комплекса России на 2007 — 2013 гг. «, государственный контракт № 07. 514. 11. 4135.
Захаренков А. И., Уваров А. Н.
МЕТОД ФОРМАЛИЗАЦИИ ЕСТЕСТВЕННО-ЯЗЫКОВЫХ ДАННЫХ В СИСТЕМАХ МОНИТОРИНГА
Предложен метод формализации естественно-языковых данных, представленных в базе данных информационно-аналитических систем, позволяющий формировать реферат, содержащий смысл текста в виде извлеченных фактов.
Ключевые слова: информационно-аналитическая система, естественно-языковые данные, формализация естественно-языковых данных, интеллектуальная обработка данных, лингвистический процессор.
Zaharenkov АХ, Uvarov А. К
Method of formalisation of the natural language data to monitoring systems
The method of formalisation of the natural language data presented in a database of information-analytical systems is offered. The presented method allows to form the digest (abstract) containing sense of the text in the form of the taken facts.
Keywords: information-analytical system, the natural language data, formalisation of the natural language data, intellectual data processing, the linguistic processor.
Метод формализации естественно-языковых данных, представленных в базе данных (БД) информационно-аналитических систем (ИАС), основан на алгоритме структурирования и лингвосемантического анализа естественноязыкового текста [1].
На начальном этапе, в качестве исходных данных формируется естественно-языковой (ЕЯ) запрос. Далее в ИАС, после обработки исходных данных, формируется запрос к БД на выбор необходимых текстов. По полученным из БД по запросу ЕЯ текстам проводится процедура их анализа и
16
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. — 92 с., ил. ISBN 978−5-4297−0009−0
дальнейшая интерпретация. В результате на выходе алгоритма формируется тезаурус по заданной предметной области и реферат текста в ответ на поступивший ЕЯ-запрос.
Обобщенная схема метода формализации естественно-языковых данных показана на рисунке 1. Реализация метода формализации естественно-языковых конструкций включает следующие этапы:
1. Получение исходного текста на ЕЯ из БД.
2. Проведение анализа текста с использованием лингвистического процессора.
3. Интерпретация текста.
4. Генерация реферата текста.
Далее представлено описание этапов реализации метода формализации естественно-языковых конструкций.
Этап 1. Получение исходного текста на ЕЯ из БД
На данном этапе на вход ИАС подается текст на ЕЯ.
Этап 2. Проведение анализа текста с использованием лингвистического процессора
На данном этапе реализуется структурирование и анализ текста. Для анализа используется лингвистическое обеспечение, состоящее из базы фактов и базы правил.
Компоненты, применяемые на этапе 2 являются подсистемами-лингвистическими процессора, предназначенными для обработки ЕЯ-текста поступившего на вход ИАС.
В состав лингвистического процессора входят следующие компоненты:
— компонента графематический анализа (КГА) —
— компонента морфологического анализа (КМА) —
— компонента фрагментационного анализа (КФА) —
— компонента синтаксического анализа (КСинА) —
— компонента семантического анализа (КСинА) —
Далее, рассмотрены особенности построения представленных компонент.
Графематический анализ.
КГА обеспечивает выполнение предварительных действий над текстом путем структурирования текста, выделения в тексте разделов, подразделов, предложений, разбиение сложных предложений на простые. Далее реализуется разбиение входного текста на минимально значимые элементы текста — слова (выделение последовательности лексем). Все символы входной последовательности разделяются на символы, принадлежащие каким-либо лексемам, и символы-разделители.
17
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. — 92 с., ил. ISBN 978−5-4297−0009−0
Текст на естественном языке в БД
Реферат (дайджест) текста в БД
Рис. 1 — Обобщенная схема метода формализации ЕЯ данных
На вход КГА подается текст, на выходе строится графематическая таблица, в которой на каждой строке стоит слово или разделитель из входного текста. Компонент выделяет некоторые аббревиатуры, имена с инициалами, даты и т. д. В результате формируется множество лексем:
L = {l^i = 1 k, k-Mmecmeo лексемв тексте }. (1)
где
Каждой лексеме приписывается вектор значений:
Pi = (Pi, ni, ni, np, nf, n& lt-i),
Pi — уникальный номер вектора лексемы- n'-i — порядковый номер лексемы в предложении- ni — порядковый номер предложения в тексте- np — номер параграфа-
(2)
18
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. — 92 с., ил. ISBN 978−5-4297−0009−0
ni — номер раздела-
c
nt — номер главы.
Графематическая таблица состоит из двух столбцов. В первом столбце стоит лексема, во втором столбце стоят графематические дескрипторы, характеризующие эту лексему. Дескрипторы создают формальное описание текста на уровне графематики, которое уже поддается дальнейшей автоматизированной обработке в терминах лингвистических теорий.
Морфологический анализ.
Входной информацией КМА является множество лексем (графематическая таблица) предложения, база фактов лингвистического обеспечения. Цель морфологического анализа (МА) на данном этапе состоит в том, чтобы для каждой лексемы определить:
а) полную морфологическую характеристику — морфологосинтаксический класс и полный набор значений для категорий, свойственных этому классу-
б) лемму — основную форму слова.
Поэтому М А представляется четверкой:
MMA = (SRW, PE, ICA, GMI, RSC)
(3) '
где SRW — поиск готовой лексемы-
PE — выделение основы и окончания-
ICA — поиск флективного класса словоформы-
GMI — формирование вектора морфологической информации-
RSC — формирование конфликтного множества.
В КА реализуется следующая последовательность операций:
а) поиск лексем, выделенных в ходе графематического анализа, в словаре готовых словоформ-
б) поиск словоформы в словаре основ всех частей речи и определение окончания,
в) поиск основы без окончания в словаре основ-
г) определение флективного класса по готовой основе словоформы (одной основе может соответствовать несколько флективных классов) —
д) формирование конфликтного множества флективных классов, если для одной словоформы найдено несколько флективных классов-
е) разрешение конфликтного множества флективных классов с использованием продукционных правил, в которых активизируется морфологическая информация словоформ-
ж) определение по окончанию и флективному классу по таблице совместимости вектора морфологической информации-
и) формирование конфликтного множества векторов морфологической информации, если для одной словоформы найдено несколько векторов морфологической информации.
По завершении МА для каждой лексемы может иметь место несколько векторов морфологической информации.
19
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. — 92 с., ил. ISBN 978−5-4297−0009−0
Фрагментационный анализ.
Входной информацией для ФА являются вектора морфологической информации, приписанные лексемам исходного текста.
Задача Ф А состоит в выделении в предложении синтаксических единств (фрагментов) больших или равных словосочетанию (синтаксической группе) и в установлении иерархии на множестве этих единств.
В ходе применения ФА можно выделить три группы продукционных правил:
а) правила, уничтожающие некоторые омонимы-
б) правила, устанавливающие иерархию-
в) правила, которые объединяют два дистантно расположенных фрагмента или группу контактных (непосредственных соседей). При этом все объединявшиеся фрагменты уничтожаются и создается один большой фрагмент. Его границы определяются стандартно из границ объединенных фрагментов- заполнение других полей в структуре фрагмента определяется каждым правилом отдельно.
Общий алгоритм процесса выделения фрагментов в тексте может быть описан следующим образом [4]. Пусть li — произвольное понятие текста, содержащее одну лексему, тогда x — цепочка из k подряд идущих лексем за лексемой l., не прерываемых знаками препинания (т.е. фрагмент), W (у) -частота совместной встречаемости лексем цепочки в тексте.
В процессе ФА подсчитывается частота вхождения f (h) лексемы li, выраженной именем существительным, в текст. При этом формируется множество
L'- = {((., f (lt)) f (lt) & gt- 1, i = 1 У m, ткол во имен существительныхв тексте }.
Далее для каждой 1. е L строятся множества левосторонних и правосторонних фрагментов. При этом выделяют различные типы фрагментов:
а) глагольные: глагол + существительное или местоимение (с предлогом или без) — глагол + инфинитив или деепричастие- глагол + наречие-
б) именные: субстантивные (согласуемое слово + существительное- существительное + существительное- существительное + наречие- существительное + инфинитив) — адъективные (прилагательное + наречие- прилагательное + существительное или местоимение- прилагательное + инфинитив) — с главным словом числительным- с главным словом местоимением-
в) наречные: наречие + наречие- наречие + существительное.
В тексте осуществляется поиск фрагментов всех типов и для каждого фрагмента У е X подсчитывается частота совместной встречаемости F (у).
Также в ходе ФА в тексте выделяются композиционные термины -специфические термины предметной области, состоящие из двух фрагментов. Выявление композиционных терминов происходит путем анализа их совместной встречаемости в тексте. Если они встречаются более одного раза,
20
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 Курск: Науком, 2013. — 92 с., ил. ISBN 978−5-4297−0009−0
то можно считать, что такое сочетание фрагментов является композиционным термином y е Y, которое определяется как:
v. yk = xt 0X: оx — i Ф j Фг- i, j, r =1 фп, n- кол — во простых фрагментов в тексте, ?
?.
г =1 Ф-q, q — кол — во двухсоставных терминов, xr — возможно пустойфрагмент ?
Y
Тогда общее множество композиционных терминов текста определяется по формуле (5. 5):
I
(4)
где Z — множество лексем из стержневых слов фрагментов.
Таким образом, на выходе ФА — текст, состоящий из предложений, разбитых на линейно неразрывные фрагменты. На фрагментах установлена иерархия, т. е. про каждый фрагмент известно, какие фрагменты в него непосредственно вложены и в какие он непосредственно вложен. Каждому фрагменту приписано множество типов и список союзов и союзных слов, входящих в фрагмент.
Синтаксический анализ.
СинА на входе имеет линейно упорядоченное лексическое построение предложения, в котором все лексемы имеют информацию о типе и грамматических характеристиках. Результат СинА представляется в виде графа зависимостей. Формальное описание модели СинА имеет вид:
SA = (P, W, П, Q, G) (5)
где P — входное предложение-
П — промежуточное представление графа зависимостей-
W — правила перехода структуры предложения P к П —
Q — правила определения итогового графа зависимостей-
G — граф зависимостей.
Входное предложение естественного языка P определяется как множество кортежей:
=?(l, р)| l е L, L — множество лексем предложения P, р — вектор морфологической ?
? информации- i =1 фп, n — количество лексем в предложении P ?
Выполнение СинА обеспечивается посредствам грамматик входного и выходного языка, продукционных правил СинА, системы фильтров, грамматики преобразований, словарей, алгоритмов и способов выхода из нештатных ситуаций.
Выходное представление результатов проведения СинА G представляет собой множество простых синтаксических конструкций и имеет вид графа зависимостей:
G =& lt- L'- О, (6)
где L'- - множество вершин графа G —
С — множество дуг.
21
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. — 92 с., ил. ISBN 978−5-4297−0009−0
Итоговый граф зависимостей G должен быть ацикличным связным графом. Он не может иметь петель, т.к. применяемые продукционные правила учитывают как морфологическую информацию лексем, так и порядок лексем в естественно-языковом предложении.
Если в результате МА сформировано конфликтное множество вектором морфологической информации, в КСинА строится несколько графов зависимостей и, соответственно, возникает конфликтное множество графов зависимостей. Для разрешения конфликтного множества графов зависимостей целесообразно использовать комбинацию способа, основанного на применении нейронной сети, и метода нечеткого регулирования Мамдани
[3].
Семантический анализ.
В КСемА реализуется функция согласования трех разных «языков»:
а) языка построенных системой лингвистических структур (входная информация) —
б) языка предметной области, к которой относится текст и термины которой необходимо использовать при построении реферата текста (выходная информация) —
в) языка пользователя, для которого строится реферат текста.
Данная функция обеспечивается посредствам метаязыка семантических структур, общей стратегии СемА, общесемантического словаря, правил интерпретации входных структур, правил вывода.
Последовательность операций СемА следующая:
а) «прямая» интерпретация результатов СинА — создание семантического представления каждого предложения текста-
б) анализ лексических валентностей (сильных связей). При этом под сильными понимаются те семантические отношения, которые входят в описание значений лексем в качестве их валентностей в семантическом словаре-
в) интерпретация слабых связей-
г) создание первичного ситуационного представления. При этом под ситуационным представлением понимается структура, репрезентирующая понимание минимального текстового высказывания в терминах и в соответствии с грамматикой заданного семантического языка.
Этап 3. Интерпретация текста.
На данном этапе путем семантической и прагматической (проблемную) интерпретации из анализируемого текста извлекается его прагматическое содержание.
Интерпретация (понимание) текста на ЕЯ — это механизм, включающий сложные, непрерывные и соподчиненные процессы: преобразование
морфологически и синтаксически правильных, семантически связанных и прагматически полных фрагментов текста на естественном языке в последовательность внутренних образов- организация взаимодействия последовательности внутренних образов с компьютерной системой знаний-
22
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. — 92 с., ил. ISBN 978−5-4297−0009−0
формирование образа фрагмента текста- выполнение некоторых действий в соответствии с целями человеко-машинного общения и контекстом фрагмента.
На данном этапе происходит сопоставление семантического графа с семантической сетью. В результате сопоставления происходит следующее:
а) выявление контекста (подграфа), соответствующего запросу, и получение из него содержательной информации-
б) формирование запроса к БД.
Этап 4. Г енерация реферата текста.
Данный этап включает в себя:
1 Автоматическое выделение словосочетаний и формирование частотных словарей в каждом документе подкластера. Проводится разделение текста на предложения, определение предварительных границ словосочетаний в предложениях и формирование поисковых образов словосочетаний, осуществляется подсчет количества слов в словосочетаниях. Далее производится сортировка списка словосочетаний и исключение из этого списка словосочетаний с совпадающими поисковыми образами.
2 Определение значимых предложений из каждого документа подкластера. Из частотных словарей выбираются слова и словосочетания с частотой более 1. Всем словарным единицам присваивается вес. Слова и словосочетания проверяются на вхождение в каждое предложение текста и определяется вес каждого предложения, на основе которого проводится отбор наиболее значимых предложений.
3 Формирование общего списка тем подкластера. Предложения, выбранные из каждого текста подкластера, объединяются в один список, в котором с использованием тезауруса выявляются близкие по смыслу предложения. Из двух тождественных предложений убирается то, которое полностью входит в другое предложение.
4 Построение итогового реферата текста (дайджеста). Производится сортировка всех документов в порядке уменьшения в них количества тем, а в случае одинакового количества — в порядке уменьшения размера документа. Из упорядоченного текста выбирается первый документ, из которого в реферат выводятся темы в порядке их расположения в документе. Для каждой выведенной темы находятся все документы, в которых она встречается. Выбранные документы сортируются и убираются дубли, затем исключаются рассмотренные документы. Из оставшихся документов в реферат выбираются те темы, которые еще не встречались.
Приведенная последовательность действий повторяется для каждого документа из подкластера.
Таким образом, разработанный метод формализации ЕЯ конструкций в ИАС, позволяет осуществлять представление неструктурированных текстов, хранящихся в реляционных БД, в виде рефератов (дайджестов).
Библиографический список
23
Инновации в информационно-аналитических системах: сб. научн. трудов. Вып. 5 -Курск: Науком, 2013. — 92 с., ил. ISBN 978−5-4297−0009−0
1. Шатуновский И. Б. & quot-Основные когнитивно-коммуникативные типы общих вопросов в русском языке& quot-, Академия наук СССР институт русского языка «Русская грамматика» — М.: Наука, 1980.
2. Леонтьева Н. Н. Автоматическое понимание текстов: системы, модели, ресурсы: учеб. пособие для студ. лингв. фак. вузов [Текст] / Н. Н. Леонтьева. — М.: Издательский центр «Академия», 2006. — 304 с.
3. Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: учеб. пособие [Текст] / Большакова Е. И., Клы-шинский Э.С., Ландэ Д. В., Носков А. А., Пескова О. В., Ягунова Е. В. — М.: МИЭМ, 2011. — 272 с.
4. Кониченко, А.А., Соколов, А. В. Классификация последовательностей сигналов, основанная на кодах[Текст]/ А. А. Кониченко, А. В. Соколов // Информационно-измерительные и управляющие системы. -М.: Радиотехника. № 2, 2012.
24

ПоказатьСвернуть
Заполнить форму текущей работой