Формирование словаря сочетаемости терминов предметной области

Тип работы:
Реферат
Предмет:
Языкознание


Узнать стоимость

Детальная информация о работе

Выдержка из работы

---------------------? ?--------------------------
У даній статті наведено порівняльний аналіз різних підходів до формування словників семантичної сполучуваності та представлено підхід до формування словника сполучуваності термінів предметної області. Основою запропонованого підходу є апарат алгебри скінченних предикатів і предикатних операцій. Розробки з даної проблематики можна використати в галузі лексикографії, семантичного аналізу текстової інформації та ін.
Ключові слова: автоматизована обробка природної мови, інтелектуальні системи, алгебра скінченних предикатів, лексикографія
?---------------------------------?
В данной статье приводится сравнительный анализ различных подходов к формированию словарей семантической сочетаемости и представлен подход к формированию словаря сочетаемости терминов предметной области. Основой предложенного подхода является аппарат алгебры конечных предикатов и предикатных операций. Разработки по данной проблематике можно использовать в области лексикографии, семантического анализа текстовой информации и др.
Ключевые слова: автоматизированная обработка естественного языка, интеллектуальные системы, алгебра конечных предикатов, лексикография ---------------------? ?--------------------------
УДК 004. 934
ФОРМИРОВАНИЕ
СЛОВАРЯ
СОЧЕТАЕМОСТИ
ТЕРМИНОВ
ПРЕДМЕТНОЙ
ОБЛАСТИ
Н. В. Борисова
Ассистент* E-mail: borisova_nv@mail. ru О. В. Канищева
Кандидат технических наук, доцент* E-mail: olya-kanisheva@rambler. ru *Кафедра интеллектуальных компьютерных систем Национальный технический университет & quot-Харьковский политехнический институт" ул. Фрунзе, 21, г. Харьков, Украина, 61 002
1. Введение
Несмотря на развитие технологий представления информации в формальном, доступном для компьютерной обработки виде, основной объем информации порождается, хранится и передается в виде текстов на естественном языке (ЕЯ). В связи с лавинообразным ростом количества информации в самых разных сферах человеческой деятельности возникает острая необходимость автоматического решения различных задач, связанных с обработкой текстов на ЕЯ, в том числе перевода с одного языка на другой, поиска информации в текстовых массивах, извлечения информации из текстов, реферирования и др.
Системы автоматической обработки текстов на ЕЯ (АОТ-системы), использующие методы поверхностного анализа (например, основанные на поиске ключевых слов) для решения перечисленных задач, в большинстве случаев не позволяют достичь результата, качество которого достаточно для практического применения.
Причина кроется в необходимости учета не только слов, составляющих текст на ЕЯ, но и взаимосвязей между ними, не представленных в тексте в явном виде. Для выявления таких взаимосвязей требуется глубокий и полный анализ различных языковых явлений, представленных в тексте, и в первую очередь — выделение синтаксических отношений между словами текста (синтаксический анализ) [1].
Для автоматического выделения синтаксических отношений требуется привлекать различную информацию о сочетаемости слов. Простейшим типом такой
информации может служить формальное описание синтаксического поведения различных частей речи.
Таким образом, для качественного решения задачи автоматического синтаксического анализа необходимо подробное и полное описание принципов сочетаемости (морфо-синтаксических, семантических и лексических).
2. Литературный обзор исследований и постановка проблемы
Как показал обзор существующих в свободном доступе лингвистических описаний сочетаемости слов русского языка (словарей сочетаемости, комбинаторных словарей), данные источники информации о сочетаемости обладают существенными недостатками. Во-первых, большинство таких источников рассчитано на пользователя-человека, поэтому зачастую авторы вместо того, чтобы приводить формальное и последовательное описание сочетаемости некоторого слова, ограничиваются рядом примеров и ссылок на аналогичные слова, апеллируя к интуиции пользователя словаря. Во-вторых, доступные словари (в особенности те, которые формализованы в достаточной для практического применения степени) покрывают лишь небольшую часть лексики русского языка. В-третьих, в большинстве словарей сведения о семантических ограничениях на сочетаемость либо не приводятся вовсе, либо не формализованы в достаточной мере. Основной причиной перечисленных недостатков является чрезвычайно высокая трудоемкость ручного
формирования описаний сочетаемости, носящих комбинаторный характер (по сути, требуется описать множество пар, или даже п количество слов, способных образовывать допустимые словосочетания) [2].
Альтернативой использованию лингвистических описаний сочетаемости является автоматический сбор статистики совместной встречаемости слов на большой текстовой коллекции и формирование статистического описания сочетаемости. При этом имеет смысл использовать неразмеченные (т.е. не обработанные экспертами) тексты, поскольку создание достаточной по объему размеченной коллекции является очень сложной и трудоемкой задачей. Такой подход позволяет свести к минимуму объем требуемого ручного труда, а также обеспечить довольно полный охват лексики.
Однако простая статистика совместной встречаемости слов не дает всей необходимой информации о сочетаемости. Это связано с проблемой разреженности данных о совместной встречаемости, извлеченных из коллекции текстов на ЕЯ: лишь небольшая часть сочетающихся между собой слов реально встретятся вместе в коллекции.
Свойство разреженности является фундаментальным для текстов на ЕЯ, поэтому решить данную проблему невозможно ни увеличением объема, ни изменением состава текстовой коллекции.
Таким образом, актуальным является создание методов автоматизированного формирования описаний сочетаемости, позволяющих извлекать информацию о сочетаемости из различных текстовых коллекций, обобщать ее и представлять в таком виде, в котором эксперты могут эффективно работать с ней. Другой актуальной проблемой является учет сформированных таким образом, а также содержащихся в существующих словарях, описаний сочетаемости для улучшения качества и повышения эффективности автоматического синтаксического анализа.
3. Цель и задачи исследования
Авторами предлагается подход к автоматическому построению словаря семантической сочетаемости на основе существующих словарей. Данный подход основан на использовании математического аппарата алгебры конечных предикатов и предикатных операций.
4. Семантическая сочетаемость слов
В процессе автоматического синтаксического анализа текстов на русском языке постоянно возникает задача выбора из нескольких синтаксических структур предложения правильной структуры. Во многих случаях правильный выбор можно сделать только при наличии описаний сочетаемости слов, входящих в анализируемое предложение [3].
Семантические ограничения на сочетаемость указывают, что слово может быть связано синтаксической связью некоторого типа только со словами, относящимися к определенным семантическим классам. Например, в рамках экологической предметной области прямым дополнением при глаголе сбрасывать может
быть только слово, обозначающее некоторую жидкость (жидкие отходы, сточные воды, стоки).
При описании в словаре и учете в процессе анализа семантических ограничений возникают следующие сложности.
Во-первых, описание семантических классов простым перечислением входящих в них слов на практике оказывается плохим решением: списки слов получаются огромными и заведомо неполными- нет способа оценить степень принадлежности слова семантическому классу. Во-вторых, попытки автоматического извлечения информации о семантических ограничениях на сочетаемость из корпуса текстов наталкиваются на проблему разреженности данных: если слово w сочетается с любыми словами w'- из достаточно крупного семантического класса, то в любом сколь угодно большом корпусе встретится лишь часть возможных словосочетаний w w'-. Поэтому после извлечения слов, встретившихся с w в корпусе, необходимо на их основе каким-то образом описать все множество сочетающихся с w слов [4].
5. Моделирование семантической сочетаемости слов предметной области
Пусть М — это множество слов, участвующих в образовании словосочетаний: М = {т1,т2,…, тп}, где п определяется количеством рассматриваемых словосочетаний. На этом множестве введем систему предикатов S таким образом, чтобы любой предикат Р^) eS обращался в 1 на множестве слов с какой-то определенной семантической ролью, и был равен 0 в противном случае. Понятие семантической роли было введено в работе [5]. Множество предикатов S представляет множество семантических ролей слов из словаря. Каждому элементу т (из М соответствует некоторый предикат Р-^)eS, равный 1 при подстановке множества семантических ролей конкретного слова т (. Следовательно, каждому т (еМ взаимно однозначно соответствует определенный одноместный подстановочный предикат, который задает множество семантических ролей.
Рассмотрим два множества слов М1 и М2, где М1 — множество слов, стоящих на первом месте в словосочетании. Операция соединения двух слов из М1 и М2, множества семантических ролей которых заданы предикатами Р,(^)еS1 и Р2(^)еS2, характеризуются согласованием определенных семантических ролей этих слов. В результате семантического согласования двух рядом стоящих слов получаем множество связей между семантическими ролями, другими словами, -множество пар семантических ролей. Таким образом, между множествами семантическим ролей рядом стоящих слов существует бинарное отношение, которое является подмножеством декартового произведения этих множеств. Наличие или отсутствие согласования между словами определяется с использованием метода компараторной идентификации [6].
Это бинарное отношение можно представить с помощью некоторого двуместного предиката Р (^^2), при этом
Р (^2) ^ Р^Р,^). (1)

Предположим, что существует возможность согласования семантических ролей не зависит от того, к каким словосочетаниям они относятся. Тогда на декартовом произведении множеств S1 х S1 можно задать предикат а (^^2), принимающий значение 1, если семантические роли ^ и ^ можно согласовать, и значение 0 в противном случае. Довольно редко подмножество согласуемых семантических ролей совпадает с декартовым произведением всех возможных связей. Некоторые семантические роли рядом стоящих слов в действительности не вступает в согласование, в связи с этим в формулу (1) вводится дополнительный множитель, который стремится исключить нереализованные связи.
Таким образом, бинарное отношение на множествах рядом стоящих слов может быть задано формулой:
РЛ) ® Р2ОЕ = а (^2)-Р1(^)-P2(t2),
a (t1,t2) = tX1tyl VtX2tyl VtX3tyl V^чу1 V
vt-t5ty* Vt1?6tyl V^Чу* V^ЧУ2 V^Чу V vt-tЧУ2 VЧУ2 VЧУз V ^*ЧУ1 V V
vt-t12tУl V^ЧУ1 V^*ЧУ1 V^Ч^ V^*Чу
(2)
где ® обозначена операция соединений морфемных семантических ролей.
Действительно, логическое произведение предикатов P1(t1)¦ P2(t2) описывает все возможные связи между словами, а предикат а (^Ч2) исключает часть нереализованных связей [7, 8].
Для этого с помощью словарей [9, 10] можно выделить следующие существительные и прилагательные, которые взаимодействуют друг с другом в научных текстах экологической направленности. Существительные: х1 — воздействие, х2 — ландшафт, х3 — нагрузка, х4 — рельеф, х5 — среда, х6 — явление, х7 -фактор, х8 — ареал, х9 — продуктивность, х10 — доза, х11 — выброс, х12 — концентрация, х13 — поступление, х14 — сброс, х15 — излучение. Прилагательные: у1 -антропогенный, у2 — первичный, у3 — летальный, у4 — предельно допустимый, у5 — электромагнитный, у6 — радиоактивный.
Семантическая роль х7 является общей для прилагательных у1, у2, у3, а для х10 такими прилагательными являются у3 и у4.
Таким образом, анализ словаря показал, что представленные выше существительные и прилагательные реализуют следующие композиции семантических ролей: х1у1 — воздействие антропогенное, х2у1 — ландшафт антропогенный, х3у1 — нагрузка антропогенная, х4у1 — рельеф антропогенный, х5у1 — среда антропогенная, х6у1 — явление антропогенное, х7у1 — фактор антропогенный, х7у2 — фактор первичный, х7у3 -фактор летальный, х8у2 — ареал первичный, х9у2 -продуктивность первичная, х10у3 — доза летальная, х10у4 — доза предельно допустимая, х11у4 — выброс предельно допустимый, х12у4 — концентрация предельно допустимая, х13у4 — поступление предельно допустимое, х14у4 — сброс предельно допустимый, х15у5 — излучение электромагнитное, х15у6 — излучение радиоактивное.
Графическое отображение семантической сочетаемости слов предметной области, приведенных выше, представлено на рис. 1.
Для математического описания связей между семантическими ролями слов воспользуемся формулой (2). Для нашего примера а (^^2) может быть представлено следующим образом:
Рис. 1. Семантическая сочетаемость слов предметной области
Множества семантических ролей терминов, стоящих на первом месте в словосочетаниях, задаются предикатами Р,(^), Р2(^), Рз (^), которые могут быть представлены следующим образом:
Р1(^) = ^ V2 Vз V V5 V V ^7
P2(t1) =7 V8 V9 V ^х10
Р3(^) =10 V V12 V V V15.
(1)
Множества семантических ролей терминов, стоящих в рассмотренном примере на втором месте, могут выражаться предикатом Р,(^):
P1(t2) = tyl V ty2 V tyз V tyl V ty5 V ty6.
(5)
(6)
В соответствии с формулой (2) опишем множество смысловых значений словосочетаний предметной области, задаваемое с помощью предикатов Р11(^^2), РиО^), Pзl (tl, t2& gt-.
Pll (tl, t2) = a (tl, t2) ¦Pl (t1& gt-¦Pl (t2) = (^чу1 Vчу1 V
vt*?зt2l V^Чу1 V^Чу* V^Чу* V^Чу* V^У2 V vtX7tУ3 VtX8tУy VtX9tУy V^чуз V^ЧУ1 V^ЧУ1 V
vtX12tУ1 V^ЧУ1 V^чу1 V^чу5 VtX15tУ6)
(^ V2 Vз V V5 V V ^7)
(tyl V ty2 V tyз V tyl V ty5 V ty6).
P2l (tl, t2) = a (tl, t2& gt-¦P2(tl)¦P1(t2) = (^tyl V
vt*?ytyl V^Чу1 V^Чу* V^Чу1 V^Чу* V vt-tчyl V^чУ2 V^чУз V^чУ2 V^чУ2 V
vtX10tУ3 V^х*ЧУ1 V^ЧУ1 V^чу1 V (7)
vtX13tУ1 V^х*ЧУ1 V^чу5 VtX15tУ6)
(^7 V8 V9 V ^10)
(tyl V ty2 V tyз V tyl V ty5 V ty6).
3
(8) ленной предметной области наглядно демонстрируют использование математического аппарата алгебры конечных предикатов при решении задач, связанных с естественным языком, а также могут быть использованы в различных лингвистических экспериментах.
Полученные математические модели семантической сочетаемости слов в словосочетаниях опреде-
6. Выводы
Литература
1. Арефьев, Н. В. Методы построения и использования компьютерных словарей сочетаемости для синтаксических анализаторов русскоязычных текстов [Текст]: автореф. дис. … канд. физико-мат. наук: 05. 13. 11 / Н. В. Арефьев. — М., 2012. -
2. Мальковский, М. Г. Семантические ограничения в словаре сочетаемости: эксперименты по разрешению синтаксической неоднозначности [Электронный ресурс] / М. Г. Мальковский, Н. В. Арефьев. — Режим доступа: http: //www. sworld. com. иа/ іі^ех. різр/ик/ technical-sciences-112/informatics-computer-science-and-automation-112/12 730−112−530.
3. Лексическая сочетаемость слов [Электронный ресурс]. — Режим доступа: http: //obrazovanie. biniko. com/info61. php.
4. Автоматическое формирование базы сочетаемости слов на основе очень большого корпуса текстов [Текст] / Э. С. Клы-шинский, Н. А. Кочеткова, М. И. Литвинов, В. Ю. Максимов // Компьютерная лингвистика и интеллектуальные технологии: материалы международной конференции «Диалог», 26−30 мая 2010 г., Бекасово. — М.: Изд-во РГГУ, 2010. — 9 (16). -С. 181−185.
5. Шаронова, Н. В. Компараторная идентификация лингвистических объектов [Текст]: дис. … док. тех. наук: 05. 25. 05 / Н. В. Шаронова. — Харьков, 1994. — 271 с.
6. Бондаренко, М. Ф. Инструментарий компараторной идентификации [Текст] / М. Ф. Бондаренко, Ю. П. Шабанов-Куш-наренко, Н. В. Шаронова / / Бионика интеллекта. — 2010. — № 2 (73). — С. 74−86.
7. Шабанов-Кушнаренко, Ю. П. Компараторная идентификация лингвистических объектов [Текст] / Ю.П. Шабанов-Куш-наренко, Н. В. Шаронова. — К.: ИСДО, 1993. — 116 с.
8. Шабанов-Кушнаренко, Ю. П. Теория интеллекта: Проблемы и перспективы [Текст] / Ю. П. Шабанов-Кушнаренко. — Х.: Вища шк., 1987. — 158 с.
9. Реймерс, Н. Ф. Природопользование: Словарь-справочник [Текст] / Н. Ф. Реймерс. — М.: Мысль, 1990. — 637 с.
10. Некос, А. Н. Екологія та неоекологія. Українсько-російський словник-довідник. [Текст] / А. Н. Некос, Н. В. Борисова. -Харків: Вид-во ХНУ ім. В.Н. Каразіна, 2001. — 236 с.
22 с.
Е

ПоказатьСвернуть
Заполнить форму текущей работой