Автоматизированная методика извлечения структурированных физических знаний в виде физических эффектов из текстов на естественном английском языке*

Тип работы:
Реферат
Предмет:
Языкознание


Узнать стоимость

Детальная информация о работе

Выдержка из работы

УДК 681.2. 002
Д. М. Коробкин, С. А. Фоменков
АВТОМАТИЗИРОВАННАЯ МЕТОДИКА ИЗВЛЕЧЕНИЯ СТРУКТУРИРОВАННЫХ ФИЗИЧЕСКИХ ЗНАНИЙ В ВИДЕ ФИЗИЧЕСКИХ ЭФФЕКТОВ ИЗ ТЕКСТОВ НА ЕСТЕСТВЕННОМ АНГЛИЙСКОМ ЯЗЫКЕ*
Волгоградский государственный технический университет E-mail: dkorobkin80@mail. ru
Данная работа посвящена извлечению фактов (структурированных физических знаний в виде физических эффектов) из естественно-языковых текстов определенной предметной области. В связи с ростом количества электронных источников все более увеличивается потребность в автоматизированном поиске и извлечении интересующей пользователя информации.
Ключевые слова: физический эффект, извлечение фактов, информационный поиск
D. M. Korobkin, S. A. Fomenkov
AUTOMATED METHOD OF EXTRACTING STRUCTURED PHYSICAL KNOWLEDGE IN THE FORM OF PHYSICAL EFFECTS FROM ENGLISH TEXTS
Volgograd State Technical University
This work is dedicated to the extraction of facts (structured physical knowledge in the form of physical effects) of natural-language text of a certain subject area. Due to the increasing number of electronic sources of the increasing need for an automated search and retrieval of information the user is interested.
Keywords: physical effect, fact extraction, information retrieval
Как известно, физические эффекты (ФЭ) полезны при конструировании принципиально новых высокоэффективных технических систем, разработке новых технологий, научнотехническом прогнозировании, обучении методам технического творчества. На кафедре САПР и ПК ВолгГТУ разработаны модели входной и выходной информации физического эффекта (так называемые входные и выходные карты ФЭ), а также фонд физических эффектов [1, 2].
В настоящее время фонд (а это около 1300 описаний физических эффектов) содержит знания из разных областей физики, в том числе на основе новых открытий и изобретений. Однако до настоящего момента пополнение фонда ФЭ шло только на основе советской (теперь российской) периодической литературы физического профиля, такой как, например, журнал «Успехи физических наук» [3]. Исследования и открытия зарубежных физиков отслеживались исключительно в виде переводной литературы. Тем самым не охватывался пласт физических изобретений и открытий иностранных ученых, не переведенных на русский язык. Поскольку, как правило, иностранные публикации идут на международном (английском) языке, то актуальной является задача автоматизации процедуры поиска и выделения описания ФЭ в англоязычных текстах.
Работа выполнена при поддержке гранта РФФИ № 10−01−135-а.
Анализ существующих систем извлечения информации из неструктурированных текстовых массивов (text mining), систем информационного поиска (information retrieval), семантического анализа текста, таких как TextAnalyst, BusinessObjects Text Analysis, AeroText, Attensity Text Analytics Suite, Statistica Text Miner, RCO Fact Extractor (и др.), позволил сделать следующий вывод. Несмотря на то, что большинство упомянутых систем обеспечивает возможности построения семантических сетей- извлечение фактов, понятий- поиск по ключевым словам- создание таксономий и тезаурусов, ни одна из них не позволяет автоматизировать процесс извлечения описаний физических эффектов из текста.
В качестве реализации поставленной задачи были выбраны методы, основанные на фразовых образцах (phrase-based), базовой процедурой которых является сопоставление с синтаксическим шаблоном [4]. Текстовые сегменты в этом подходе представляются деревьями синтаксического разбора с указанием семантических ролей термов. Было проведено сравнение систем, построенных на базе онтологий FrameNet, VerbNet, PropBank, NomBank и обеспечивающих разметку семантических ролей: Ergo Linguistic Technologies Parser, Functional Dependency Grammar, Link Parser, The EP4IR parser of English. В качестве базовой была выбрана система Semantic Role Labeler от Cognitive Computation Group (Университет Иллинойса в Урбана-Шампейне).
Для того чтобы выделять описания ФЭ из текста первичных источников, была разработана онтология предметной области (ПО) «Physical Effect» и модель представления в тексте структурированной предметной информации в виде физических эффектов.
Онтология П О «Physical Effect» включает в себя концепты (понятия) (рис. 1), связанные набором дифференцированных семантических отношений: классификации «IS-A» и мерони-мии «HAS-PART» [5].
Модель представления в тексте структурированной предметной информации в виде ФЭ имеет вид [6]:
Mfe = & lt-C, D, B, RC, RB& gt-, где C — множество фразовых образцов, опреде-
ленных в ПО, oi е С- D — множество семантических ролей, характерных для фразовых образцов ПО- D = {Subject, Object, Location, Direction}, Di с D — значимые семантические роли для oi, dj е D- B — множество элементов описания ФЭ- B = {Вход (А), Выход (В), Объект (С)}, Bk с B- RC — отношение на CxD, пара (oi, dj) е RC определяет элемент описания ФЭ, выполняющего роль dj в фразовом образце ог-- RB — отношение на RoxB, пара ((сг, dj), Bk) е RB определяет набор концептов ПО «Physical Effect», соответствующих элементу описания ФЭ Bk —
def
Усі е C 3df е Dt [d,
где ає] - оператор, ставящии в соответствие роли 4 фразового образца с, элемент описания Ф Э Бк.
Классы концептов ПО
Вход ФЭ
Элемент описания ФЭ
і г
Выход ФЭ
Объект ФЭ
Наименование Качественные Физические величины Физические величины Структура
воздействия характеристики (непараметрические) (параметрические) объекта
Характеристики
объекта
Electric field
Weak electric field
Electric field intensity
Magnetic field
Strong electric field
Homogeneous мagnetic field
Концепты ПО
Potential
difference
Magnetic
induction
Temperature
Mixture
Solid
Conductivity
Contact
Crystalline
solid
Amorphous
solid
I
Семантическое отношение «IS-A»
-> Семантическое отношение «HAS-PART»
Рис. 1. Таксономия концептов ПО «Physical Effect»
Согласно модели ФЭ, разработанной на кафедре САПР и ПК ВолгГТУ [1], входные воздействия на объект ФЭ вызывают выходное воздействие на окружающую среду или на объект ФЭ. Поэтому в тексте, содержащем описание ФЭ, необходимо выделить фразовые образцы, описывающие некоторое «воздействие» над «объектами», выполняющими определенные роли внутри данного «воздействия» [5].
Были выделены в единый класс все фразовые образцы ПО «Physical Effect», характерные
для описания ФЭ в тексте физической тематики, такие как изменение (change, increase, decrease), зависимость (depend, directly proportional, inversely proportional), влияние (relate, cause) и др.
Для каждого фразового образца определены следующие роли: «AO (Subject)» (то, что воздействует) — «Al (Object)» (то, что подвергается воздействию) — «AM-LOC (Location)», «AM-DIR (Di-rection)» (где осуществляется воздействие), которые сопоставлены с элементами описания ФЭ: входом (A), выходом © и объектом (B).
Рис. 2. Алгоритм методики извлечения структурированной физической информации в виде ФЭ из текста
На основании предложенной модели разработана методика выделения предварительных входной и выходной карт ФЭ из англоязычного текста (рис. 2), состоящая из следующих последовательных процедур:
1) семантический разбор с помощью системы Semantic Role Labeler, который представляет собой предложения текста в виде деревьев грамматического разбора Чарняка и осуществляет классификацию аргументов (в качестве предикатов берутся глаголы- для каждого предиката определяются его аргументы — фрагменты предложения, и выясняется, какую семантическую роль выполняет каждый аргумент) —
2) семантический анализ, результатом которого являются сформированные семантические сети описаний ФЭ в предложениях текста (рис. 3).
Вершина семантической сети: Oi = (T, B) [6],
где T — терм, с помощью которого в тексте представлен концепт ПО, выполняющий определенную роль- T, е RB — B, — элемент описания ФЭ.
Терм является лингвистической составляющей концепта ПО — словом или устойчивым словосочетанием, принятым для выражения данного концепта средствами английского языка. Между выделенными концептами устанавливаются связи — фразовые образцы из модели MFE, на основе которых и было выполнено извлечение концептов из текста-
3) следующая процедура методики — составление предварительной входной карты ФЭ с помощью свертки концептов. На рис. 4 приведен пример составления описания ФЭ на основе предложения «In electrical circuits, any electric current produces a magnetic field and hence generates a total magnetic flux acting on the circuit».
Роль: Object
02 = (T2, B2)
T2 = { magnetic flux }
B2 = { выход ФЭ }
Роль: Location
03 = (T3, B3)
T3 = { electrical circuit }
B3 = { объект ФЭ }
Рис. 3. Семантическая сеть описания ФЭ в предложении «In electrical circuits, any electric current produces a magnetic field and hence generates a total magnetic flux acting on the circuit»
Роль: Subject Oi = (Ti, Bi)
T1 = { electric current } B1 = { вход ФЭ }
— -
Вход Ф Э Выход ФЭ Объект ФЭ
Свертка ЕієсМс current
Свертка
Magnetic field (magnetic flux)
Свертка
єієсігіссі drouit
Рис. 4. Преобразованная семантическая сеть описания ФЭ в тексте
Синонимичные концепты «electric current» и «electrical circuit» свернуты. Концепты «mag-netic field» и «magnetic flux» в выходе свернуты, поскольку находятся в отношении мерони-мии «HAS-PART» (согласно разработанной онтологии). Концепт «Magnetic field» во входе устранен согласно отношению семантической однозначности [7]. Таким образом, получаем предварительное описание ФЭ: входное воздействие — electric current- объект — electrical circuit- выходное воздействие — magnetic field.
Выходная карта формируется автоматически из предложений текста, послуживших основой для составления входной карты ФЭ.
В работе предложена методика извлечения фактов (структурированных конструкций определенной тематики) из естественно-языковых
текстов предметной области. Разработанный метод может быть использован в различных задачах, связанных с обработкой слабоструктурированных текстов (например, может применяться для извлечения химических знаний в виде химических эффектов из текстов на естественном английском языке).
БИБЛИОГРАФИЧЕСКИЙ СПИСОК
1. Фоменков, С. А. Моделирование и использование структурированных физических знаний: монография / С. А. Фоменков, Д. А. Давыдов, В. А. Камаев. — М.: Машиностроение-1, 2004.
2. Яровенко, В. А. Формирование интегрированной системы обработки структурированных физических знаний с применением мультиагентного подхода / В. А. Яро-венко, С. А. Фоменков // Известия Волгоградского государственного технического университета: межвуз. сб. на-
уч. ст. № 12 (б0) / ВолгГТУ. — Волгоград, 2009. — (Сер. Актуальные проблемы управления, вычислительной техники и информатики в технических системах. Вып. 7). -С. 12б-128.
3. Коробкин, Д. М. Программный комплекс ноддерж-ки процесса формирования информационного обеспечения фонда физических эффектов / Д. М. Коробкин, С. А. Фо-менков // Научно-технические ведомости СПбГПУ. Сер. Информатика. Телекоммуникации. Управление. — СПб.: СПбГПУ, 2009. — № б.
4. Wenlei Mao, Wesley W. Chu: The phrase-based vector space model for automatic retrieval of free-text medical documents. Data & amp- Knowledge Engineering, 2007.
5. Коробкин, Д. М. Методика выделения структурирован-
ной физической информации в виде физических эффектов из текста / Д. М. Коробкин, С. А. Фоменков // Вестник компьютерных и информационных технологий. — 2009. — № 10.
6. Коробкин, Д. М. Модель представления структурированной предметной информации в виде физических эффектов в тексте на естественном русском языке / Д. М. Ко-робкин, С. А. Фоменков // Вестник компьютерных и информационных технологий. — 2009. — № 7.
7. Коробкин, Д. М. Поиск и выделение структурированной физической информации в виде физических эффектов из текстов первичных источников / Д. М. Короб-кин, С. А. Фоменков // Научно-технические ведомости СПбГПУ. Сер. Информатика. Телекоммуникации. Управление. — Сб.: СПбГПУ, 2009. — № 6.

ПоказатьСвернуть
Заполнить форму текущей работой