Общая архитектура индивидуального тезауруса пользователя Интернет

Тип работы:
Реферат
Предмет:
Информатика


Узнать стоимость

Детальная информация о работе

Выдержка из работы

www. rae. ru Научный журнал & quot-Фундаментальные исследования& quot-
ОБЩАЯ АРХИТЕКТУРА ИНДИВИДУАЛЬНОГО ТЕЗАУРУСА ПОЛЬЗОВАТЕЛЯ ИНТЕРНЕТ
Долматов М. А., Сатунина А. Е.
Российский государственный гуманитарный университет
Москва, Россия
В настоящий момент наиболее распространенным способом выражения информационной потребности пользователя при обращении к поисковым машинам Интернета являются запросы из ключевых слов. Формулировка информационной потребности на языке запросов — наиболее сложный и трудно формализуемый этап поиска.
Одним из способов повышения качества, а также удобства поиска являются автоматические и полуавтоматические операции с запросами (модификация, расширение, изменение весов терминов). Наряду с методами, основанными на анализе коллекции документов или той ее части, которая выдается в ответ на первичный запрос (например, обратная связь по релевантности), существуют методы на основе специальных словарей — тезаурусов. Электронный тезаурус — это словарь, предназначенный для анализа текста и информационного поиска, включающий широкий набор семантических отношений между составляющими его терминами. Тезаурусы могут быть построены автоматически на основе анализа совместной встречаемости слов, а также вручную.
Традиционно тезаурусы играли и продолжают играть важную роль в организации информационного поиска. До появления и широкого распространения Интернета язык индексирования, и, следовательно, тезаурус служили для обеспечения возможности непротиворечивого представления предметного содержания документа, согласования словаря пользователя информационной системы и словаря индексатора и обеспечения пользователя возможностью выбора поисковой стратегии в целях достижения большей полноты выдачи или более высокой точности поиска — в зависимости от обстоятельств [1].
Несмотря на вполне очевидные преимущества в использовании тезауруса, с развитием полнотекстовых баз данных сложилось мнение, что поддержка информационного поиска с помощью контролируемых словарей нерентабельна, и постепенно они почти исчезли из употребления. Однако в последние годы практика показала, что полнотекстовый поиск не столь эффективен, как поиск с использованием даже простейшего языка индексирования, и внимание профессионалов вновь обратилось к тезаурусам.
Хотя на сегодняшний день во многих странах, прежде всего, в США существует множество организаций, занимающихся теоретической и практической стороной построения тезаурусов [3], ни одна из глобальных сетевых поисковых машин не интегрирована с универсальным информационно-поисковым тезаурусом, прежде всего, в силу трудностей, сопряженных с его построением и ведением. Вместо этого поисковые машины постоянно дополняются отдельными автоматизированными средствами расширения или сужения области поиска и контроля над синонимией и омографией (это, например, опция повторного поиска в AltaVista или концептуальный поиск в Excite) [5]. А это означает, что как для рядового пользователя, так и для специалиста, занимающегося специфической научной деятельностью, не решена проблема выбора поисковой стратегии и расширения запроса. Любопытное решение было предложено компанией Quintura, выпустившей оболочку, позволяющую визуальными средствами моделировать запрос к наиболее популярным поисковым системам в виде семантической сети.
В Российском Государственном Гуманитарном Университете в качестве решения существующих проблем при поиске в Интернет доктором технических наук профессором Д. Г. Лахути было предложено создание интуитивно понятного, расширяемого средства для создания индивидуальных тезаурусов, которое бы позволило пользователю самому в интерактивном режиме наполнять его при решении поисковых задач и использовать впоследствии. Архитектура такого приложения должна быть интегрирована браузером и с операционной системой, что обеспечит без лишних манипуляций и траты времени обновление содержания словаря в режиме on-line. Таким образом общая архитектура предлагаемого продукта включает следующие компоненты: автономное приложение- базу знаний тезауруса, плагин браузера. Автономное приложение включает
пользовательский интерфейс и собственно приложение, позволяющее управлять содержанием базы знаний тезауруса- база знаний тезауруса включает множество дескрипторов (на различных естественных языках) и схему отношений между ними- плагин браузера должн позволять быстрое автоматическое добавление терминов в тезаурус, отображать иерерхию дескрипторов, осуществлять быстрый поиск и навигацию.
www. rae. ru Научный журнал & quot-Фундаментальные исследования& quot-
Индивидуальный тезаурус может быть ориентирован на представление любой области знаний и на естественном языке пользователя. При этом должна обеспечиваться возможность создания сколь угодно глубокого (в рамках разумного, конечно) дерева признаков, использования перекрестных ссылок для выражения импликативных и ассоциативных связей. Таким образом, это позволит создавать неограниченное количество подтезаурусов, уровней иерархии в подтезаурусе и связей для каждого термина. В удобной для неискушенного в деле построения словарей пользователя полуавтоматической форме появится возможность организовывать выявление и исправление конфликтующих отношений, автоматическое порождение обратных отношений, установление между дескрипторами отношений синонимии, иерархий и прочих, согласно стандарту А1/1Т^О, а также отношений других видов, необходимых для пользователя. Кроме этого, обеспечивается быстрый поиск по ключевым словам и категориям. Построенный словарь можно также будет экспортировать в распространенном в настоящее время. хт1-формате — для обмена между пользователями.
Сама идея не является новой, в частности, попытки создания индивидуальных тезаурусов отмечаются специалистами Американского общества индексаторов, однако ни средства по созданию таких словарей, ни сами полученные таким кустарным способом тезаурусы должного распространения не получили. А потому задача создания описанного выше средства для разработки тезаурусов является актуальной. Практическую же ценность этого проекта покажет время.
1. Ланкастер Ф. У. Информационно-поисковые системы: Пер. с англ. — М: & quot-Мир"-, 1972.
2. Рубашкин В. Ш., Лахути Д. Г. Семантический (концептуальный) словарь для информационных технологий // НТИ. Сер. 2, Информ. процессы и системы / ВИНИТИ. — М., 2000. — № 7. — С. 1−9.
3. Information About Indexing. The American Society of Indexers. // http: //www. asindexing. org/site/asiinfo. shtml
4. Branka Kosovac. Internet/Intranet and Thesauri. National Research Council Canada, Institute for Research in Construction, 1997. http: //irc. nrc-cnrc. gc. ca/thesaurus/roofing/report_b. html
5. Жмайло С. В. К разработке современных информационно-поисковых тезаурусов // НТИ. Сер. 1, Документальные источники информации / ВИНИТИ — 2004. — № 1. — С. 23−31
СПИСОК ЛИТЕРАТУРЫ

ПоказатьСвернуть
Заполнить форму текущей работой