Оценка и анализ эффективности работы информационно-поисковых систем

Тип работы:
Курсовая
Предмет:
Программирование


Узнать стоимость

Детальная информация о работе

Выдержка из работы

Оценка и анализ эффективности работы информационно-поисковых систем

Введение

Информационно-поисковые системы это системы, которые отыскивают документы или описания документов.

Информационно-поисковая система не информирует потребителя о предмете запроса в том смысле, что как-то изменяет его знания по этому предмету. Она информирует его лишь о наличии (или отсутствии) документов, имеющих отношение к его запросу, и о том, где эти документы можно найти.

Информационно-поисковая система может осуществлять поиск полных текстов документов, поиск вторичных документов (например, рефератов) или поиск названий и адресов документов, т. е. библиографических описаний. Систему, в конечном итоге выдающую потребителю полные тексты документов, правильнее было бы назвать системой поиска документов, тогда как систему, которая на запрос предоставляет только описание документов, — системой поиска ссылок. Поиск обычно включает несколько стадий. Первое выдача в поисковой системе может, например, иметь форму ссылок, среди которых потребитель производит отбор. Вслед за тем он может запросить уже полные тексты отобранных источников. В другом случае возможно следующая последовательность выдачи: а) номера документов, б) описание документов и в) полные тексты.

Информационно-поисковую систему следует отличать от системы поиска данных, в название которой отражено ее назначение-поиск данных, предоставленных в словесной или числовой форме.

Информационно-поисковая система (ИПС) представляет собой некий комплекс, охватывающий документы, запросы, формализованные описания этих документов и запросов, механизм, позволяющий сравнивать эти описания, и человека. Люди, входящие в систему, делятся не две категории: 1) информационные работники, обслуживающие систему, или операторы системы; в круг их обязанностей входит описание документов, поступающих на вход в систему (т.е. их индексирование), поддержание и обслуживание систематизированного массива описаний документов (указателя) и поиск в этом массиве; 2) потребители системы, которые направляют в систему запросы. Разумеется, операторы системы могут иногда являться одновременно и ее потребителями, обращаясь к поисковому массиву для удовлетворения собственных потребностей в информации. Точно так же потребитель системы может выступать в роли оператора, если он производит поиск в массиве без посредничества информационного работника.

Указатель (index) является, по существу, фильтром, назначение которого заключается в том, чтобы пропускать нужные документы и задерживать нежелательные. Существует множество различных видов указателей к фонду документов.

Одним из наиболее распространенных, безусловно, является авторский указатель, показывающий, какие работы определенного автора включены в фонд и где они размещены. Другие типы указателей могут быть составлены, например, по порядковым номерам документов, по организациям и учреждениям, выпустившим документы, или по языку, на котором они написаны. Однако, когда мы используем термин информационно-поисковая система, мы имеем в виду прежде всего систему, способную отыскивать документы в ответ на запросы по определенному «предмету». Поэтому основным указателем такой системы является предметный указатель, а метод описания документов для него носит название предметного индексирования.

Предметное индексирование удобно рассматривать как операцию, состоящую из двух этапов:

1) анализа предметного содержания документа (т.е. определения, о чем идет речь в документе);

2) перевода понятий, выявленных в результате такого понятийного анализа, на язык индексирования, термины которого (index terms) играют по отношению к предметному содержанию документа роль своего рода стенографических символов или условных обозначений.

В действительности такая схема является слишком упрощенной. Для эффективного предметного индексирования вовсе не обязательно присвоение документу условных обозначений на основе присущего ему предметного содержания. Большая эффективность может быть достигнута при описании документа в соответствии с типом потребителей, которые, по предположению, могли бы извлечь из него максимальную пользу, и в соответствии с типом вероятных запросов, для которых документ может рассматриваться как релевантный (т.е. относящийся к делу).

Целью дипломного проекта является оценка и анализ эффективности работы информационно-поисковых систем

1. Расчетно-теоретическая часть

1.1 Критерии эффективности ИПС

поисковый информационный индексирование

Существуют три основных аспекта оценки эффективности информационно-поисковой системы:

1. аспект потребителей системы;

2. аспект «низшего звена управления», которое включает операторов и административный аппарат, обслуживающий систему;

3. аспект «высшего звена управления».

Требования потребителей

Потребителей (requesters) информационно-поисковой системы, направляющие в нее запрос, сознательно или неосознанно оценивают систему по тому, насколько хорошо она удовлетворяет их личные потребности в информации. Их интересует не то, как функционирует система, а лишь конечный результат ее работы. Имеет смысл более подробно рассмотреть требования потребителей к информационно-поисковой системе.

Полнота поиска

Потребитель, прежде всего, заинтересован в получении документов, которые способствуют удовлетворению его потребности в информации. В одних случаях для него будет достаточно единственно документа, в других — нескольких основных документов, а в определенных ситуациях потребитель стремится, получить как можно больше литературы по предмету своего запроса. Эти различия в требованиях могут быть проиллюстрированы на нескольких примерах.

Типичной ситуацией при поиске патентов является поиск с целью определения новизны некоторого устройства или материала. Все что требуется при поиске такого характера, — это найти хотя бы один документ, опровергающий новизну и, следовательно, патентоспособность заявленного предмета. Как только такой документ выявлен, дальнейший поиск может быть прекращен.

Для технической библиотеки характерны запросы, в которых содержится требование подобрать «несколько хороших статей» по определенному предмету. Эта ситуация отражает потребность научного работника или инженера войти в курс новой для него области интересов или сферы его непосредственно деятельности путем предварительного ознакомления с соответствующей литературой. Противоположным случаем является ситуация, возникающая на начальном этапе выполнения научно-исследовательской работы. Здесь обычно требуется проведение исчерпывающего поиска литературы с целью установить, где и какие исследования по близкой тематике выполнялись ранее, чтобы вести плановую работу, опираясь на уже полученные результаты. В этом случае требуется отыскать максимально возможное количество потенциально полезной литературы.

Хотя требования в трех приведенных ситуациях отличаются одно от другого, основное требование к поисковой системе остается неизменным: система должна отыскивать документы, релевантные различным предметным запросам. Способность системы отыскивать релевантные документы называется полнотой (recall).

Полнота, очевидно, является наиболее важным требованием потребителя к поисковой системе, поскольку единственная цель его обращения к системе состоит в получении одного или более документов, полезных с точки зрения его информационной потребности.

Показатель полноты ИПС может быть выражен количественно с помощью весьма простого коэффициента полноты, определяемого формулой 100 R/C, где C — общее число документов в системе, о которых известно, что они релевантны определенному запросу, а R — число этих релевантных документов, найденных в процессе поиска по данному запросу в указателе к фонду. Пусть мы определили, что по некоторому запросу, введенному в систему, имеется 10 релевантных документов, которые были заиндексированы в нашем поисковом массиве. Если при проведении поиска мы в состоянии отыскать восемь из них, мы говорим, что коэффициент полноты для данного конкретного поиска равен (8/10) * 100, или 80%.

Хотя показатель полноты является наиболее важной для потребителя характеристикой поисковой системы, это отнюдь не единственная ее важная характеристика. Действительно, числовые значения показателя полноты поисковой системы сами по себе не имеют смысла. Это становится очевидным, если мы примем во внимание, что максимальной полноты для любого запроса можно всегда достигнуть путем выдачи всего фонда заиндексированных документов. Другими словами, мы всегда можем добиться 100% - ной полноты, вообще не используя указатель к фонду документов, а, обращаясь непосредственно к самим документам и последовательно просматривая каждый из них до тех пор, пока не будет отобраны все желательные документы.

Точность

В свете того обстоятельства, что 100% - ной полноты поиска всегда можно добиться путем просмотра всего фонда документов, становится ясно, что:

1. численное значение полноты еще не является мерой эффективности информационно-поисковой системы;

2. назначение указателя состоит в том, чтобы отсеять как можно больше нежелательных документов, потеряв при этом как можно меньше полезных документов.

При таком подходе указатель по существу является фильтром. Его цель состоит в сокращении количества документов (или их заменителей), которые нам приходится просматривать, при сохранении приемлемого значения полноты выдачи. Поскольку коэффициент полноты есть мера способности фильтра пропускать желательные документы, необходимо располагать еще каким-то дополняющим его коэффициентом, который бы являлся мерой способности фильтра задерживать ненужные документы. Сирил Клевердон [1] предположил в качестве подходящей меры коэффициент точности 100 R/L, где R — по-прежнему число отысканных при поиске релевантных документов, а L — общее число документов, выданных при этом поиске. Рассмотрим снова наш пример, когда в фонде имеется 10 релевантных данному запросу документов, из которых при поиске в указателе мы можем найти только 8 (полнота 80%). Если при поиске этих восьми желательных документов нам выдается 100 документов (8 желательных, 92 ненужных), мы говорим, что коэффициент точности для данного поиска составляет 8/100, или 8%.

Хотя ни коэффициент полноты, ни коэффициент точности в отдельности не характеризуют работу поискового аппарата или всей системы в целом, их совместное использование дает вполне разумный способ измерения рабочей эффективности (operating efficiency) системы, т. е. эффективности по отношению к требованиям потребителей. Если по достаточному числу поисков мы определили, что наша система функционирует, например, с показателями 8% полноты и 25% точности, мы знаем, что наша система в среднем а) отыскивает 8 из каждых 10 релевантных документов и б) на каждый найденный релевантный документ выдается 3 нерелевантных. Другими словами, мы располагаем полным критерием фильтрующей способности системы: ее способности задерживать нежелательные документы и пропускать полезные.

Следует отметить, что оба эти параметра — полнота и точность — употреблялись нами как для характеристики поисковой системы в целом, так и для характеристики ее поискового массива, т. е. указателя. Это сделано не случайно: если бы мы измеряли только рабочую эффективность указателя, мы, очевидно, должны были бы выводить значения полноты и точность на основе непосредственных результатов поиска по указателю без специального вмешательства человека, например, в виде дополнительного «просеивания» или «прополки» (т.е. фильтрации второго порядка) выдачи оператором системы. Для автоматизированной системы, выдающей на печать найденные описания документов, мы должны выводить числовые значения полноты и точности по полным данным всей этой выдачи.

Аналогичным образом при оценке ручного поискового аппарата, например картонного каталога, мы должны считать найденными все источники, содержащиеся в классах, указанных в поисковом предписании (т.е. удовлетворяющие логике поиска). Значения показателей рабочей эффективности выводятся на основании этой группы документов. Предположим, что мы ищем документы, связанные с аэродинамическими нагрузками, воздействующими на стреловидное крыло в сверхзвуковом полете а) в посткоординируемом дескрипторном указателе типа «пик-э-бу» и б) в предкоординированном указателе в форме алфавитно-предметного каталога. В первом случае мы приняли решение осуществить поиск по предписанию:

["Аэродинамическая сила" или «Аэродинамическая нагрузка» или «Подъемная сила» или «Лобовое сопротивление"] и ["Стреловидное крыло"] и ["Сверхзвуковой полет"].

Выдачей по этому поиску будет являться вся группа документов, которые удовлетворяют поисковой логике (т.е. все документы, которые заиндексированы одним из терминов, выражающих понятие аэродинамической силы, и одновременно термином «Стреловидное крыло» и одновременно одним из терминов, указывающим на «Сверхзвуковую скорость»). Значения полноты и точности должны выводиться по этой группе документов.

Аналогично при поиске в алфавитно-предметном указателе мы можем обратиться к описаниям, систематизированным по рубрикам:

Стреловидное крыло — Аэродинамические силы

Стреловидное крыло — Лобовое сопротивление

Стреловидное крыло — Подъемная сила

Стреловидное крыло — Сверхзвуковой поток

Чтобы получить числовые характеристики только одного указателя, мы должны считать найденными все источники, систематизированные под этими обозначениями классов (т.е. всю группу документов, описания которых просмотрены под выбранными рубриками), и вычислять полноту и точность по этой выдаче. Таким путем мы измеряем действительную фильтрующую способность указателя.

При оценке рабочей эффективности функционирующей поисковой системы в целом в противоположность случаю оценки одного только указателя числовые значения полноты и точности должны выводиться на основании группы документов или их заместителей, выданных конечному потребителю. При выдаче с ЭЦВМ или в системе «пик-э-бу» человек оператор может просмотреть найденные описания и выдать потребителю только те из них, которые он сам считает «вероятно релевантными». Аналогично оператор ручной системы, производя поиск в предкоординированном указателе в форме карточного каталога, может решить, что одни источники «вероятно релевантны» запросу, а другие — «вероятно нерелевантны», и в соответствии со своим решением направить потребителю только первую группу документов или их описаний.

Числовые значения полноты и точности являются удобными показателями эффективности как поисковой системы в целом, так и аппарата сравнения документов и запросов. Когда мы оцениваем поисковую систему в целом, мы должны выводить значения показателей по тому множеству документов, которое выдается конечному потребителю. Во втором случае мы должны определять эти значения по «сырой» выдаче из указателя. Важно отчетливо представлять себе, что мы фактически оцениваем, и в соответствии с этим выводить значения показателей.

Легко видеть, что коэффициент точности фактически является мерой количества усилий, затрачиваемых для достижения определенного числового значения полноты. Приложим максимум усилий для сплошного просмотра всего фонда, мы всегда можем быть уверены в достижении 100% - ной полноты. Коэффициент точности (т.е. доля релевантных в общем числе просмотренных документов) при таком поиске, очевидно, будет очень низким. Вероятность достижения 100% - ной полноты, имеет тенденцию к понижению с уменьшением числа документов в выдаче, наоборот. Так, если по некоторому предметному запросу мы проводим очень широкий поиск и отбираем 100 документов, показатель полноты, вероятно, будет на много выше, чем в том случае, когда мы сужаем наш поиск и отыскиваем только 20 документов. Однако суженное поисковое предписание должно более точно соответствовать запросу, чем широкое. Следовательно, можно ожидать, что доля релевантных документов в выдаче при суженном поиске будет выше, чем при широком. Другими словами, значение коэффициента точности будет в этом случае выше. Таким образом, здесь наблюдается тенденция к обратной зависимости между полнотой и точностью: чем больше документов мы отбираем при поиске (т.е. чем обширнее класс просматриваемых документов), тем больше релевантных документов мы найдем, однако ценой пропорционального увеличения числа нерелевантных документов в выдаче. И наоборот, чем больше мы сужаем наш поиск, придерживаясь строгого, буквального перевода терминов запроса на язык системы, тем меньше релевантных документов получим, но в то же время тем больше будет отфильтровано нерелевантных документов.

Мы уже отметили, что коэффициент точность есть мера усилий, затрачиваемых на достижение определенного значения полноты. Допустим, что имеется определенный предметный запрос, по которому в нашем фонде содержится 20 релевантных документов. При широкой формулировке поискового предписания из них будет найдено 15, а общий объем выдачи составит 150 документов. При суженном поиске мы отыщем 10 желательных источников при общем числе документов в выдаче, равно 50. Таким образом, для широкого поиска коэффициент полноты будет равен 75% (15/20 * 100) при коэффициенте точности 10% (15/150 * 100); в суженном поиске мы имеем коэффициент полноты, равный 50% при коэффициенте точности 20%. Поскольку на просмотр 150 документов или их заместителей и отбор из них 15 желательных источников требуется больше времени, чем на просмотр 50 источников и отбор из них 10, коэффициент точности действительно служит хорошей мерой затрачиваемых усилий, имея в виду как усилия потребителей системы, так и усилия оператора.

Потребитель, который желает получить «несколько хороших статей» по предмету своего запроса, фактически требует проведения весьма точного поиска. Такому потребителю едва ли захочется просмотреть большое количество нерелевантных документов, чтобы отыскать среди них еще несколько релевантных. Для его потребностей полнота 50% при коэффициенте точности 20% является лучшим показателем, чем полнота 75% при точности 10%. Однако научный сотрудник, приступающий к работе над новым проектом и желающий получить исчерпывающий обзор литературы, очевидно, готов согласиться просмотреть дополнительно ряд нерелевантных источников, чтобы отыскать среди них дополнительно несколько интересующих его материалов. Для него 75% полноты при 10% точности являются более приемлемыми характеристиками.

Таким образом, чтобы коэффициенты полноты и точности могли выполнять роль осмысленных показателей рабочей эффективности поисковой системы, они должны быть соотнесены с требованиями потребителя системы и их готовностью затратить определенные усилия.

Затраты труда

Коэффициент точности поиска есть мера усилий потребителя, необходимых для достижения определенного значения полноты поиска. Но это не только мера. Коэффициент точности отражает объем трудозатрат, расходуемых потребителем на просмотр выданных материалов или непосредственно на проведение поиска путем просмотра предкоординированного указателя ручного типа. Там, где потребитель передает функцию поиска оператору, лучший конечный результат может быть достигнут при большей затрате его личных усилий на начальном этапе процесса поиска. Вообще говоря, потребитель может приложить усилия на любой из следующих стадий поиска:

1. Он может потратить больше времени и усилий на более точное формулирование своей потребности в информации при передаче запроса оператору информационной системы.

2. Он может проанализировать предложенную ему формулировку поискового предписания до начала поиска и дать свои замечания о необходимости сужения или расширения поиска.

3. Он может проанализировать некорректированную машинную выдачу по указателю, а также выдачу, полученную после первой грубой аппроксимации. По результатам анализа выданных источников он имеет возможность затем уничтожить свой запрос перед проведением заключительного запроса. Этот тип поиска с обратной связью между системой и потребителем обычно называют итеративным поиском.

Можно ожидать, что любая из этих форм воздействия потребителя и системы приведет к улучшению конечных результатов поиска в смысле повышения полноты или точности, а в некоторых случаях и обоих показателей.

Время ответа

Здесь подошли к другому важному требованию потребителя ИПС, а именно времени ответа (т.е. времени между предъявлением запроса и выдачей удовлетворительного ответа). В поисковой системе, где потребитель поручает функцию поиска персоналу информационной системы, увеличение усилий, затрачиваемых на корректировку его запроса в процессе взаимодействия с системой, может, с одной стороны, привести к улучшению показателей полноты и точности системы, а с другой — вызвать задержку ответа. В частности, это характерно для ситуации, когда потребитель, запрашивающий информацию, не имеет непосредственной связи с удаленным информационным центром.

Аналогично тому, как возможны различные требования потребителей к полноте и точности системы в зависимости от их информационных потребностей, изменяются и их требования ко времени получения ответа. Требования к быстроте ответа связаны с требованиями к полноте и точности. Исследователь, для которого в первую очередь имеет значение достижение максимальной полноты, как правило, готов ждать какое-то дополнительное время, чтобы получить добавочное количество полезных документов. В его положении быстрота ответа играет меньшую роль, чем полнота поиска. Однако он может потребовать, чтобы система выдала определенную часть полезной литературы (например, 60% - ная полнота) в некоторое минимальное количество времени.

Другая ситуация возникает в случае, когда потребитель нуждается в поиске с высокой точностью для отбора нескольких ключевых документов. Поскольку его требования к системе в этом случае в некотором смысле менее строги, он, вероятно, будет менее терпим к неоправданным задержкам ответа. На деле он может предпочесть получить два полезных документа в тот же день вместо ожидания 10 полезных документов в течение недели.

В определенных поисковых ситуациях время ответа приобретает решающее значение. Быстрое отыскание множества совершенно нерелевантных документов (нулевая полнота при нулевой точности) не может считаться ответом, имеющим какую-либо ценность, за исключением возможных случаев, когда в системе предусматривается непосредственное взаимодействие с потребителем, позволяющее ему корректировать свой запрос по выданным источникам при осуществлении итеративного поиска.

Форма выдачи результатов поиска

Другим важным для потребителя системы фактором является форма представления результатов поиска. Результатами поиска могут быть номера документов, библиографические описания, рефераты или полные тексты документов в виде микрофильмов или копий. Форма выдачи оказывает существенное влияние на требования к точности. Потребитель скорее может примириться с низкими показателями точности системы, выдающей ему рефераты, чем с такими же показателями системы, которая выдает только библиографические описания или номера документов. Если система предоставляет потребителю рефераты найденных документов, для него не составит проблемы и не отнимет чересчур много времени просмотр даже сотни рефератов с тем, чтобы отыскать по ним, скажем, 10 полезных документов. В случае же, когда система выдает лишь библиографические описания, обычно бывает труднее решить, какие из документов представляют реальную ценность, так что потребитель вынужден обращаться уже к самим документам и должен просмотреть большое их число, чтобы в итоге найти среди них несколько действительно полезных. Если потребитель располагает только номерами документов, он должен обратиться непосредственно к первоисточникам или ко вторичному фонду рефератов, чтобы выявить источники, удовлетворяющие его потребностям. Разыскать и просмотреть 100 первоисточников, чтобы обнаружить среди них 10 действительно полезных, не всегда бывает приемлемо. Другими словами, потребитель системы может примириться с низким значением точности, если результаты поиска выдаются в форме, обеспечивающей возможность быстрого предварительного просмотра. Номера документов становятся эффективной формой выдачи лишь в тех случаях, когда техническое оборудование позволяет немедленно получить микрокопии соответствующих документов или их заместителей.

Организационные требования

Операторы и административный состав ИПС, очевидно, прежде всего заинтересованы в том, чтобы система как можно лучше отвечала требованиям потребителей. Удовлетворение нужд потребителей является первой целью, как оператора, так и администратора системы. Однако, разумеется, для руководства небезразлично, во сколько обходится удовлетворение нужд потребителей и каким альтернативными способами эта задача может быть решена. Таким образом, в экономической эффективности системы руководство заинтересовано в неменьшей степени, чем в ее рабочей эффективности. «Высшее звено управления» производит оценку системы на более высоком уровне — на уровне стоимости работы системы и экономической оправданности самого ее существования.

1.2 Факторы, влияющие на характеристики ИПС

Полнота индексирования

К двум наиболее важным факторам, влияющим на полноту и точность поиска по указателю, относятся: а) полнота (exhaustivity) индексирования и б) специфичность (specificity) языка индексирования.

Полнота индексирования характеризует ту степень, в какой все отдельные предметы (темы), обсуждаемые в конкретном документе, распознаются при индексировании и переводятся на язык системы. Предположим, что имеется документ, в котором речь идет только о шести предметах (А, В, С, D, Е, Р). Если, на стадии понятийного анализа при индексировании все эти предметы распознаются в отдельности и выражаются через соответствующие комбинации терминов языка индексирования, то можно сказать, что достигнута исчерпывающая полнота индексирования данного источника информации. Очевидно, что если все шесть предметов заиндексированы, документ может быть найден независимо от того, какие предметы или комбинации предметов содержатся в запросе. Таким образом, высокий уровень полноты индексирования обеспечивает и высокую полноту поиска. При уменьшении полноты индексирования снижается полнота поиска. Если понятие F не выделено и специально не учтено при индексировании данного документа, он никогда не сможет быть найден в указателе в ответ на запрос о литературе, в которой говорится о F (если только термины, использованные для описания F в запросе, случайно не окажутся связанными иерархически или другим путем с терминами, использованными для описания понятий А-Е). При постепенном уменьшении уровня полноты индексирования путем последовательного исключения оставшихся предметов полнота поиска по отношению к конкретному документу соответственно уменьшается. Разумеется, это справедливо и для всех других заиндексированных документов. Индексирование каждого документа с максимальной полнотой обеспечивает максимальную полноту поиска по указателю.

Однако, если высокий уровень полноты индексирования обеспечивает высокую полноту поиска, он одновременно снижает его точность. Это связано в основном с двумя причинами. Во-первых, если в каждом вводимом документе выделяются и учитываются все или по крайней мере существенная часть подлежащих индексированию предметов, то тем самым оказываются заиндексированными и многие предметы, которые лишь слегка затрагиваются в данном документе. Следовательно, и они также будут выдаваться в ответ на запросы, по отношению к которым они содержат очень мало информации.

Предположим, что рассмотренный ранее документ, содержащий шесть предметов, является отчетом, описывающим определенные аэродинамические явления, и в нем говорится о применении конкретного математического метода, скажем метода Польхаузена для расчета одного из этих явлений. Предположим также, что этот математический метод был выделен на стадии понятийного анализа индексирования и выражен соответствующими терминами языка индексирования. Пусть этот метод будет предметом Р. По отношению к запросу (возможно, очень редкому), в котором потребитель требует всю литературу, описывающую применение метода Польхаузена, этот документ является релевантным и должен быть выдан. Высокий уровень полноты индексирования окажется полезным для данного запроса, требующего большой полноты выдачи. Однако рассмотрим запрос (вероятно, более частый), в ответ на который потребитель хочет получить документы, описывающие сам метод Польхаузена и способы его применения. Ему нужны только существенные статьи по этому методу; статьи, в которых он только упоминается, являются для его запроса нерелевантными. Однако поиск в массиве документов по аэродинамике, заиндексированных с высоким уровнем полноты, может привести к выдаче большого числа документов, в которых содержится лишь простое упоминание о данном методе. В этом случае высокий уровень полноты индексирования вызовет выдачу большого количества нежелательных источников (т.е. уменьшит точность поиска).

Вторая причина уменьшения точности поиска при высоком уровне полноты индексирования заключаете в следующем. Чем больше предметов учтено при индексировании и чем больше терминов языка индексирования используется для выражения этих предметов, тем больше вероятность возникновения ложных координаций терминов при поиске (предполагая, что указатель посткоординируемый). Так, документ с [шестью предметам ABCDEF, в котором, допустим, А связан с В, С с D и Е с F, может быть ошибочно выдан в ответ на любой из 12 двухаспектных запросов (А в связи с С, А в связи с D, В в связи с С и т. д.). Если каждый из шести предмете выражен определенным числом отдельных несвязанных терминов языка индексирования, вероятность появления ложных координаций на уровне терминов чрезвычайно возрастает.

С учетом всего выше сказанного нелишне все же еще раз подчеркнуть, что высокий уровень полноты индексирования приводит к большой полноте и низкой точности поиска. И наоборот, низкий уровень полноты индексирования вызывает малую полноту и высокую точность поиска. Рассмотрим ситуацию, в которой принята методика индексирования с минимальным уровнем полноты. Каждый документ в этом случае индексируется только по одному предмету — по главной теме документа. Очевидно, что полнота поиска по указателю будет крайне низкой: документ не будет выдаваться в ответ на запрос о предмете, несколько менее важном, чем главный предмет обсуждения. Вместе с тем всякий раз, когда документ будет найден при поиске в указателе, он окажется релевантным, так как в нем речь в значительной мере должна идти о предмете запроса. Кроме того, при индексировании с низкой полнотой (лишь отдельные ключевые слова) совершенно исключается возможность появления ложных координации на уровне понятий и существенно уменьшается возможность таких координаций на уровне терминов.

Необходимо подчеркнуть, что уровень полноты при индексировании определяется решением, принимаемым руководством поисковой системы. Это решение не завит от свойств языка индексирования, если используемый язык подходит для обработки тематических областей, которые рассматриваются во вводимых документах, и если любой обсуждаемый предмет может быть выражен в терминах языка системы, хотя бы на более общем, родовом уровне.

Специфичность языка индексирования

В то время как полнота системы определяется скорее принятой полнотой индексирования, чем внутренними свойствами языка индексирования, точность поиска всецело зависит от способности языка индексирования точно описать обсуждаемые темы (т.е. от его специфичности). Это утверждение лучше всего можно проиллюстрировать на примере. Рассмотрим три различные поисковые системы А, В и С, в которых используются контролируемые словари, содержащие соответственно 2000, 1000 и 500 терминов. Предположим, что в каждой из этих систем заиндексирован тот же самый массив документов по аэродинамике. В некоторых из этих документов речь идет о «тонких дельтовидных крыльях».

При индексировании таких документов в системе А, имеющей 2000 терминов, можно точно отразить их тематическое содержание с помощью класса, озаглавленного «Тонкие дельтовидные крылья». При индексировании этих же документов в системе В с 1000 индексационных терминов нельзя точно отразить их содержание. Возможно, их нужно отнести к более широкому классу под рубрикой «Дельтовидные крылья». Что же касается системы С то в ней, возможно, самым специфическим термином, который может быть приписан этому классу документов окажется термин «Крылья».

При поступлении в систему, А запроса по «Тонким дельтовидным крыльям» можно точно выразить этот предмет при формулировании поискового предписания так же, как и при индексировании документов, и можно ожидать, что в под массиве выданных документов будет много релевантных документов (т.е. коэффициент точности поиска будет высоким). С другой

стороны, коэффициент полноты поиска будет, вероятно, низким, потому что система может не выдать ряд документов, которые содержат полезную информацию по теме «Тонкие дельтовидные крылья. Не будут выданы, например:

1. Документы, в которых идет речь о дельтовидных крыльях вообще, но содержится существенная информация по тонким дельтовидным крыльям. Они могли быть заиндексированы термином «Дельтовидные крылья».

2. Документы, в которых идет речь о тонких дельтовидных крыльях, но заиндексированные синонимичными терминами или комбинацией терминов, например «Дельтовидные крылья малого удлинения».

Если тот же запрос направить в систему В, полнота поиска увеличится. В этом случае мы уже не можем точно отразить предмет «Тонкие дельтовидные крылья», поэтому следует прибегнуть к термину «Дельтовидные крылья». Тем самым будет получено некоторое дополнительное количество релевантных документов, пропущенных при поиске в системе А. Однако ряд потенциально полезных документов может быть все же пропущен (например, те документы по крыльям вообще, которые содержат существенную информацию по тонким дельтовидным крыльям, и те документы по дельтавидным крыльям, которые были заиндексированы синонимичными терминами или комбинацией терминов, например «Треугольные крылья»). Эти дополнительные полезные документы будут найдены при поиске в системе С, где недостаток специфичности языка индексирования заставляет проводить поиск под широким классом «Крылья».

При переходе от системы, А к системе В и далее к системе С число документов в каждом поиске будет увеличиваться и, таким образом, будет возрастать его полнота. Это происходит ввиду того, что число отдельных рубрик, обозначающих классы, уменьшается, а размер классов документов, отнесенных к этим рубрикам, соответственно увеличивается. В то же время точность имеет тенденцию снижаться: в ответ на запрос о документах по тонким дельтавидным крыльям класс документов, отнесенных к рубрике «Тонкие дельтовидные крылья», должен содержать более высокий процент полезных документов, чем класс, отнесенный к рубрике «Дельтовидные крылья», который в свою очередь содержит более высокий процент полезных документов, чем класс под рубрикой «Крылья».

Другими словами, чем выше степень специфичности языка индексирования, тем более точно можно отразить предметное содержание и тем меньше создаваемые при этом классы документов, т. е. тем большую точность можно получить при поиске в системе. С другой стороны, если такая точность достигается путем точного определения класса искомых документов, полнота имеет тенденцию понижаться по сравнению с указателем, использующим язык с меньшей специфичностью, в котором образующиеся классы документов больше по размерам. Короче говоря, сильно детализированный язык индексирования позволяет получить высокую точность поиска при одновременном уменьшении полноты поиска. Язык индексирования, имеющий невысокую степень специфичности, обеспечивает высокое значение полноты, но не дает возможности получить высокую точность.

Суммируя, можно сказать, что полнота индексирования определяет полноту поиска по указателю, а степень специфичности языка индексирования определяет его точность. В предыдущем изложении мы умышленно избегали употребления термина «глубина», который довольно распространен в литературе по информатике В том значении, в котором термин «индексирование набольшую глубину» употребляется в литературе, он означает просто использование большего числа терминов, чем при индексировании «на небольшую глубину». Однако при этом редко указывается, используются ли эти дополнительные термины для отражения новых, предметов (тем) документа (повышение полноты) или для более точного индексирования ограниченного числа предметов (тем) (повышение степени специфичности). Другими словами, термин «глубина индексирования» используется одними авторами для описания точности определения классов, а другими для описания степени подробности, с

которой все предметы, обсуждаемые в документе, могут быть отражены при индексировании этого документа. Чтобы разграничить эти две совершенно различные характеристики, в Крэнфилдском проекте были введены и определены термины «специфичность» и «полнота» индексирования.

Стратегия поиска

Полнота индексирования и специфичность языка индексирования определяют полноту и точность поиска по указателю. Однако при поиске можно изменять полноту и точность для каждого отдельного поиска, применяя различные стратегии поиска. Представим себе указатель, основанный на полностью неконтролируемом словаре, в котором необходимо просматривать только один-единственный класс документов для любого поиска. В этой трудной ситуации для каждой группы проводимых поисков работают только на одной точке гипотетической кривой характеристик (т.е. для каждого поиска достигаются определенные значения полноты и точности, но при этом нет возможности расширить или сузить просматриваемый класс документов с целью улучшения полноты и точности).

Если мы имеем возможность изменять поисковые предписания (чтобы получить большее или меньшее число документов в зависимости от конкретной ситуации) путем движения вверх или вниз по иерархической цепочке, путем замены синонимов или другими способами, мы можем осуществлять поиск с различной степенью общности. Для каждого поиска или группы поисков можно менять по выбору положение на гипотетической кривой характеристик поиска. Так, мы можем счесть целесообразным пожертвовать точностью ради достижения высокой полноты, пожертвовать полнотой для получения высокой точности поиска или пойти на компромисс и работать с характеристиками, имеющими промежуточные значения.

Термины «полнота» (exhaustivity) и «специфичность» (specificity) применимы к поиску так же, как и к индексированию. Это легче всего показать на примере. Предположим, что в поисковую систему обращаются для нахождения документов, относящихся к дуговой сварке хромоникелевых сталей в защитной среде при производстве теплообменников типа трубка в трубке. Анализ запроса показывает, что он содержит три совершенно различных фасета, или аспекта (фиг. 2): фасет «Производство», фасет «Материалы» и фасет «Готовая продукция».

Если поисковое предписание отражает все три фасета, можно сказать, что оно является полностью исчерпывающим выражением, запроса. Если же в поисковом предписании, кроме того, каждый фасет представлен на требуемом потребителем уровне точности, можно утверждать, что поисковое предписание является не только полностью исчерпывающим, но и полностью специфичным, т. е. детализированным. В отношении упоминавшегося выше запроса полностью специфичное и исчерпывающее поисковое предписание должно точно устанавливать, что искомый, документ принадлежит к классам, обозначенным рубриками «Дуговая сварка в защитной среде», «Хромоникелевые стали» и «Теплообменники типа трубка в трубке».

Предположим, что в указателе производится поиск по этому детальному и исчерпывающему поисковому предписанию. Документы, которые будут найдены (если таковые окажутся), должны быть высокорелевантными по отношению к первоначальному запросу. Фактически при поиске по запросу, в максимальной степени исчерпывающему и специфичному, можно достичь 100%-ной точности (т.е. все найденные источники будут релевантны).

С другой стороны, полнота выдачи при таком поиске будет довольно низкой: вероятно, в системе окажется много документов, релевантных запросу, поисковые образы которых в терминах языка индексирования не совпадают с поисковым предписанием на требуемом уровне специфичности и полноты.

Для увеличения полноты можно уменьшить специфичность поискового предписания или его полноту или и то и другое. Например, можно уменьшить степень специфичности в фасете «Производство», оговорив, что приемлем любой документ, отнесенный к классам «Дуговая сварка», «Хромоникелевые стали» и «Теплообменники типа трубка в трубке». Фактически можно уменьшить специфичность этого фасета в нужной степени, поднимаясь все выше и выше по иерархическому дереву понятий: «Дуговая сварка в защитной среде» — «Дуговая сварка» — «Сварка» — «Соединение» — «Производство». Аналогично можно изменять степень специфичности в остальных фасетах, двигаясь по цепочке «Хромоникелевые стали» — «Стали» — «Черные металлы» — «Металлы» — «Материалы», или «Теплообменники типа трубка в трубке» — «Теплообменники» — «Технологическое оборудование» — «Оборудование» «Готовая продукция».

Другая стратегия состоит в том, чтобы вместо уменьшения степени специфичности уменьшить полноту (исчерпывающий характер) предписания. Это означает, что опускаются один или несколько аспектов, первоначально присутствовавших в предписании. Так, требование, чтобы найденные документы принадлежали к классам «Дуговая сварка в защитной среде», «Хромоникелевые стали» и «Теплообменники типа трубка в трубке», можно ослабить, запрашивая только те документы, которые принадлежат к классам «Дуговая сварка в защитной среде» и «Теплообменники типа трубка в трубке». В этих случаях полнота предписания уменьшается за счет совершенного исключения одного из аспектов при сохранении полной степени специфичности оставшихся аспектов.

Очевидно, можно одновременно уменьшить как полноту, так и специфичность (например, требуя только совместного присутствия терминов «Дуговая сварка» и «Теплообменники»). В конце концов, при дальнейшем снижении специфичности во всех фасетах можно прийти к положению, при котором уменьшение степени специфичности сольется с уменьшением полноты. В примере, изображенном на фиг. 2, можно снижать степень специфичности до тех пор, пока поиск не будет осуществляться по самому широкому классу контролируемого словаря, в данном случае по классу «Техника». Другими словами, обобщение возможно до тех пор, пока в выдаче не будет получен весь массив документов.

Уменьшая полноту или степень специфичности поискового предписания, мы тем самым расширяем поиск (т.е. ослабляем требования и получаем больший класс документов). До тех пор пока расширение поиска осуществляется в разумных пределах, будут выдаваться дополнительные релевантные документы (т.е. полнота поиска будет увеличиваться). В то же время будет выдаваться большое количество нерелевантных документов (т.е. точность будет уменьшаться). В отношении ранее рассмотренного запроса уже было сказано, что предписание: «Дуговая сварка в защитной среде» и «Хромоникелевые стали» и «Теплообменники типа трубка в трубке», если по нему вообще выдается хоть один документ, обеспечивает 100%-ную точность поиска. При ослаблении требований до такой степени, что им уже удовлетворяет любой документ, заиндексированный каким-то термином «соединения» (т.е. любой документ, относящийся к самому общему классу «Соединение»), существует большая вероятность получения полноты поиска, приближающейся к 100%. Однако значение точности будет, вероятно, очень низкое, так как большая часть документов, полученных в ответ на столь широкий запрос, не будет релевантной по отношению к конкретной теме, интересующей потребителя.

Итак, имеется две крайности. Возможность изменять степень специфичности и (или) полноты при поиске позволяет влиять на объем выдачи с целью получения желательных значений: полноты и точности поиска. Так, для определенного поиска можно подготовить три отдельных поисковых предписания различной степени специфичности. Наиболее широкий поиск позволяет получить значения 95% полноты и 2% точности, наиболее точный поиск — 10% полноты и 85% точности, а «находящийся на полпути» поиск — значения полноты и точности около 50%.

Однако, хотя изменение стратегии поиска позволяет влиять на объем выдачи и тем самым на полноту и точность поиска, пределы этого" влияния ограничены и зависят от полноты индексирования и степени специфичности языка индексирования. В указателе к массиву металлургических документов нельзя получить очень высокое значение точности при поиске по запросу «Дуговая сварка хромоникелевых сталей в защитной среде при производстве теплообменников типа трубка в трубке», если наиболее специфичными терминами языка индексирования будут: «Соединение» в аспекте «Производство», «Стали» в аспекте «Материалы» и «Технологическое оборудование» в аспекте «Готовая продукция». Точно так же, если многотематический доклад содержит ценную информацию по сварке теплообменников типа трубка в трубке, но этот аспект не отражен при индексировании документа, соответствующий документ не сможет быть найден в ответ на рассмотренный выше запрос даже при расширении поиска за счет включения всех членов класса «Соединение».

Таким образом, полнота поиска по указателю зависит от полноты индексирования, а его точность — от степени специфичности языка индексирования. При использовании исчерпывающего индексирования и чрезвычайно специфичного языка индексирования можно получить различные значения характеристик поиска (от высокой полноты при низкой точности до высокой точности при низкой полноте) за счет изменения стратегии поиска.

Кривая коэффициентов полноты и точности

Если имеется возможность изменять стратегию поиска в целях увеличения его полноты или точности, мы можем взять любую группу запросов и составить для каждого запроса поисковое предписание, состоящее из нескольких субпредпuсанuй с различными уровнями специфичности. Если теперь провести поиск для этой группы запросов и определить, значения полноты и точности для каждого поиска, становится возможным определить также наборы значений полноты и точности для всех частных поисков при различном уровне специфичности терминов запроса. По 100 поискам можно, например, определить, что в группе наиболее широких подпоисков получен коэффициент полноты 90% при коэффициенте точности 5%, тогда как в группе наиболее специфичных и исчерпывающих подпоисков — коэффициент полноты около 40% при коэффициенте точности примерно 60%.

Будет также получено несколько промежуточных значений полноты и точности при поисках со средним уровнем специфичности. Следовательно, для этой группы поисков, проведенных для конкретной группы запросов, можно представить результаты в форме кривой зависимости коэффициента полноты от коэффициента точности, как показано на фиг. 3.

Для любого конкретного фонда документов, по отношению к определенной группе тематических запросов и группе суждений о релевантности, сделанных о каждом документе по отношению к каждому запросу, имеется кривая максимально возможных значений характеристик системы. Известно, что всегда можно добиться 100% - ной полноты для всей группы запросов, получая полное множество релевантных документов в ответ на каждый запрос. Очевидно, что это значение полноты может быть достигнуто только при очень низком значении точности, так как подавляющее большинство выданных документов будет нерелевантно для каждого запроса. Например, если объем выдачи составляет 10 000 источников и на каждый запрос имеется в среднем 20 релевантных документов, то 100%-ная полнота, получающаяся при выдаче всех релевантных документов в ответ на каждый запрос, достигается при значении точности 0,2% или 20/10 000 (точка А на фиг. 4).

С другой стороны, для каждого запроса можно так точно сформулировать стратегию поиска (т.е. составить исчерпывающее предписание с высоким уровнем специфичности), что в ответ на него почти наверняка будут выдаваться только релевантные документы, если документы вообще будут выдаваться. Если в определенной группе запросов использовать только такие поисковые предписания высокой точности, можно ожидать, что система будет функционировать с точностью 100%, но с очень низкой полнотой.

В реальных условиях, когда фонд документов был как-то заиндексирован (чтобы избежать необходимости выдачи всего множества документов в ответ на каждый запрос) и проводится поиск для некоторой группы запросов путем сопоставления поисковых предписаний с поисковыми образами документов, не будет иметь места ни одно из приведенных выше экстремальных значений. Вместо этого для всей группы запросов система будет функционировать на какой-то точке кривой характеристик поиска, соответствующей значениям полноты и точности, меньшим чем 100%.

Если образовать согласованную систему документов, запросов и суждений о степени релевантности документов запросам так, что мы будем знать, какие документы релевантны каким запросам, можно повторно заиндексировать весь массив документов по отношению к данной группе запросов. После большого числа проб и ошибок мы сможем отыскать оптимальную систему индексирования и оптимальный набор поисковых образов для данного массива документов по отношению к данному множеству запросов. В результате в поисковые образы документов и запросов будут внесены такие индексационные термины, которые позволят добиться функционирования системы с максимально высокими характеристиками.

Другими словами, имеется возможность создать такие описания документов, которые обеспечивают 95,90,85% или любой другой желаемый уровень полноты при максимально возможном уровне точности. Таким образом, на основе полного набора суждений о релевантности документов по отношению к запросам можно создать замкнутую систему, способную работать на кривой максимально возможных характеристик.

ПоказатьСвернуть
Заполнить форму текущей работой