Главная задача информационно-поисковой системы - поиск информации,
релевантной информационным потребностям пользователя. Под релевантностью
понимают соответствие между желаемой и получаемой информацией.
Релевантность можно представить также как меру близости между реально
полученными документами и тем, что следовало бы получить из системы.
Возникают две взаимосвязанные задачи: представление информации в системе и её
поиск в соответствии с информационными потребностями пользователя.
Рассмотрим как решаются эти задачи в современных ИПС.
Подавляющие большинство поисковых алгоритмов основано на так
называемой "Векторной модели текста", предложенной Дж. Солтоном (Salton G.) в
1975 году [18]. Работа Солтона представляет собой теоретическую основу
современных ИПС в их классической реализации.
Разные авторы называют эту модель индексирования и поиска по-разному:
векторной, линейной, или алгебраической. Будет справедливо, если представление
документов и поиск информации в массиве разделим на две модели. Следуя этой
логике, векторной будем называть модель описания информационного массива, а
линейной - модель поиска информации в массиве. Такое разделение обусловлено
тем, что документы записываются в виде двоичных векторов, в то время как
поисковые запросы - это линейные преобразования над этими векторами.
В векторной модели информационного потока можно выделить несколько
основных понятий: словарь, документ, поток и процедуры поиска и коррекции
запросов.
Под словарем понимают упорядоченное множество терминов, мощность
которого обозначают как D.
Документ - это двоичный вектор размерности D. Если термин входит в
документ, то в соответствующем разряде этого двоичного вектора проставляется 1,
в противном же случае - 0. Обычно все операции в линейной модели
индексирования и поиска документов выполняются над поисковыми образами
документов, но при этом их, как правило, называют просто документами.
Информационный поток или массив L представляют в виде матрицы
размерности NxD, где в качестве строк выступают поисковые образы N
документов.
При таком рассмотрении можно сформулировать процедуру обращения к
информационной системе следующим образом:
Это традиционное определение процедуры поиска документов в ИПС,
которое используется Солтоном с 1977 года. Оно было введено для решения
проблемы автоматического индексирования документов, но оказалось чрезвычайно
полезным и для описания процедуры поиска.
Существуют и другие определения процедуры обращения пользователя к
системе, но для описания работы распределенных ИПС Интернета больше
подходит определение Солтона – в подавляющем большинстве этих систем
применяются информационно-поисковые языки типа "Like This". Данный подход
хорошо известен как вычисление мер близости "документ-запрос".
Начало применению запросов типа "Like This" положила система WAIS.
Именно в ней был впервые сформулирован отказ от использования традиционных
информационно-поисковых языков булевого типа, и было заявлено о переносе
центра тяжести информационного поиска на языки, основанные на вычислении
меры близости "документ-запрос". Основная причина такого подхода - желание
снять с пользователей заботу по формулированию запросов на информационно-
поисковых языках и дать им возможность использовать обычный естественный
язык. Ради справедливости следует отметить, что от запросов на естественном
языке практически сразу отказались. Система просто проводила нормализацию
лексики и удаляла из списка терминов запроса общие и стоп-слова. Тем самым
практически один в один выполнялись условия линейной модели индексирования и
поиска. После этой процедуры система вычисляла меру близости по выражению и
в соответствии с полученными значениями ранжировала информационный массив.
Практически все ИПС Интернета устроены по этому принципу.
Можно привести много мер близости, однако в современных
распределенных ИПС Интернет реально используются лишь несколько.
Наиболее популярными из них являются:
- расширенный двоичный алгоритм поиска;
- алгоритм наибольшего цитирования;
- TFxIDF алгоритм (предложен и уточнён Солтоном в 1979 году);
- расширенный векторный алгоритм поиска.
Следует отметить, что наиболее эффективным из этих алгоритмов является
TFxIDF, который и используется в большинстве ИПС (RBSE, WAIS, WebCrawler,
Lycos, OpenText, Lycos и Altavista).
Одним из компонентов меры близости TFxIDF является частота
встречаемости терминов в массиве документов.
Обычно плотность функции распределения частоты встречаемости
терминов описывают гиперболическим распределением, известным как закон
Зипфа (см. п. 2.2).
Но дело собственно не в самой формуле, задающей плотность
распределения частоты встречаемости терминов, а в форме этого распределения.
Если плотность подчиняется гиперболическому закону, то, по большому счету нет
каких либо четких границ выделения терминов из словаря. Другое дело, если
плотность задается распределением с ярко выраженным максимумом, тогда
термины должны выбираться из окрестности этого максимума.
Суть алгоритма Солтона в том, что для индексирования используют те
термины, которые имеют высокую частоту встречаемости внутри документа и
низкую во всем информационном массиве. Сама характеристика вычисляется как
отношение частоты встречаемости термина в документе к частоте встречаемости
термина в массиве. Используя эту меру системы индексирования, документу
приписывают первые 20-40 символов, которые и составляют его поисковый образ.
Выбор этой меры объясняется простыми прагматическими соображениями,
которые становятся очевидными при сравнении выражения с другими способами
взвешивания терминов.
С точки зрения экспериментальных результатов можно сделать два вывода:
- для того чтобы использовать взвешивание, следует иметь насыщенный
словарь,
- термины индексирования находятся в окрестностях максимума
частотного распределения терминов.
Насыщение словаря - очень важное свойство систем со свободным
словарем. Дело в том, что говорить вообще о векторной модели информационного
потока и ее применимости для информационных систем можно только в том
случае, когда мощность словаря (число представленных в нем терминов)
фиксирована. Пока речь шла о локальных информационных системах, то вопрос о
размере словаря не стоял. За время эксплуатации системы (с момента загрузки
документов и до момента актуализации) информационный массив и словарь
системы не менялись, и, следовательно, были фиксированными. В Интернете дело
обстоит совсем иначе. Во-первых, нет единого информационного массива, который
можно было бы одним махом загрузить, построив долгоживущий индекс. Поэтому
система постоянно осуществляет сканирование сети и коррекцию своего
поискового аппарата - словарь, который определяется индексом, постоянно
изменяется. Во-вторых, из-за отсутствия единой информационной службы нельзя
организовать систему с контролируемым словарем. Таким образом в ИПС
Интернет происходят два процесса: постоянный рост информационного массива, с
одной стороны, и постоянное увеличение словаря системы, с другой.
Но и Lycos, и OpenText, и Altavista, и другие системы Интернета применяют
линейную модель индексирования и поиска, используя различительную силу
термина в алгоритмах автоматического индексирования и поиска. Следовательно,
применяемые алгоритмы ограничивают словарь, допуская его незначительный
рост.
Именно это и осуществляют все реально функционирующие системы,
ограничивая размер поискового образа документа 20-40 наиболее "тяжелыми"
терминами из содержания. При этом в словарь попадают только термины
поисковых образов. Следует также отметить, что источником терминов
индексирования, в большинстве случаев выступает не весь документ, а только
отдельные его части: заголовок, гипертекстовые ссылки, подзаголовки,
специальные поля. Таким образом, удается контролировать размер словаря и
оставаться в рамках линейной модели индексирования и поиска.
В итоге выполняется второе предположение из приведенного списка.
Следовательно, использование различительной силы терминов в качестве веса
терминов позволяет выбирать термины из окрестности максимума частотного
распределения. [22, 23]
|