InterSearch

УДК 002.53:004.451.52

Русскоязычные поисковые системы в Интернет

Статья дает общее представление о методах и средствах поиска информации в Интернет. Анализируются основные подходы к поиску информации: использование специальных каталогов и поисковых машин, основанных на индексе. Исследованы принципы действия поисковых машин. Рассматриваются ведущие российские поисковые системы.

Мы живем в век информации, который характеризуется лавинообразным ростом объёма научных знаний. Сегодня именно информация "решает всё".

Относительно недавно к традиционным источникам информации добавился ещё один, более современный, - Интернет. В течение последних лет слово Интернет прочно вошло в наш лексикон, а сам Интернет для многих стал надёжным и оперативным средством получения информации. Интернет на сегодняшний день является наиболее быстро развивающейся технологией. По некоторым прогнозам способ обмена информацией через Интернет в ближайшем будущем станет основным.

Как надстройка над Интернет появилась "Всемирная паутина" World Wide Web (WWW или Web). Web представляет собой миллионы связанных документов, которые расположены на компьютерах по всему миру. Иначе говоря, Web - это неструктурированное хранилище информации огромного объёма. Причём информация в Web динамична, так как постоянно добавляются новые документы, а устаревшие редактируются или удаляются. Найти в Web нужную информацию без соответствующих поисковых средств является по истине трудноразрешимой задачей. В настоящее время Вы можете воспользоваться услугами множества систем поиска в Web, доступных по Интернет. Их анализу посвящена данная работа.

Существуют два основных подхода к поиску информации в Web. Первый заключается в использовании специальных каталогов, а второй - поисковых машин (search engine), основанных на индексе. Наиболее продуктивной схемой поиска является комплексное использование этих двух базовых подходов. Проанализируем, какие поисковые средства для каких целей являются наиболее подходящими.

Web-каталоги

В основе составления каталогов лежит принцип классификации, то есть распределения документов (или целых сайтов) по иерархии тематических рубрик. Внутри рубрик документы упорядочены по рейтингам популярности. Классификацию в большинстве случаев производят вручную, так как этот процесс трудно осуществить автоматически. Но уже существуют системы автоматической классификации документов, примером которых является разработка компании МедиаЛингва (http://www.medialingua.ru). Каталоги могут содержать рефераты документов и краткие описания сайтов. Количество классифицированных документов ничтожно мало по сравнению с их общим количеством в Web, поэтому каталоги не могут дать исчерпывающих сведений по определённой тематике. Системы, основанные на каталогах, лучше подходят в тех случаях, когда надо осуществить быстрый поиск каких-либо общих укрупненных тем или, если вы занимаетесь "вольным скольжением" по Сети. Небольшие размеры и созданная людьми система упорядочения материала делают их особенно пригодными для быстрого нахождения качественной информации. В данном случае делается ставка именно на качество информации, а не на её количество. [1]

Каталоги русскоязычного Web поддерживаются на следующих сайтах:

@Rus (http://www.atrus.ru),
Созвездие Интернет (http://www.stars.ru),
Рамблер (http://rambler.ru),
List.ru (http://www.list.ru).

Поисковые машины

С точки зрения "неискушённого" пользователя поисковая машина - это средство поиска документов по ключевым словам. Сценарий поиска прост: пользователь с помощью языка запросов выражает то, что он хочет найти, и буквально через несколько секунд получает список ссылок на документы, удовлетворяющие его запросу. Рассмотрим принцип действия поисковых машин, это даст нам надёжную основу для их оценки и сравнения.

Поисковая машина состоит из двух частей, как правило, работающих параллельно. Первая часть ответственна за индексирование Web-документов, а вторая осуществляет поиск документов по индексу в соответствии с запросами пользователей.

Индексирование документов происходит следующим образом:

получение документа с помощью специальной программы-агента "паук" (spider agent), осуществляющей переход от одного документа к другому с использованием перекрёстных ссылок в документах;
обработка документа с целью получения индексной информации;
сохранение полученной информации в базе данных, называемой индексом.

Для хранения индекса часто используются системы управления базами данных (СУБД). В таких случаях поиск по индексу осуществляется с использованием встроенных средств СУБД.

Большие объёмы баз данных делают поисковые машины особенно полезными для исчерпывающих поисков, сложных запросов или для локализации неясной информации. Это достоинство, однако, становится западнёй, когда производится быстрый поиск. Большинство таких систем облегчает восприятие чрезмерного количества информации, упорядочивая результаты поиска так, чтобы ссылки с наиболее высоким уровнем соответствия запросу располагались выше. Однако запаситесь терпением, "отсеивая" ссылки, не относящиеся к делу или недостаточно близкие по теме. [1]

К ведущим российским поисковым системам, в основе которых лежат поисковые машины, использующие индексы, относятся:

Рамблер (http://www.rambler.ru),
Апорт (http://www.aport.ru),
Яndex (http://yandex.ru).

Прежде чем перейти к их анализу, определим основные понятия, часто употребляемые в сфере поиска документов. [2, 3]

Язык запросов - специализированный язык, с помощью которого пользователь поисковой системы формулирует свои требования к документам, которые он хотел бы найти.

Полнотекстовый поиск - возможность поиска по всем текстам документов.

Учёт морфологии - возможность поиска документов, в которых ключевое слово встречается в произвольной форме.

Релевантность (от английского relevant - "относящийся к делу") - уровень соответствия найденного документа запросу.

Рамблер (http://www.rambler.ru)

Рамблер - поисковая система по серверам России и стран СНГ. Разрабатывается и поддерживается компанией Стек (http://www.stack.net) при содействии партнёров. База данных содержит индексы миллионов документов с более чем 15,000 сайтов.

Возможности языка запросов:

поиск комбинаций слов с использованием логических связок AND, NOT, OR;
поиск документов, содержащих различные формы поискового слова (например "аминокислота", "аминокислоты" и т.д.);
поиск по шаблону, в котором используются метасимволы "*" и "?" для обозначения произвольной части слова и произвольного символа соответственно;
увеличение/уменьшение весового значения ключевого слова;
поиск в определённой части документа (во всём документе, в заголовке, в названии, в URL и т.п.);
группировка ключевых слов с использованием круглых скобок;
изменение сортировки результатов (сначала новые документы, сначала старые документы);
минимизация расстояния между ключевыми словами.

По каждому найденному документу в результат поиска включаются:

название документа,
размер файла,
URL,
дата последнего обновления,
степень соответствия запросу,
кодировка.

Есть возможность настройки формы вывода результатов поиска. [4]

Апорт-2000 (http://www.aport.ru)

Поисковая система Апорт-2000 - это проект фирмы Агама.

Основные свойства поисковой системы Апорт:

перевод запроса и результатов поиска с русского языка на английский и наоборот;
автоматическая проверка орфографических ошибок запроса;
содержательный вывод результатов поиска для найденных сайтов;
возможность поиска в любой грамматической форме (что особенно важно для русского языка);
мощный язык расширенных запросов для профессиональных пользователей.

Дополнительные свойства:

поддержка пяти основных кодовых страниц (разных операционных систем) для русского языка;
технология поиска с использованием ограничений по URL (адресу) и дате документов;
поиск ведётся не только по тексту, но и по заголовкам, комментариям, подписям к картинкам и т.д.;
сохранение параметров поиска и определенного числа предыдущих запросов пользователя;
объединение копий документа, находящихся на разных серверах.

Форма вывода результатов поиска устроена таким образом, чтобы совместить общую информацию и детальные данные. Результаты запросов группируются по сайтам. По каждому сайту выдаётся следующая информация:

название и адрес;
описание, сделанное человеком (из каталога @Rus (http://www.atrus.ru) или регистрационной базы Апорта);
дополнительная информация о сайте в целом (вес, язык, категории);
блок описания самой подходящей (релевантной) из найденных страниц;
цитаты из полного текста страницы, где встречаются слова вашего запроса;
ссылка на полную реконструкцию текста документа (полезно, если сам сайт недоступен через Интернет);
ссылка на результаты поиска по данному сайту (все найденные страницы).

При сортировке документов (сайтов) Апорт учитывает следующие критерии:

количество искомых слов в тексте документа (в процентах);
расстояние между поисковыми словами в тексте документа;
место в тексте, где встречаются поисковые слова (заголовок, описание, мета-таг и т.п.);
внешний вид шрифта, которым набраны в тексте искомые слова (размер, жирность, цвет);
количество ссылок из Интернет на данный документ;
использование искомого слова в тексте ссылок из Интернет на данный документ.

Окончательный процент соответствия документа запросу строится как некая функция от всех этих показателей. [5]

Яndex (http://www.yandex.ru)

Яndex - это полнотекстовая информационно-поисковая система с учётом морфологии русского языка, являющаяся частью проекта фирмы Comptek (http://www.comptek.ru) по разработке набора средств полнотекстовой индексации и поиска в текстовых данных с учётом морфологии русского языка.

По состоянию на 23.09.1999 база данных системы имеет размер 82,91 Гб и содержит индексы 9 280 307 уникальных документов с 42 857 серверов.

Отличительные особенности системы:

полнотекстовый поиск с полным учетом морфологии русского и английского языков;
мощный язык запросов (в том числе возможность поиска с расстоянием);
возможность запроса на естественном языке;
корректная обработка сленговых слов;
возможность поиска похожего документа;
очень компактный индекс (около 30% исходных текстов) при достаточно высокой скорости индексации (1-2 Мб/мин);
подсветка слов из запроса в найденных документах;
развитая релевантность, позволяющая найти искомую информацию, не перегружая пользователя тысячами ссылок на не нужные документы;
высокая скорость поиска.

Морфология базируется на словаре из 90 тыс. слов, к которому добавлены алгоритмы словообразования, а также механизм построения гипотез для слов, отсутствующих в словаре. Создан и пополняется словарь имен собственных. [3]

Существуют также мета-поисковые средства, обеспечивающие поиск документов путём обращения сразу к нескольким поисковым системам. Преимущество применения таких средств заключается в широте охвата Web.

К сожалению, несмотря на простоту интерфейса поисковых систем и сложность их внутренней реализации, поиск в Интернете пока ещё продолжает быть искусством. Но устойчивая тенденция использования научных разработок в областях лингвистики и искусственного интеллекта должна в скором времени изменить такой порядок.

Список ссылок

InterSearch

Для писем: kes@narod.ru

Используются технологии uCoz