НазадСодержаниеВперёд

Введение

Целью данной работы является разработка предложений по улучшению качества функционирования информационно-поисковых систем глобальных информационных сетей.

История развития информационного поиска насчитывает уже много десятков лет, но появление и бурный рост Веб, безусловно, стимулировало развитие этой области. За это время из узкоспециализированной тематики информационный поиск превратился в одну из ключевых областей информатики. Сегодня более 75% пользователей Интернет используют информационно-поисковые системы (ИПС) для доступа к информации в Веб.

Бурный рост объема информации в Интернет делает поиск незаменимым методом доступа к этой информации. Можно выделить две основные формы поиска в Интернет:

  • Использование поисковых систем, которые собирают сведения о (части) доступных в Интернет ресурсах и организуют поиск по этой информации, как по полнотекстовой базе данных. Примерами таких систем являются -Rambler (www. Rambler.ru), Яndex (www. Yandex.ru), и т. д.
  • Использование Интернет-каталогов, в которых информация об избранных ресурсах Интернет классифицирована по тематическим признакам. Такие каталоги существуют не только в электронном виде ( List.Ru или Yahoo!), но также издаются и ввиде печатных изданий - таких как, например, ``Желтые страницы Интернет''.

Многие современные поисковые системы основаны на хорошо известных методах и алгоритмах, разработанных еще до появления Интернет. Общая задача информационного поиска в Интернет не изменилась – помочь пользователю найти ту информацию, в которой он заинтересован. К сожалению, описать информационные потребности пользователя совсем не так просто. Обычно это описание формулируется как некоторый запрос, представляющий из себя некоторый набор ключевых слов, характеризующий потребности пользователя.

Природа Интернет обуславливает ряд важных факторов, которые необходимо учитывать при рассмотрении задач поиска:

  • Огромный объем доступной информации
    В Интернет опубликовано более миллиарда страниц и их число увеличивается экспоненциально.
  • Высокий процент временной информации
    В связи с высокой динамикой развития Интернет, информационные ресурсы очень часто появляются, пропадают, меняют свои местоположение или содержание.
  • Неконтролируемое качество информации
    Отсутствие контроля влечет появление некорректной (например, уже устаревшей), ложной или неполной информации. Зачастую, информация страдает от ошибок по множеству причин (опечатки, грамматические ошибки, ошибки оцифровки и т. д.)
  • Разнородность информации
    Кроме различных форматов представления информации, к этой группе особенностей относится также и то, что для представления информации используется множество различных языков и даже алфавитов.

Однако, классическая задача информационного поиска, с которой и началось развитие в этой области, - это поиск документов, удовлетворяющих запросу, (т. е. релевантных) в рамках некоторой статической (на момент выполнения поиска) коллекции документов – не изменилась. Например, эта задача решается в рамках большинства современных справочных систем, таких как справочная система по операционной системе Windows.

Однако, природа Интернет влечет изменение постановки задачи поиска и обуславливает не только появление новых инженерных проблем, связанных с вычислительной эффективностью реализации, но и необходимость разработки новых методов поиска с целью повышения качества результата.

В течение последних лет исследованию этих вопросов уделялось много внимания, и в этой работе предпринята попытка описания современного состояние дел в этой области. Полноценное введение в задачи информационного поиска невозможно уместить в рамки одной работы. И, конечно же, эта работа не претендует на полноту ни по охвату, ни по детальности – в ней затронуты наиболее важные части, которые специфичны для задач поиска в Веб.

НазадСодержаниеВперёд
Используются технологии uCoz