Наверх   Информация   Содержание   Плакаты  

1. Введение

1.1. Постановка задачи

Дана распределённая информационная среда, содержащая множество документов.

Требуется исследовать существующие поисковые системы и принципы функционирования нейронных сетей. И, основываясь на проведённых исследованиях, спроектировать и реализовать систему, осуществляющую поиск необходимых документов по набору признаков и аналогии.

В качестве распределённой информационной среды рассмотреть Интернет, а признаков поиска документов – ключевые слова.

1.2. Обоснование необходимости разработки

Постоянно растущие объёмы информации создают необходимость в поисковых средствах. В полной мере это относится и к Интернету, если рассматривать его как неструктурированное хранилище информации огромного размера.

Существующие в Интернете информационно-поисковые системы (ИПС, или просто ПС) позволяют частично решить задачу поиска нужной пользователю информации. Однако они не гарантируют полноту охвата ресурсов, достоверность информации и высокую скорость проведения поиска. Кроме того, применение одной ИПС чаще всего не даёт приемлемых результатов. Необходимым условием успешного планирования и проведения поисковых работ является знание всех основных существующих на сегодняшний день типов ресурсов Сети, понимание технической и тематической специфики их информационного наполнения и особенностей доступа. [19]

Таким образом, несмотря на простоту интерфейса современных ПС и сложность их внутренней реализации, поиск в Интернете пока ещё продолжает быть искусством, доступным только профессионалам. Показательно, что в Интернете существует довольно много служб, продающих структурированные данные (например, аналитические обзоры). Эти же данные в разбросанном виде, по частям, практически на 100% доступны в Интернет кому угодно и совершенно бесплатно.

В последние годы наметилась устойчивая тенденция использования научных разработок в областях лингвистики, искусственного интеллекта и нейрокомпьютинга для реализации поисковых систем. Такая ситуация должна в скором времени привести к созданию поисковых систем нового поколения на новой аппаратной платформе.

Резюмируя сказанное, отметим факты, подтверждающие актуальность настоящей работы:

  • в связи с растущим объёмом информации требуются поисковые средства;
  • современные поисковые средства выполняют лишь первичную фильтрацию информации;
  • выполнять качественный поиск, используя существующие поисковые системы, способны только профессионалы;
  • быстрыми темпами развивается нейрокомпьютинг – наука, использующая построенную «по принципу и подобию» биологических нервных систем архитектуру обработки информации.

1.3. Техническое задание

Целью настоящей работы является исследование, проектирование и кодирование системы поиска в Интернете, использующей нейросетевые технологии.

В рамках работы должны быть выявлены и частично решены связанные с главной задачей вопросы.

Провести исследование существующих систем поиска в Интернете.

Изучить вопросы анализа русского языка, необходимые для организации поисковой системы.

Разработать структуру поисковой системы.

С помощью нейронной сети реализовать следующие функции поисковой системы:

  • поиск документов по ключевым словам,
  • поиск похожих документов (like this),
  • автоматическую классификацию документов по заданным рубрикам.

Организовать хранение всей необходимой информации в базе данных Microsoft SQL Server.

Доступ пользователей к системе должен осуществляться с помощью WWW- браузера, например, Microsoft Internet Explorer или Netscape Navigator.

1.4. Содержание работы

В данной работе проведены исследования современных поисковых систем в Интернете и основных вопросов их построения (см. п. 2.1), статистических закономерностей естественно-языковых текстов (см. п. 2.2), моделей индексирования и поиска документов (см. п. 2.3), а также нейронных сетей (см. п. 2.4).

В п. 2.5 сформулирована оригинальная концепция, позволяющая использовать преимущества нейронной сети для реализации поисковой системы.

В аналитической части произведён выбор технологий разработки программного комплекса.

Согласно сформулированной в п. 2.5 концепции реализована поисковая система. Общая схема системы приведена в п. 4.1, а более детальная схема взаимодействия модулей системы в п. 4.2. Выполнено проектирование структуры базы данных, графическое представление даталогической модели которой приведена в п. 4.4.3. Приведены подробные описания основных модулей и схемы основных алгоритмов.

Технологическая часть содержит требования к оборудованию и программному обеспечению сервера и клиентов системы, а также инструкцию по установке и руководство пользователя.

В экспериментальной части приведён тестовый пример, подтверждающий правильную работу системы.

  Наверх   Информация   Содержание   Плакаты  
Для писем: kes@narod.ru
 
Используются технологии uCoz