Дана распределённая информационная среда, содержащая множество
документов.
Требуется исследовать существующие поисковые системы и принципы
функционирования нейронных сетей. И, основываясь на проведённых
исследованиях, спроектировать и реализовать систему, осуществляющую поиск
необходимых документов по набору признаков и аналогии.
В качестве распределённой информационной среды рассмотреть Интернет, а
признаков поиска документов – ключевые слова.
Постоянно растущие объёмы информации создают необходимость в
поисковых средствах. В полной мере это относится и к Интернету, если
рассматривать его как неструктурированное хранилище информации огромного
размера.
Существующие в Интернете информационно-поисковые системы (ИПС, или
просто ПС) позволяют частично решить задачу поиска нужной пользователю
информации. Однако они не гарантируют полноту охвата ресурсов, достоверность
информации и высокую скорость проведения поиска. Кроме того, применение
одной ИПС чаще всего не даёт приемлемых результатов. Необходимым условием
успешного планирования и проведения поисковых работ является знание всех
основных существующих на сегодняшний день типов ресурсов Сети, понимание
технической и тематической специфики их информационного наполнения и
особенностей доступа. [19]
Таким образом, несмотря на простоту интерфейса современных ПС и
сложность их внутренней реализации, поиск в Интернете пока ещё продолжает
быть искусством, доступным только профессионалам. Показательно, что в
Интернете существует довольно много служб, продающих структурированные
данные (например, аналитические обзоры). Эти же данные в разбросанном виде, по
частям, практически на 100% доступны в Интернет кому угодно и совершенно
бесплатно.
В последние годы наметилась устойчивая тенденция использования
научных разработок в областях лингвистики, искусственного интеллекта и
нейрокомпьютинга для реализации поисковых систем. Такая ситуация должна в
скором времени привести к созданию поисковых систем нового поколения на
новой аппаратной платформе.
Резюмируя сказанное, отметим факты, подтверждающие актуальность
настоящей работы:
- в связи с растущим объёмом информации требуются поисковые средства;
- современные поисковые средства выполняют лишь первичную фильтрацию
информации;
- выполнять качественный поиск, используя существующие поисковые
системы, способны только профессионалы;
- быстрыми темпами развивается нейрокомпьютинг – наука, использующая
построенную «по принципу и подобию» биологических нервных систем
архитектуру обработки информации.
Целью настоящей работы является исследование, проектирование и
кодирование системы поиска в Интернете, использующей нейросетевые
технологии.
В рамках работы должны быть выявлены и частично решены связанные с
главной задачей вопросы.
Провести исследование существующих систем поиска в Интернете.
Изучить вопросы анализа русского языка, необходимые для организации
поисковой системы.
Разработать структуру поисковой системы.
С помощью нейронной сети реализовать следующие функции поисковой
системы:
- поиск документов по ключевым словам,
- поиск похожих документов (like this),
- автоматическую классификацию документов по заданным рубрикам.
Организовать хранение всей необходимой информации в базе данных
Microsoft SQL Server.
Доступ пользователей к системе должен осуществляться с помощью WWW-
браузера, например, Microsoft Internet Explorer или Netscape Navigator.
В данной работе проведены исследования современных поисковых систем в
Интернете и основных вопросов их построения (см. п. 2.1), статистических
закономерностей естественно-языковых текстов (см. п. 2.2), моделей
индексирования и поиска документов (см. п. 2.3), а также нейронных сетей (см. п. 2.4).
В п. 2.5 сформулирована оригинальная концепция, позволяющая использовать преимущества нейронной сети для реализации поисковой системы.
В аналитической части произведён выбор технологий разработки программного комплекса.
Согласно сформулированной в п. 2.5 концепции реализована поисковая система. Общая схема системы приведена в п. 4.1, а более детальная схема взаимодействия модулей системы в п. 4.2. Выполнено проектирование структуры
базы данных, графическое представление даталогической модели которой
приведена в п. 4.4.3. Приведены подробные описания основных модулей и схемы
основных алгоритмов.
Технологическая часть содержит требования к оборудованию и
программному обеспечению сервера и клиентов системы, а также инструкцию по
установке и руководство пользователя.
В экспериментальной части приведён тестовый пример, подтверждающий правильную работу системы.
|