Наверх   Информация   Содержание   Плакаты  

2. Исследовательская часть

2.1. Информационный поиск в Интернет

Сегодня Интернет объединяет множество разных сетей, миллионы компьютеров, около 300 миллионов пользователей со всех континентов, число которых по разным оценкам, увеличивается на 15-80% ежегодно. Интернет на сегодняшний день является наиболее быстро развивающейся технологией. По некоторым прогнозам способ обмена информацией через Интернет в ближайшем будущем станет основным.

Можно выделить два основных направления использования Интернета в бизнесе. Это оперативный доступ к огромному массиву информации по любой тематике и интерактивное общение с партнерами, независимое от их географического положения.

Основная часть информации, представленной в Интернет, находится во «Всемирной паутине» World Wide Web (WWW или Web). Web представляет собой миллионы связанных документов, которые расположены на компьютерах по всему миру. Иначе говоря, Web - это неструктурированное хранилище информации огромного объёма. Причём информация в Web динамична, так как постоянно добавляются новые документы, а устаревшие редактируются или удаляются.

В связи с необозримым количеством информации, хранящейся в Web, обеспечение поиска в Интернете становиться критически важной задачей. Найти в Web нужную информацию без соответствующих поисковых средств является практически неразрешимой задачей.

Для того чтобы ясно представить себе суть проблемы, рассмотрим задачу поиска документов в теории.

Будем представлять Web как совокупность сайтов, каждый из которых содержит множество документов.

(2.1)

(2.2)

Авторы создают документы, а у какой-то определённой группы людей возникает информационная потребность. Эта потребность часто (как правило) даже не может быть точно выражена словами, и выражается только в оценке просматриваемых документов - подходит или не подходит. В теории информационного поиска вместо слова "подходит" используют термин пертинентный (от англ. pertinent - относящийся к делу, подходящий по сути), а вместо "не подходит" - "не пертинентный". Субъективно понимаемая цель информационного поиска - найти все пертинентные и только пертинентные документы (найти "только то, что надо, и ничего больше").

Эта цель - недостижима. Человек в большинстве случаев в состоянии оценить пертинентность документа только в сравнении с другими документами. Для того чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов. Эти документы называются шумом. Слишком большой шум затрудняет выделение пертинентных документов, слишком малый - не даёт уверенности в том, что найдено достаточное количество пертинентных документов. Практика показывает, что когда количество непертинентных документов лежит в интервале от 10% до 30%, ищущий чувствует себя комфортно, не теряясь в море шума и считая, что количество найденных документов - удовлетворительно.

Когда документов много, для поиска документов используется информационно-поисковая система (ИПС). В этом случае информационная потребность должна быть выражена в виде фразы (запроса) на специальном информационно-поисковом языке (ИПЯ). См. рис. 2.1.

Рис. 2.1

Запрос редко может точно выразить информационную потребность, если это, конечно, не запрос на естественном языке. Однако многие ИПС по разным причинам не могут определить, соответствует ли тот или иной документ запросу. Степень соответствия документа запросу называется релевантностью. Релевантный документ может оказаться непертинентным и наоборот. [15]

Существуют два основных подхода к поиску информации. Первый заключается в использовании специальных тематических каталогов, а второй - поисковых машин (search engine), основанных на индексе. Наиболее продуктивной схемой поиска является комплексное использование этих двух базовых подходов. Поэтому современные поисковые системы предоставляют пользователям возможность использования обоих подходов.

В соответствии с [15] ИПС, основанные на каталогах, будем называть классификационными ИПС, а ИПС, использующие поисковые машины, - словарными.

2.1.1. Классификационные ИПС

В основе составления тематических каталогов лежит принцип классификации, то есть распределения документов (или целых сайтов) по иерархии тематических рубрик (классификатору). Классификатор разрабатывается и совершенствуется коллективом авторов. Внутри рубрик документы упорядочены по рейтингам популярности. Классификацию в большинстве случаев также производят вручную, так как этот процесс трудно осуществить автоматически. Но уже существуют системы автоматической классификации документов, примером которых является разработка компании МедиаЛингва (http://www.medialingua.ru). Иллюстрацию работы классификационной ИПС см. на рис. 2.2.

Рис. 2.2. Иллюстрация работы классификационной ИПС

Каталоги могут содержать рефераты документов и краткие описания сайтов. Количество классифицированных документов ничтожно мало по сравнению с их общим количеством в Web, поэтому каталоги не могут дать исчерпывающих сведений по определённой тематике. Системы, основанные на каталогах, лучше подходят в тех случаях, когда надо осуществить быстрый поиск каких-либо общих укрупненных тем или пользователям, которые занимаются "вольным скольжением" по Сети. Небольшие размеры и созданная людьми система упорядочения материала делают их особенно пригодными для быстрого нахождения качественной информации. В данном случае делается ставка именно на качество информации, а не на её количество.

Классическим примером классификационной ИПС является, пожалуй, самый популярный во всем мире тематический каталог Yahoo! (http://www.yahoo.com/). Едва появившись, Yahoo! быстро завоевала признание качественной проработкой классификатора. Сейчас в Yahoo! работают более 100 систематизаторов. Он представляет собой огромную базу данных URL-адресов сайтов самой различной тематики. Yahoo! предлагает пользователям воспользоваться иерархическим деревом при поиске информации. Т.е. пользователь выбирает сначала общую тематику и далее конкретизирует, следуя подсказкам каталога. В конечном результате он получает список сайтов, содержащих информацию, соответствующую его запросу.

Если же необходимо найти заведомо русскоязычную информацию, то имеет смысл использовать российские каталоги, которые поддерживаются, например, на следующих сайтах:

Классификационные ИПС обладают рядом специфических недостатков. Разработка классификатора связана с оценкой относительной важности различных областей человеческой деятельности. Например, сравнивая классификаторы многих ИПС Интернет (таких, как Yahoo, Excite, Look Smart), замечаем, что во многих из них нет раздела "Наука". Кроме того, в создании таких ИПС участвуют также и коллективы систематизаторов, которые выносят свои субъективные оценки о соответствии документов рубрикам классификатора. Любая оценка является социальным действием; она связана с обществом, культурой, социальной группой, к которым принадлежит человек, выносящий оценку. Поэтому тематические каталоги, созданные разными коллективами в разных странах, могут иметь весьма различную степень полезности при поиске информации – всё зависит от того, кто и что ищет. Таким образом, при поиске информации с помощью ИПС, основанной на каталоге, возникает необходимость взаимодействия с другими культурами - культурами авторов, создателей классификаторов и систематизаторов.

Подытожим достоинства и недостатки ИПС классификационного типа.

Достоинства:

  • быстрый поиск сведений по определённой достаточно популярной и крупной теме;
  • содержат качественную информацию;
  • содержат сравнительно небольшое количество документов, что позволяет пользователю ориентироваться в них;

Недостатки:

  • не могут дать исчерпывающих сведений по определённой тематике;
  • осуществляя поиск необходимо взаимодействовать с культурами разработчиков классификатора и систематизаторов.

2.1.2. Словарные ИПС

Культурные проблемы, связанные с использованием классификационных ИПС, привели к созданию ИПС словарного типа.

С точки зрения «неискушённого» пользователя словарная ИПС - это средство поиска документов по ключевым словам. Сценарий поиска прост: пользователь с помощью языка запросов выражает то, что он хочет найти, и буквально через несколько секунд получает список ссылок на документы, удовлетворяющие его запросу.

Рассмотрим принцип действия словарных ИПС. Все словарные ИПС имеют общую структуру, которая приведена на рис. 2.3.

Рис. 2.3. Общая структура словарной ИПС

С точки зрения внутренней организации словарная ИПС состоит из двух частей, как правило, работающих параллельно. Первая часть (индексирующий агент (agent), паук (spider), робот (robot)) ответственна за индексирование Web- документов, а вторая (поисковая машина) осуществляет поиск документов по индексу в соответствии с запросами пользователей.

Основная идея словарной ИПС - создать словарь (индекс) из слов, встречающихся в документах Интернет, в котором каждому слову будет соответствовать список документов, его содержащих. Если поиск слов в таком словаре выполняется быстро, то можно отказаться от дорогих услуг разработчиков классификаторов и систематизаторов.

Несмотря на обилие слов (словоформ) в естественных языках, большинство из них употребляются нечасто, что было замечено учёным лингвистом Ципфом ещё в конце 40-х годов нашего века (см. п. 2.2). К тому же наиболее употребительные слова - это союзы, предлоги и артикли, т.е. слова, совершенно бесполезные при поиске информации. В результате словари даже самых крупных словарных ИПС Интернет составляют имеют объём порядка всего нескольких гигабайт.

Индексирующий агент методично просматривает документы Web, переходя от одного документа к другому с помощью гипертекстовых ссылок внутри документов. Для каждого встреченного документа производится выделение индексной информации и сохранение её в базе данных, называемой индексом.

С философской точки зрения каждый документ можно представить состоящим из двух частей: «важной» и «неважной».

{Документ} = {Важная часть} U {Неважная часть}
{Важная часть}  {Неважная часть} = O
(2.3)

В идеале в индекс должна попадать только «важная» часть документа, а «неважная» часть теряться. Однако алгоритмы индексирования, применяемые разными ИПС отличаются.

Для хранения индекса часто используются системы управления базами данных (СУБД). В таких случаях поиск по индексу осуществляется с использованием встроенных средств СУБД.

Каждая ИПС имеет свой собственный ИПЯ, на котором необходимо формулировать поисковые запросы к ней. Поэтому для того, чтобы осуществлять полнофункциональный поиск с использованием нескольких ИПС пользователю придётся изучить несколько ИПЯ. ИПЯ разных ИПС хотя и различаются, но в большинстве своём несильно и уже предпринимаются попытки создания стандарта на ИПЯ. При участии 15 крупнейших поисковых систем Интернета в феврале 1999 года стартовал проект SESP (Search Engine Standards Project), призванный стандартизировать работу поисковых служб. Материалы о нём можно найти по адресу http://www.searchenginewatch.com/standards/990204.html. Задачей стандарта является максимально сблизить синтаксис и возможности ИПЯ различных ИПС. В частности, одним из обязательных требований становится поддержка любой поисковой системой единых команд запросов, локализующих узел по его доменному имени, а документ - по URL. [19]

Подробнее про ИПЯ можно узнать в [23].

Самая популярная в мире поисковая машина AltaVista (http://www.altavista.com/) содержит 11 миллиардов слов, извлеченных из 30 миллионов Web-страниц. Несмотря на свою популярность Altavista не очень подходит для поиска в русскоязычном Интернете, т.к. индексирует в основном англоязычную его часть.

К ведущим российским словарным ИПС относятся: Яndex (http://yandex.ru), Рамблер (http://www.rambler.ru), Апорт (http://www.aport.ru).

Наиболее развитый сервис поиска русскоязычной информации предоставляет сервер Яndex (http://www.yandex.ru/). В Яndex пользователь может просто написать по-русски фразу, описывающую то, что он хочет найти. Система самостоятельно проанализирует и обработает его запрос, а затем постарается найти все, что относится к заданной теме. Ну а в том случае, если нужных документов не обнаружится, можно продолжить поиск через AltaVista, куда автоматически передается уже обработанный системой запрос. Но до передачи запроса AltavVista вряд ли дойдет, так как база Яndex содержит порядка 2 000 000 документов и постоянно обновляется. Проблема больше состоит в том, что поисковая машина в результате вашего запроса генерирует гигантский список адресов URL с короткими описаниями. Яndex позволяет конкретизировать запрос пользователя для сокращения этого списка до разумных пределов. Он может на запрос либо набрать фразу по аналогии с предыдущими системами, либо, используя, специальные операторы, составить строку, поясняющую Яndex, каким требованиям должна отвечать, интересующая его информация.

Большие объёмы баз данных делают словарные ИПС особенно полезными для исчерпывающих поисков, сложных запросов или для локализации неясной информации. Это достоинство, однако, становится западнёй, когда производится быстрый поиск. Большинство таких систем облегчает восприятие чрезмерного количества информации, упорядочивая результаты поиска так, чтобы ссылки с наиболее высоким уровнем соответствия запросу располагались выше.

Подытожим достоинства и недостатки ИПС словарного типа.

Достоинства:

  • широкий охват web-ресурсов;
  • не требуется дорогой ручной труд разработчиков классификатора и систематизаторов.

Недостатки:

  • сложность ИПЯ;
  • большое количество документов в отчёте.

2.1.3. Системы мета поиска

Для обеспечения широты охвата Web и, как следствие, более качественного поиска, пользователю часто бывает недостаточно провести поиск с помощью единственной ИПС, и поэтому ему приходится повторять тот же самый запрос для нескольких ИПС.

Для выполнения этой рутинной работы и предназначены системы метапоиска.

Метапоисковые системы знают расположение поддерживаемых ИПС, их ИПЯ, умеют выполнять преобразование поискового запроса со своего ИПЯ на их ИПЯ и интерпретировать результаты, полученные от них. Автор уверен в полезности разработки метапоисковой системы, способной после предварительной настройки работать с любой ИПС. Для этого необходимо введение стандартов на ИПС, описывающих их входные (ИПЯ) и выходные (форматы результатов поиска) параметры.

Интересно, что метапоисковые системы также могут обращаться к метапоисковым системам (см. рис. 2.4).

Рис. 2.4. Иллюстрация работы метапоисковой системы

Наиболее популярная в мире система такого класса Search.com (http://www.search.com/), но если пользователь работает преимущественно с русскоязычными документами, то можно использовать Savvy Search (http://guaraldi.cs.colostate.edu:2000/form?lang=russian). Это достаточно мощная система отсылающая запросы на 13 крупнейших поисковых машин (в том числе и российских) и возвращающая пользователю их отчеты.

Система Web Town (Www.uni-search.com/) осуществляет поиск не только через системы поиска в Web (Rambler, Яndex, Апорт, Ау, Russia on the Net, AltaVista, InfoSeek, Lycos, NetFind, HotBot, WebSitez, Yahoo) но и по следующим категориям: софт, FTP, XXX-сайты, рефераты, игры, мультимедиа, персоналии, бизнес, и др.

Следует отметить также и английскую систему MetaCrawler (www.metacrawler.com/), которая запускает девять автономных поисковых систем одновременно (Alta Vista, Yahoo! и др.). Можно сортировать информацию по территориальной близости, по близости к определённому узлу, по отношению к компании и т.д. Два режима поиска: быстрый и тщательный. Возможен поиск страниц на русском языке.

Российская система мета поиска "Следопыт" (http://www.medialingua.ru/www/Wwwsearc.htm) работает только с пятью англоязычными поисковыми машинами (AltaVista, Euroseek, Excite, HotBot, WebCrawler) и одной русскоязычной (Апорт), но интересна тем, что для англоязычных поисковых машин переводит русскоязычный запрос на английский язык. [24]

Подводя итог, можно сказать, что единой оптимальной схемы поиска в Интернет не существует. В зависимости от специфики необходимой информации, для её поиска должно использовать соответствующие поисковые службы. В принципе, конечно, можно всегда пользоваться какой-нибудь одной поисковой системой, но чем грамотнее подобраны поисковые службы и составлен запрос на поиск информации, тем качественнее будут результаты поиска.

2.2. Статистический анализ текстов

В данной работе статистический анализ текста используется для решения задачи выделения ключевых слов произвольного документа.

Во всех созданных человеком текстах можно выделить статистические закономерности. Никому не удается обойти их. Кто бы их ни писал, какой бы язык он при этом ни использовал, внутренняя структура текста останется неизменной. Она описывается законами Дж. Зипфа (George K. Zipf). Зипф предположил, что природная лень человеческая ведёт к тому, что слова с большим количеством букв встречаются в тексте реже коротких слов. Основываясь на этом постулате, Зипф вывел два универсальных закона.

2.2.1. Первый закон Зипфа "ранг - частота"

Если измерить количество вхождений каждого слова в текст и взять только одно значение из каждой группы, имеющей одинаковую частоту, расположить частоты по мере их убывания и пронумеровать (порядковый номер частоты называется рангом частоты), то наиболее часто встречающиеся слова будут иметь ранг 1, следующие за ними - 2 и т.д. Вероятность встретить произвольно выбранное слово будет равна отношению количества вхождений этого слова к общему числу слов в тексте.

Вероятность = Количество вхождений слова / Число слов (2.4)

Зипф обнаружил следующую закономерность: произведение вероятности обнаружения слова в тексте на ранг частоты – константа (С).

С = (Количество вхождений слова x Ранг частоты) / Число слов (2.5)

Это функция типа y=k/x и её график - равносторонняя гипербола. Следовательно, по первому закону Зипфа, если самое распространенное слово встречается в тексте, например, 100 раз, то следующее по частоте слово с высокой долей вероятности, окажется на уровне 50.

Значение константы С в разных языках различно, но внутри одной языковой группы остается неизменно, какой бы текст мы ни взяли. Так, например, для английских текстов константа Зипфа равна приблизительно 0,1.

2.2.2. Второй закон Зипфа "количество - частота"

В первом законе не учтён тот факт что, разные слова могут входить в текст с одинаковой частотой. Зипф установил, что частота и количество слов, входящих в текст с этой частотой, тоже связаны между собой. Если построить график, отложив по одной оси (оси Х) частоту вхождения слова, а по другой (оси Y) - количество слов в данной частоте, то получившаяся кривая будет сохранять свои параметры для всех без исключения созданных человеком текстов. Как и в предыдущем случае, это утверждение верно в пределах одного языка. Однако и межъязыковые различия невелики. На каком бы языке текст ни был написан, форма кривой Зипфа останется неизменной (см. рис. 2.5). Могут немного отличаться лишь коэффициенты, отвечающие за наклон кривой (в логарифмическом масштабе, за исключением нескольких начальных точек, график - прямая линия).

Рис. 2.5

Воспользуемся законами Зипфа для извлечения из текста слов, отражающих его смысл (ключевых слов).

Рис. 2.6

Исследования показывают, что наиболее значимые слова лежат в средней части диаграммы (см. рис. 2.6). Это и понятно. Слова, которые попадаются слишком часто, в основном оказываются предлогами, местоимениями, в английском - артиклями и т.п. Редко встречающиеся слова тоже, в большинстве случаев, не имеют решающего смыслового значения.

От того, как будет выставлен диапазон значимых слов, зависит многое. Если поставить широко – то в ключевые слова будут попадать вспомогательные слова; если установить узкий диапазон – то можно потерять смысловые термины. Каждая поисковая система решает проблему по-своему, руководствуясь общим объёмом текста, специальными словарями и т.п.

Сделать выделение наиболее значимых слов качественнее помогает предварительное исключение исследуемого текста некоторых слов, которые априори не могут являться значимыми и, поэтому являются «шумом». Такие слова называются нейтральными или стоповыми (стоп-словами). Словарь стоп-слов называют стоп-листом. Например, для английского текста стоп-словами станут термины: the, a, an, in, to, of, and, that... и так далее. Для русского текста в стоп-лист могли бы быть включены все предлоги, частицы, личные местоимения и т. п. Есть и другие способы повысить точность оценки значимости терминов.

2.2.3. Весовые коэффициенты

До сих пор рассматривался лишь отдельно взятый документ, не принимая во внимание, что он входит в базу данных наряду с множеством других документов. Если представить всю базу данных как единый документ, к ней можно будет применить те же законы, что и к единичному документу. Чтобы избавиться от лишних слов и в тоже время поднять рейтинг значимых слов, вводят инверсную частоту термина. Значение этого параметра тем меньше, чем чаще слово встречается в документах базы данных. Вычисляют его по формуле (2.6).

Инверсная частота термина i = log (количество документов в базе данных / количество документов с термином i) (2.6)

Теперь каждому термину можно присвоить весовой коэффициент, отражающий его значимость:

Вес термина i в документе j = (частота термина i в документе j) x (инверсная частота термина i). (2.7)

Современные способы индексирования не ограничиваются анализом перечисленных параметров текста. Поисковая машина может строить весовые коэффициенты с учетом местоположения термина внутри документа, взаимного расположения терминов, частей речи, морфологических особенностей и т.п.

В качестве терминов могут выступать не только отдельные слова, но и словосочетания. Джорж Зипф опубликовал свои законы в 1949 году. Пять лет спустя знаменитый математик Беноит Мандлеброт (Benoit Mandlebrot) внес небольшие изменения в формулы Зипфа, добившись более точного соответствия теории практике. Без этих законов сегодня не обходится ни одна система автоматического поиска информации. Итого, математический анализ позволяет машине с хорошей точностью, без участия человека определять слова, наиболее точно передающие смысл текста. [16]

  Наверх   Информация   Содержание   Плакаты  
Для писем: kes@narod.ru
 
Используются технологии uCoz