[ Наверх ]
[ Информация ]
[ Содержание ]
[ Плакаты ]
Контакт
kes@narod.ru

Автоматическое выделение ключевых слов документа

{Вес термина в документе} = {Инверсная частота термина} x {Частота термина в документе}

{Инверсная частота термина} = log( {Количество документов в БД} / {Количество документов в БД, в которых термин является ключевым} )

{Частота термина в документе} = {Число вхождений термина в документ} / {Общее число терминов в документе}

Выделить все словоформы документа
Из полученного множества удалить нейтральные словоформы
Сформировать множество основ оставшихся словоформ
Преобразовать его в вектор, путём сортировки по убыванию частоты встречаемости основ в документе
Удалить из вектора основы, частоты встречаемости которых больше порогового значения
Оставить только начальную часть вектора, сумма частот основ которой равна 50% от общей суммы частот вектора
Для каждой основы вектора вычислить её вес по формулам
Пересортировать вектор основ по убыванию рассчитанных весов
Из начала вектора выбрать множество основ, сумма весов которых составляет 20% от общей суммы весов вектора, но не менее одной основы

Используются технологии uCoz