Автоматическое выделение ключевых слов документа
{Вес термина в документе} = {Инверсная частота термина} x {Частота термина в документе}
{Инверсная частота термина} = log( {Количество документов в БД} / {Количество документов в БД, в которых термин является ключевым} )
{Частота термина в документе} = {Число вхождений термина в документ} / {Общее число терминов в документе}
| Выделить все словоформы документа |
| Из полученного множества удалить нейтральные словоформы |
| Сформировать множество основ оставшихся словоформ |
| Преобразовать его в вектор, путём сортировки по убыванию частоты встречаемости основ в документе |
| Удалить из вектора основы, частоты встречаемости которых больше порогового значения |
| Оставить только начальную часть вектора, сумма частот основ которой равна 50% от общей суммы частот вектора |
| Для каждой основы вектора вычислить её вес по формулам |
| Пересортировать вектор основ по убыванию рассчитанных весов |
| Из начала вектора выбрать множество основ, сумма весов которых составляет 20% от общей суммы весов вектора, но не менее одной основы |
|