Автоматическое выделение ключевых слов документа
{Вес термина в документе} = {Инверсная частота термина} x {Частота термина в документе}
{Инверсная частота термина} = log( {Количество документов в БД} / {Количество документов в БД, в которых термин является ключевым} )
{Частота термина в документе} = {Число вхождений термина в документ} / {Общее число терминов в документе}
Выделить все словоформы документа |
Из полученного множества удалить нейтральные словоформы |
Сформировать множество основ оставшихся словоформ |
Преобразовать его в вектор, путём сортировки по убыванию частоты встречаемости основ в документе |
Удалить из вектора основы, частоты встречаемости которых больше порогового значения |
Оставить только начальную часть вектора, сумма частот основ которой равна 50% от общей суммы частот вектора |
Для каждой основы вектора вычислить её вес по формулам |
Пересортировать вектор основ по убыванию рассчитанных весов |
Из начала вектора выбрать множество основ, сумма весов которых составляет 20% от общей суммы весов вектора, но не менее одной основы |
|