Модель определения релевантности
В рамках этой модели каждому терму (словоформе) ti в документе dj (и запросе q) сопоставляется некоторый неотрицательный вес wij (wi для запроса на один поисковый сайт). Таким образом, каждый документ и запрос может быть представлен в виде k -мерного вектора:
(3.11)
где k – общее количество различных термов во всех документах. Согласно векторной модели [16], близость документа dj к запросу q оценивается как корреляция между векторами их описаний. Эта корреляция может быть вычислена, например, как скалярное произведение соответствующих векторов описаний. Веса термов можно вычислять различными способами [20; 27; 90]. Один из возможных вариантов – это применение в качестве веса терма wij в документе dj нормализованной частоты его использования freq ij в рамках данного документа:
(3.12)
При поиске с использованием мультилингвистических частотных словарей для вычислений целесообразнее применять частотную характеристику терма из словаря freqDic j.
wij = freqDic ij. (3.13) Здесь freqDic1 j, …, freqDic nj равны, и это связано с тем, что веса терминов берутся из словаря и для всех терминов в документе они равны весу из словаря. Однако такой подход не учитывает, насколько часто данный терм используется в других документах коллекции, т. е. дискриминационную силу терма. Поэтому в случае доступности статистики использований термов по коллекции лучше работает другая схема вычисления весов:
(3.14)
где ni – число документов, в которых используется терм tj; N – общее число документов в коллекции. С учетом частотности словоформ выражение (3.14) может быть представлено в виде
(3.15)
Предложенный алгоритм хорошо показал себя на этапе формирования мультилингвистического частотного словаря, однако после того, как этот словарь уже составлен и возникает необходимость в его актуализации или обновлении, в качестве весового коэффициента лучше использовать весовой коэффициент каждого терма из частотного мультилингвистического словаря. Для этого при анализе текстов необходимо сравнивать полученный вес терма с относительной частотой данного терма в частотном словаре. Таким образом, будет получено два вектора, состоящих из весов, только в одном векторе будут веса термов из текста, а в другом – веса термов из словаря:
(3.16)
(3.17)
где w doc ij = wij · gij; (3.18)
w dic l = frecDic l · gl;(3.19)
(3.20)
здесь i – номер терма в j -м документе (i= 1, …, k); l – номер терма в частотном словаре (l = 1, …, kd); w doc ij – вес i -го терма в j -м документе; w dic l – вес l- го терма в частотном словаре; gij и gl – признаки включения терма в вектор для определения релевантности документа: если терм нерелевантен предметной области, то признак равен нулю, в противном случае он равен единице. Векторы w doc ij и w dic l имеют разные размерности, что связано с ограничением словаря, в котором содержатся только релевантные термины. Следовательно, gl равен нулю только в случае устаревания какого-то термина настолько, что он полностью вышел из употребления. В процессе составления векторов w doc ij и w dic l необходимо привести их к одной размерности и упорядочить веса по принадлежности к одному терму, после чего необходимо составить вектор c:
(3.21)
где e – размерность векторов весов;
(3.22)
при i = 1,..., e. В идеале rel ij должен быть равен единице. В случае если (3.23)
где s – пороговая величина, принимается решение о релевантности документа dj предметной области. В идеале v стремится к нулю [5; 37; 101]. В заключение следует отметить, что предложенный алгоритм определения релевантности эффективно работает как на этапе формирования мультилингвистического частотного словаря, так и после его составлеия, когда возникает необходимость в его актуализации или обновлении.
Воспользуйтесь поиском по сайту: ©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...
|