Главная | Обратная связь | Поможем написать вашу работу!
МегаЛекции

Модель определения релевантности




 

В рамках этой модели каждому терму (словоформе) ti в документе dj (и запросе q) сопоставляется некоторый неотрицательный вес wij (wi для запроса на один поисковый сайт). Таким образом, каждый документ и запрос может быть представлен в виде k -мерного вектора:

 

(3.11)

 

где k – общее количество различных термов во всех документах.

Согласно векторной модели [16], близость документа dj к запросу q оценивается как корреляция между векторами их описаний. Эта корреляция может быть вычислена, например, как скалярное произведение соответствующих векторов описаний.

Веса термов можно вычислять различными способами [20; 27; 90].

Один из возможных вариантов – это применение в качестве веса терма wij в документе dj нормализованной частоты его использования freq ij в рамках данного документа:

 

(3.12)

 

При поиске с использованием мультилингвистических частотных словарей для вычислений целесообразнее применять частотную характеристику терма из словаря freqDic j.

 

wij = freqDic ij. (3.13)

Здесь freqDic1 j, …, freqDic nj равны, и это связано с тем, что веса терминов берутся из словаря и для всех терминов в документе они равны весу из словаря.

Однако такой подход не учитывает, насколько часто данный терм используется в других документах коллекции, т. е. дискриминационную силу терма. Поэтому в случае доступности статистики использований термов по коллекции лучше работает другая схема вычисления весов:

 

(3.14)

 

где ni – число документов, в которых используется терм tj; N – общее число документов в коллекции. С учетом частотности словоформ выражение (3.14) может быть представлено в виде

 

(3.15)

 

Предложенный алгоритм хорошо показал себя на этапе формирования мультилингвистического частотного словаря, однако после того, как этот словарь уже составлен и возникает необходимость в его актуализации или обновлении, в качестве весового коэффициента лучше использовать весовой коэффициент каждого терма из частотного мультилингвистического словаря. Для этого при анализе текстов необходимо сравнивать полученный вес терма с относительной частотой данного терма в частотном словаре. Таким образом, будет получено два вектора, состоящих из весов, только в одном векторе будут веса термов из текста, а в другом – веса термов из словаря:

 

(3.16)

 

(3.17)

 

где

w doc ij = wij · gij; (3.18)

 

w dic l = frecDic l · gl;(3.19)

 

(3.20)

 

здесь i – номер терма в j -м документе (i= 1, …, k); l – номер терма в частотном словаре (l = 1, …, kd); w doc ij вес i -го терма в j -м документе; w dic l вес l- го терма в частотном словаре; gij и gl – признаки включения терма в вектор для определения релевантности документа: если терм нерелевантен предметной области, то признак равен нулю, в противном случае он равен единице.

Векторы w doc ij и w dic l имеют разные размерности, что связано с ограничением словаря, в котором содержатся только релевантные термины. Следовательно, gl равен нулю только в случае устаревания какого-то термина настолько, что он полностью вышел из употребления.

В процессе составления векторов w doc ij и w dic l необходимо привести их к одной размерности и упорядочить веса по принадлежности к одному терму, после чего необходимо составить вектор c:

 

(3.21)

 

где e – размерность векторов весов;

 

(3.22)

 

при i = 1,..., e. В идеале rel ij должен быть равен единице.

В случае если

(3.23)

 

где s – пороговая величина, принимается решение о релевантности документа dj предметной области. В идеале v стремится к нулю [5; 37; 101].

В заключение следует отметить, что предложенный алгоритм определения релевантности эффективно работает как на этапе формирования мультилингвистического частотного словаря, так и после его составлеия, когда возникает необходимость в его актуализации или обновлении.

Поделиться:





Воспользуйтесь поиском по сайту:



©2015 - 2024 megalektsii.ru Все авторские права принадлежат авторам лекционных материалов. Обратная связь с нами...