Главная | Обратная связь | Поможем написать вашу работу!

Модель определения релевантности

В рамках этой модели каждому терму (словоформе) t_i в документе d_j (и запросе q) сопоставляется некоторый неотрицательный вес w_ij (w_i для запроса на один поисковый сайт). Таким образом, каждый документ и запрос может быть представлен в виде k -мерного вектора:

(3.11)

где k – общее количество различных термов во всех документах.

Согласно векторной модели [16], близость документа d_j к запросу q оценивается как корреляция между векторами их описаний. Эта корреляция может быть вычислена, например, как скалярное произведение соответствующих векторов описаний.

Веса термов можно вычислять различными способами [20; 27; 90].

Один из возможных вариантов – это применение в качестве веса терма w_ij в документе d_j нормализованной частоты его использования freq _ij в рамках данного документа:

(3.12)

При поиске с использованием мультилингвистических частотных словарей для вычислений целесообразнее применять частотную характеристику терма из словаря freqDic _j.

w_ij = freqDic _ij. (3.13)

Здесь freqDic₁ _j, …, freqDic _nj равны, и это связано с тем, что веса терминов берутся из словаря и для всех терминов в документе они равны весу из словаря.

Однако такой подход не учитывает, насколько часто данный терм используется в других документах коллекции, т. е. дискриминационную силу терма. Поэтому в случае доступности статистики использований термов по коллекции лучше работает другая схема вычисления весов:

(3.14)

где n_i – число документов, в которых используется терм t_j; N – общее число документов в коллекции. С учетом частотности словоформ выражение (3.14) может быть представлено в виде

(3.15)

Предложенный алгоритм хорошо показал себя на этапе формирования мультилингвистического частотного словаря, однако после того, как этот словарь уже составлен и возникает необходимость в его актуализации или обновлении, в качестве весового коэффициента лучше использовать весовой коэффициент каждого терма из частотного мультилингвистического словаря. Для этого при анализе текстов необходимо сравнивать полученный вес терма с относительной частотой данного терма в частотном словаре. Таким образом, будет получено два вектора, состоящих из весов, только в одном векторе будут веса термов из текста, а в другом – веса термов из словаря:

(3.16)

(3.17)

где

w doc _ij = w_ij · g_ij; (3.18)

w dic _l = frecDic _l · g_l;(3.19)

(3.20)

здесь i – номер терма в j -м документе (i= 1, …, k); l – номер терма в частотном словаре (l = 1, …, kd); w doc _ij – вес i -го терма в j -м документе; w dic _l – вес l- го терма в частотном словаре; g_ij и g_l – признаки включения терма в вектор для определения релевантности документа: если терм нерелевантен предметной области, то признак равен нулю, в противном случае он равен единице.

Векторы w doc _ij и w dic _l имеют разные размерности, что связано с ограничением словаря, в котором содержатся только релевантные термины. Следовательно, g_l равен нулю только в случае устаревания какого-то термина настолько, что он полностью вышел из употребления.

В процессе составления векторов w doc _ij и w dic _l необходимо привести их к одной размерности и упорядочить веса по принадлежности к одному терму, после чего необходимо составить вектор c:

(3.21)

где e – размерность векторов весов;

(3.22)

при i = 1,..., e. В идеале rel _ij должен быть равен единице.

В случае если

(3.23)

где s – пороговая величина, принимается решение о релевантности документа d_j предметной области. В идеале v стремится к нулю [5; 37; 101].

В заключение следует отметить, что предложенный алгоритм определения релевантности эффективно работает как на этапе формирования мультилингвистического частотного словаря, так и после его составлеия, когда возникает необходимость в его актуализации или обновлении.

⇐ Предыдущая 7 8 9 10 111213 14 15 16 Следующая ⇒

Воспользуйтесь поиском по сайту: