1引言
元搜索引擎是一種多元信息的、高效的、使用方便的集成搜索引擎,特點是把多個獨立搜索引
擎的搜索結果整合、控制、優化,再把搜索結果輸出到客戶端。它主要包括用
戶請求的識別轉化、成員引擎的調度以及查詢結果的合成。其中查詢結果的合
成是最重要的環節,是元搜索引擎研究的核心。
目前,元搜索引擎查詢結果的合成算法,主要有幾種類型[1]:(1)基于位置
信息的合成算法。該算法利用文檔在各個成員搜索引擎查詢返回結果中的排列
位置信息進行排序。(2)基于局部相關度的合成算法。該算法利用各個成員
搜索引擎的查詢返回結果的原始相關度(局部相關度值)來進行排序。(3)基
于全局相關度的合成算法。先計算元搜索引擎相應于檢索條件的重要性,再對
各個成員搜索引擎的查詢結果文檔進行下載,統一進行相關度的計算,最后以
此為權乘上文檔的相關性作為決定其合成排列次序的依據。(4)基于超鏈的
相關度排序,考慮一個頁面被其它站點引用的次數,認為引用次數反映了該頁
面的受歡迎程度(重要性)[2]。(5)檢索結果的聚類分析。通過對用戶建立個人
模型,對此模型進行聚類形成不同用戶群,并對檢索到的結果進行聚類處理,
同用戶模型聚類相結合遺回給用戶個性化的搜索結果[3]
。
本文針對查詢結果合成問題,提出了一種基于OWA算子的查詢結果合成方法,
該方法綜合考慮了用戶興趣以及查詢結果在各個成員搜索引擎返回結果中的排
列位置信息,力圖把與用戶查詢意圖相關的結果排在查詢結果的最前面,提高
查準率。
2基于OWA算子的查詢結果合成方法
基本思路:先利用文檔在各個成員搜索引擎查詢返回結果中的排列位置信息,
引入OWA算子進行整合,獲得文檔在成員搜索引擎查詢返回結果中的排列位置
綜合得分,然后在考慮用戶興趣的基礎上,計算用戶查詢與查詢結果的相似
度,最后對兩項結果進行加權求和。
2.1 OWA算子基本理論
有序加權平均算子(Ordered Weighted Averaging,OWA)是美國學者Yager教
授提出的一種數據信息結集算子,已廣泛應用于決策分析、專家系統、人工神
經網、模糊系統等領域。其數學描述為[4]:
定義
,有一與F相關聯的m維加權向量,
,
,且
,使得
(1)
其中
是
中第
個最大元素,則稱F為m維OWA算子。
權重計算表達式為[5,6]:
(2)
(3)
2.2計算文檔在搜索引擎查詢結果列表的位置綜合分值
具體計算步驟如下:
(1)計算結果項在由成員引擎返回的列表中的位置值
定義:設有n個成員引擎,即
,對于查詢q各成員引擎返回的結果列表為
,則結果項
在由成員引擎
返回的列表
中的位置值
為:
,其中
表示結果項
在
中的位置,
表示返回的結果總數。
當該結果項在成員引擎中查詢結果中不出現時,其取值由下式給出[7]:
,
表示所有出現結果項的成員引擎數。
對其進行歸一化處理:
,
,若
,則取
。
(2)對
按降序重新排列得到
。
(3)根據(2)~(3)式計算權值。
(4)根據(1)式計算文檔在搜索引擎查詢結果列表的位置綜合得分,即
2.3結合用戶興趣類計算用戶查詢與搜索結果相關度[8]
對于查詢結果
,元搜索引擎解析出其中包含的所有特征詞組成的特征詞集
。定義查詢結果對于
的特征詞集:
,表示為
,
為
中特征詞的個數。
對于用戶興趣類別C(C∈CS),查詢結果
對于
的權重
,表示為
。其中
是對應特征詞
在用戶興趣類別C中的權重,即:
中術語的加權向量
,表示為
,其中
為特征詞
對查詢結果
的重要性,定義為:
且
根據上述定義,計算查詢結果
與用戶興趣類別C(C∈CS)的相似度為:
(4)
根據用戶查詢q和所對應的用戶興趣類別C的相似度
,計算查詢結果r與用戶查詢q在興趣類別c上的相似度
。計算查詢結果
與用戶查詢q相似度:
(5)
其中
為集合中興趣類別個數。
2.4計算文檔的綜合分值
綜合前面的計算,得到搜索結果集中每個結果的最終相關度得分
:
(6)
,
分別表示相似度信息和位置信息各自分值的重要性。
3試驗結果
編程實現本文設計的查詢結果合成方法,根據如下公式[9]對搜索結果進行相關性評價:
,其中,搜索結果分為相關文檔、不確定文檔和不相關文檔3類,
分別表示相關文檔數、不確定文檔數和檢索到的文檔總數。
進行多組關鍵詞搜索,與單獨的搜索引擎分析比較其相關性,結果如下表1:
表1平均相關性對比表
Rank |
Google |
Baidu |
Yahoo |
Sougou |
文中方法 |
5 |
0.8000 |
0.6667 |
0.6667 |
0.7667 |
0.8000 |
10 |
0.6894 |
0.6624 |
0.5627 |
0.6047 |
0.7458 |
20 |
0.6120 |
0.6248 |
0.4826 |
0.5120 |
0.7236 |
30 |
0.5624 |
0.5846 |
0.4328 |
0.4843 |
0.6835 |
均值 |
0.6660 |
0.6346 |
0.5362 |
0.5919 |
0.7382 |
與幾種常用結果合并算法比較平均相關性,如圖1所示,縱坐標表示搜索結果的平均相關度,橫坐標表示個搜索引擎獲取的結果文檔數。
圖1幾種合成算法搜索結果的平均相關性對比
結束語
本文設計的搜索結果合成方法綜合考慮了搜索引擎返回的原始排序位置信息,并結合用戶興趣類計算用戶查詢與返回結果文檔的相關度,試驗結果表明,文中提出的合成方法比現有合成算法具有更好的搜索結果相關性。
參考文獻
[1]. 李強, 基于本體論的個性化和社會化元搜索引擎的研究[D],2006, 浙江大學.
[2]. 黃國景,崔志明, 基于 Ontology的個性化元搜索引擎研究[J]. 微電子學與計算機, 2004. 21(12).
[3]. 嚴莉莉,王倩倩, 孟杰等, 基于聚類的個性化元搜索引擎設計[J]. 計算機技術與發展, 2007. 17(4): 第186-188頁
[4]. Yager, R.R., On ordered weighted averaging aggregation operators in multi criteria decision-making[J]. IEEE transactions on Systems, Man and Cybernetics, 1988. 18(1): p. 183-190.
[5]. Zeshui, X., An overview of methods for determining OWA weights[J]. International Journal of Intelligent Systems, 2005. 20(8): p. 843-865.
[6]. 王煜,徐澤水,OWA算子賦權新方法[J]. 數學的實踐與認識, 2008. 38(3).
[7]. Diaz, E.D., A. De and V. Raghavan, A comprehensive owa-based framework for result merging in meta search[J]. Lecture Notes in Computer Science, 2005. 3642: p. 193.
[8]. 丁振國, 趙紅維, 李紅梅, 基于用戶興趣的元搜索結果合成算法研究[J]. 計算機應用與軟件, 2009. 26(3).
[9]. Keyhanipour, A.H., et al. Webfusion: Fundamentals and principals of a novel meta search engine[A]. in Proceedings of the 2006 International Joint Conference on Neural Networks. 2006.
作者簡介:沈志輝(1979-),男,湖南常德,博士研究生,主要研究方向知識管理、輔助決策09915