(1.國防科技大學計算機學院,湖南省長沙市 4100001;2.國防科技大學計算機學院,湖南省長沙市 410000)
摘要目前,語料在各項研究中發揮著重要作用,現在的語料采集方法還不能滿足需要。本文提出了一種新的語料采集方法,可以準確迅速的采集特定領域語料。通過修改Heritrix開源爬蟲的組件,引入了APHash算法,解決爬蟲隊列平均分配問題,提高了采集效率,并通過加入URL判斷條件,實現了特定領域語料的采集。對采集內容使用開用工具Tika進行解析,通過大規模采集,可以形成語料庫,實現了特定語料的采集。
關鍵詞Heritrix 語料聚焦爬蟲 APHash算法 Tika
中圖分類號:TP393.08 文獻標識碼:A 文章編號:
Design and implementation of specific data acquisition system based on Heritrix and focused crawler
HE Yang1 PAN GuangQiang2
。1.National University of Defense Technology,Changsha 410000,china.HE Yang,
2.National University of Defense Technology,Changsha 410000,china.PAN GuangQiang)
AbstractAt present, the corpus plays an important role in the study, data collection methods now can not meet the need of. This paper presents a new method of data acquisition, can quickly and accurately capture domain specific corpus. Through the components of modified Heritrix open source crawler, we introduce the APhash algorithm to solve the problem, the average distribution of crawler queue, adjustable high acquisition speed, and by the addition of URL to determine the conditions, the domain specific corpus collection. The collection content using open by parsing the Tika tools, the specific data collection
Key wordsHeritrixcorpusAPHashfocused crawler Tika
參考文獻
[1]http://baike.baidu.com/link?url=UwnzD2Q5cKTaqt3VNdK3VJE4inexXl6haM60XJQYUAfE5Vv6KgLJAgZNRms4dBrq
[2]唐蘇劉循基于超鏈接引導和鏈接圖分析的主題搜索引擎[J].計算機技術與發展,2011,21(2):155-158
[3]Dong HHussaln F KFocused Crawling for Automade Service Discovery,Annotation and Classification in Industrial Digital Ecosystems[J].IEEE Trans on Industrial Electronics,2011 58(6):2106-2116。
[4]邱哲符滔滔Lucene2,0+Heritrix開發自己的搜索引 北京:人民郵電出版社,2007.
[5]楊頌歐陽柳波基于Heritrix的面向電子商務網站增量爬蟲研究[J].軟件導刊,2010,9(7):38—39
[6]http://baike.baidu.com/link?url=EapJ7YOdct9QfbNJHRdZYVxoBQ6LJHNT6e6cM1BaffZdLnAHNCiET79pTx4almJ1BCOMR1mZp-KkbZJjrwGggK
[7]范先爽劉東飛基于Heritrix網絡爬蟲算法的研究與應用
[8]朱敏羅省賢基于Heritrix的面向特定主題的聚焦爬蟲研究
[9] http://baike.baidu.com/link?url=FCUicrM4g6eSJynF5v3cjzUNgze_3ytnD3K_B0VDAHgU-pDRjjsyuusn0axvN5_fnbLZlieoIWnpS8ngPjKFO_
本文基金項目:國家863計劃項目。課題編號:2011AA010702。
作者簡介:
何 洋,男,1982年4月出生,遼寧錦州人,國防科學技術大學計算機學院計算機科學與技術專業工程碩士。主要研究方向為大數據挖掘、網絡爬蟲。
潘光強,男,1984年6月出生,安徽人,國防科學技術大學計算機學院計算機科學與技術專業工程碩士。主要研究方向為大數據挖掘、網絡爬蟲。