<p id="nxp5x"><big id="nxp5x"><noframes id="nxp5x">

    <var id="nxp5x"><video id="nxp5x"></video></var>

          <em id="nxp5x"></em>

              首 頁 本刊概況 出 版 人 發行統計 在線訂閱 歡迎投稿 市場分析 1 組織交流 1 關于我們
             
            1
               通信短波
            1
               新品之窗
            1
               優秀論文
            1
               通信趨勢
            1
               特別企劃
            1
               運營商動態
            1
               技術前沿
            1
               市場聚焦
            1
               通信視點
            1
               信息化論壇
            1
            當前位置:首頁 > 優秀論文
            基于Heritrix聚焦爬蟲的特定語料采集系統設計
            作者:何洋 潘光強
            來源:本站原創
            更新時間:2014/1/16 9:23:00
            正文:


            (1.國防科技大學計算機學院,湖南省長沙市 4100001;2.國防科技大學計算機學院,湖南省長沙市 410000)

            摘要目前,語料在各項研究中發揮著重要作用,現在的語料采集方法還不能滿足需要。本文提出了一種新的語料采集方法,可以準確迅速的采集特定領域語料。通過修改Heritrix開源爬蟲的組件,引入了APHash算法,解決爬蟲隊列平均分配問題,提高了采集效率,并通過加入URL判斷條件,實現了特定領域語料的采集。對采集內容使用開用工具Tika進行解析,通過大規模采集,可以形成語料庫,實現了特定語料的采集。
            關鍵詞Heritrix 語料聚焦爬蟲 APHash算法 Tika
            中圖分類號:TP393.08  文獻標識碼:A        文章編號:
            Design and implementation of specific data acquisition system based on Heritrix and focused crawler
            HE Yang1 PAN GuangQiang2
             。1.National University of Defense Technology,Changsha 410000,china.HE Yang,
              2.National University of Defense Technology,Changsha 410000,china.PAN GuangQiang)
            AbstractAt present, the corpus plays an important role in the study, data collection methods now can not meet the need of. This paper presents a new method of data acquisition, can quickly and accurately capture domain specific corpus. Through the components of modified Heritrix open source crawler, we introduce the APhash algorithm to solve the problem, the average distribution of crawler queue, adjustable high acquisition speed, and by the addition of URL to determine the conditions, the domain specific corpus collection. The collection content using open by parsing the Tika tools, the specific data collection
            Key wordsHeritrixcorpusAPHashfocused crawler Tika

             

             

             

            參考文獻
            [1]http://baike.baidu.com/link?url=UwnzD2Q5cKTaqt3VNdK3VJE4inexXl6haM60XJQYUAfE5Vv6KgLJAgZNRms4dBrq
            [2]唐蘇劉循基于超鏈接引導和鏈接圖分析的主題搜索引擎[J].計算機技術與發展,2011,21(2):155-158
            [3]Dong HHussaln F KFocused Crawling for Automade Service Discovery,Annotation and Classification in Industrial Digital Ecosystems[J].IEEE Trans on Industrial Electronics,2011 58(6):2106-2116。
            [4]邱哲符滔滔Lucene2,0+Heritrix開發自己的搜索引 北京:人民郵電出版社,2007.
            [5]楊頌歐陽柳波基于Heritrix的面向電子商務網站增量爬蟲研究[J].軟件導刊,2010,9(7):38—39
            [6]http://baike.baidu.com/link?url=EapJ7YOdct9QfbNJHRdZYVxoBQ6LJHNT6e6cM1BaffZdLnAHNCiET79pTx4almJ1BCOMR1mZp-KkbZJjrwGggK
            [7]范先爽劉東飛基于Heritrix網絡爬蟲算法的研究與應用
            [8]朱敏羅省賢基于Heritrix的面向特定主題的聚焦爬蟲研究
            [9] http://baike.baidu.com/link?url=FCUicrM4g6eSJynF5v3cjzUNgze_3ytnD3K_B0VDAHgU-pDRjjsyuusn0axvN5_fnbLZlieoIWnpS8ngPjKFO_


            本文基金項目:國家863計劃項目。課題編號:2011AA010702。
              
            作者簡介:
              何  洋,男,1982年4月出生,遼寧錦州人,國防科學技術大學計算機學院計算機科學與技術專業工程碩士。主要研究方向為大數據挖掘、網絡爬蟲。
              潘光強,男,1984年6月出生,安徽人,國防科學技術大學計算機學院計算機科學與技術專業工程碩士。主要研究方向為大數據挖掘、網絡爬蟲。
              
              

             
             
               
            《通信市場》 中國·北京·復興路49號通信市場(100036) 點擊查看具體位置
            電話:86-10-6820 7724, 6820 7726
            京ICP備05037146號-8
            建議使用 Microsoft IE4.0 以上版本 800*600瀏覽 如果您有什么建議和意見請與管理員聯系
            欧美成人观看免费全部欧美老妇0