<p id="nxp5x"><big id="nxp5x"><noframes id="nxp5x">

    <var id="nxp5x"><video id="nxp5x"></video></var>

          <em id="nxp5x"></em>

              首 頁 本刊概況 出 版 人 發行統計 在線訂閱 歡迎投稿 市場分析 1 組織交流 1 關于我們
             
            1
               通信短波
            1
               新品之窗
            1
               優秀論文
            1
               通信趨勢
            1
               特別企劃
            1
               運營商動態
            1
               技術前沿
            1
               市場聚焦
            1
               通信視點
            1
               信息化論壇
            1
            當前位置:首頁 > 優秀論文
            一種基于標簽屬性的網頁去噪方法
            作者:姜 琨1 楊岳湘2 方 宏2
            來源:本站原創
            更新時間:2011/7/14 15:23:00
            正文:

             

            (國防科學技術大學計算機學院,長沙 410073)1

            (國防科學技術大學信息中心,長沙 410073)2

              要:一個普通的網頁可以被分成正文和噪聲兩個部分,噪聲影響了對網頁進行正文提取、聚類等處理,因此快速準確地去除網頁中的噪聲是網頁信息處理的關鍵技術之一。本文根據網頁文本格式屬性的相似性,提出一種基于網頁標簽屬性的去噪算法,并將通過此算法處理的網頁用于K-MEANS聚類算法。實驗結果表明本文提出的去噪算法是有效的,并且聚類結果的準確性有了較好的改進。
            關鍵詞: 網頁去噪;標簽屬性;DOM樹;極大相容類
            An Approach for Noise Reduction in Web Pages Based on Tag Attributes
            JIANG Kun1  YANG Yue-xiang2  FANG Hong2
            (1. School of Computer Science, National University of Defense Technology, Changsha, 410073;
            2. Information Center, National University of Defense Technology, Changsha, 410073)
            Abstract: A common web page could be separated into two categories:valuable segments and noise segments, which affects web page extraction, clustering and other processing, so eliminating noise accurately and efficiently is a key technique in web disposal. According to the similarity of web page's text format, we present a new approach of noise reduction algorithm based on the tag attributes of web page, and apply this algorithm to the K-MEANS clustering  experiment. The experimental results show that the proposed algorithm is effective, and the accuracy of clustering has been improved.
            Key words: Noise Reduction; Tag Attributes; DOM Tree; Maximal Compatible Classes
             
            作者簡介:姜琨(1984-),男,碩士研究生,主要研究方向為計算機網絡與安全;楊岳湘,教授、博士生導師;方宏,高級工程師。
             
             
               
            《通信市場》 中國·北京·復興路49號通信市場(100036) 點擊查看具體位置
            電話:86-10-6820 7724, 6820 7726
            京ICP備05037146號-8
            建議使用 Microsoft IE4.0 以上版本 800*600瀏覽 如果您有什么建議和意見請與管理員聯系
            欧美成人观看免费全部欧美老妇0