<p id="nxp5x"><big id="nxp5x"><noframes id="nxp5x">

    <var id="nxp5x"><video id="nxp5x"></video></var>

          <em id="nxp5x"></em>

              首 頁 本刊概況 出 版 人 發行統計 在線訂閱 歡迎投稿 市場分析 1 組織交流 1 關于我們
             
            1
               通信短波
            1
               新品之窗
            1
               優秀論文
            1
               通信趨勢
            1
               特別企劃
            1
               運營商動態
            1
               技術前沿
            1
               市場聚焦
            1
               通信視點
            1
               信息化論壇
            1
            當前位置:首頁 > 優秀論文
            基于PMML的數據挖掘系統
            作者:高雅奇 王冠 (北京工業大學 計算機學院,北京 100124)
            來源:本站原創
            更新時間:2010/5/21 9:36:00
            正文:

              要:本文介紹了預測模型標記語言(PMML),探討了PMML標準在數據挖掘系統中的應用,提出了基于PMML的系統框架,并對挖掘系統中的各模塊功能進行了詳細分析。最后對PMML/XML數據挖掘中的應用前景進行了展望。

            關鍵詞:預測模型標記語言;數據挖掘;體系結構;數據挖掘平臺

            PMML-Based Data Mining System

            Gao Yaqi, WANG Guan

            (Beijing University of Technology Computer College, Beijing 100124, Beijing, China)

            Abstract: The article introduces the predictive model markup language and discusses the application of PMML in Data Mining system. The authors propose a framework of PMML-based system. In addition, module’s functions are given in detail. At the end of paper, the promise of XML and PMML respect to data processing is summarized.

            Key words: PMML; Data Mining; Data Mining platform; system structure

             

            1  引言


            HTML,即超文本標記語言,是目前網絡上應用的最為廣泛的語言,是網絡技術起源和發展的基礎,也是構成網頁文檔的主要語言。HTML的功能強大,支持文字、圖形、動畫、聲音、表格、鏈接等不同數據格式的對象鑲入。這就使得html語言具有豐富表現力的同時,也存在結構過于靈活、語法不規范的弱點。當大量信息都以html格式出現時,整個網絡信息空間是雜亂無章、沒有秩序的。另一方面,面對越來越多的電子化數據,人們迫切需要有效的工具開發和利用海量信息中的有用知識。而目前,對HTML頁面進行數據處理卻很難,原因在于HTML的數據組織形式是非結構化或半結構化的。HTML是一種介于結構化數據(即能存儲在數據庫中可采用二維表形式表達的數據。對其進行數據處理時,只要建立一個對應的表即可)和非結構化的數據(即無法用數字或統一的結構表示的數據,如聲音、圖像、文本等)之間的數據,屬于半結構化數據(即和普通純文本相比,具有一定的結構性,但和具有嚴格理論模型的關系數據庫的數據相比又不能將數據簡單的組織成一個文件)。

            由于目前的數據處理平臺是建立在結構化數據基礎上的,所以兩者的不一致性就極大地增加了數據處理的難度和代價。為了讓web世界里的所有信息都有章可循、有法可依,我們需要一種更為規范、更能夠體現信息特點的語言,為此人們制定了一種新的語言—— 擴展標記語言XML。XML直接面對Web數據,不僅可以很好地兼容原有的Web應用,而且可以更好地實現Web中的信息共享與交換。與HTML相比XML不但擴展性更強,語法更嚴格,最重要的是XML的數據組織機制也發生了變化。[1]

            HTML將數據展現和數據內容緊密地融合在一起,致使自身缺乏有效組織數據的能力、手段和標準,而XML的核心思想是把數據的組織、數據的展現與數據的內容相互分離,這使得三者之間的依賴性得以分別控制和把握?梢哉fHTML語言關心的是數據的表現形式,而XML語言關心的是數據本身的格式和數據內容?傊XML具有四大特點:便于存儲的數據格式、可擴展性、高度結構化以及方便的網絡傳輸,這些特點為數據處理提供了一個嶄新的起點。

            2  PMML介紹

            1  PMML標準的提出

            DMG組織于19997月制訂出基于 XML的預測模型標記語言—— PMMLV1.0)。作為DMG組織成員為描述數據挖掘模型而制定的一套規范,其實最初PMML只是Source Forge上一個project而已,后來之所以發展到今天,與XML被廣泛接受是分不開的。其思想就是依托 XML本身特有的合理數據分層思想和應用模式,實現統計分析中的預測模型的可移植性。 DMGPMML的介紹如下:“PMML可以幫助用戶簡便、快捷地定義預測模型并且在不同廠商的相容應用之間共享這些模型;PMML為應用提供了一種獨立于廠商的方法來定義預測模型,所以在不同應用之間交換模型時,就不存在特性問題和不兼容問題;允許用戶在某廠商應用中所開發出的模型,使用其他廠商的應用對其進行可視化、分析、評估甚至是直接使用。這在以前是肯定不可能的,但是使用 PMML,相容應用之間可以實現無縫的模型交換”。

            由于是在XML的基礎上建立起來,PMML的出現對于數據挖掘以及 KDD發展產生相當了積極影響。在實際應用中,它不僅僅只是用于描述數據挖掘的結果——預測模型,而且在整個數據挖掘過程中都可以使用PMML。[1]其中,模型部分可根據不同算法模型有不同的規范。一個PMML文檔中可以一個或多個挖掘模型,每個PMML文檔和就是一個根元素為PMML類型的XML文檔,主要包括標題(header)、數據字典(data dictionary)、PMML模型及擴展(Extension)四部分構成。在PMML 文檔中最重要的部分是data dictionaryPMML模型本身,其基本框架如表1所示。

             

            1-數據處理模式

            1中的mining schema定義了該挖掘模型所需的數據域,它實際上是Data dictionary的一個子集;ModelStats則包含了對單個數據域的統計說明。

            DMG20018月推出最新的PMML第二版,其中最大的變化是將其所支持的挖掘模型擴展到八種,具體包括:決策樹(TreeModel)、神經網絡(NeuralNetwork)、聚類(ClusterModel)、回歸(RegresionModel--線性、多項式、對數三種)、通用回歸(GeneralRegressionModel--支持多種回歸)、樸素貝葉斯(NaiveBayesModel)、關聯規則(AssocationModel)和序列挖掘(SequenceMiningModel)。它基本上包容了主流的數據挖掘技術。

            2  PMML的基本定義

            PMML使用XML來表示挖掘模型,整個PMML的結構是通過XMLDTD進行描述。一個PMML文檔中可以包含一個或多個挖掘模型,每個PMML文檔就是一個根元素為PMML類型的XML文檔,PMML3.1版本的通用格式如下所示:[1]

            <?xml version=”1.0”?>

              <PMML version=”3.1”

            xmlns=”http://www.dmg.org/PMML-3_1”

            xmlns:xsi=”http://www.w3.org/2001/XMLSchema-instance”>

            <Header copyright=”Example.com”/>

            <DataDictionary>…</DataDictionary>

            …a model…

            </PMML>

            3  PMML的實用性

            1PMML為數據挖掘系統提供了一個標準化的模型描述,PMML標準獨立于任何平臺和操作系統。

            2)使用PMML是模型重用的需要。由于生產數據挖掘系統的廠家眾多,對于不同系統的挖掘模型需要互相重用,PMML標準為其提供了一個通用的平臺。

            3)模型部署的需要。PMML標準為數據挖掘結果導入工具,并將結果部署到對應平臺提供了基礎。[2]

            總之,從PMML的基本內容來看,它對模型表述和數據處理的支持是相當靈活的,具有相當可觀的應用前景。

             

            3  基于PMML的數據挖掘系統

            在對PMML進行應用時,需要注意的是:目前PMML著重對數據挖掘結果的表達,而在挖掘過程以及之前的一系列工作則可以利用標準的XML接口。整個PMML的結構是通過XML的文檔類型定義(Document Type Definition,簡稱DTD)描述,2.0以后的版本使用XML Schema代替DTD描述。PMML主要用于記錄數據挖掘過程中的中間結果和最后結果。在挖掘過程中的PMML文檔可以通過XML接口被其他應用識別和處理。XML格式的數據需要轉換為PMML時,只需增加對PMML的技術支持。

            數據挖掘系統的結構,如圖1所示。

             

            1-符合PMML規范的數據挖掘系統的體系結構

            1  數據源

            數據源為數據挖掘提供了數據基礎,一個一致的數據存儲規范是進行數據挖掘的一個必要條件。因此進行數據挖掘前首先要將分散存儲在多個數據源中的數據通過數據清理和數據集成等預處理操作集成到一個統一的數據庫/數據倉庫中,以提高數據的一致性和完整性。在本系統中,把數據源數據通過預處理操作,集成到XML數據庫中。

            2 數據預處理模塊

            數據預處理對于數據挖掘來說是一個很重要的問題,因為現實世界的數據多半是不完整的、有噪音的和不一致的,預處理工作就是為了給數據挖掘提供高質量的挖掘數據。在SAS公司的“SEMMA”方法論中的“S”、“E”和“M”即數據抽樣、數據探索和數據修正工作可劃分給預處理模塊完成。在上圖中,預處理模塊的主要工作是將各種數據源轉換成符合XML規范的形式。對于非XML數據先將其他轉換為XML數據,然后再對XML數據進行規范化檢測,最后入庫;對于XML文檔直接進行規范化檢測后入庫。

            3  XML數據庫

            XML數據庫是專門設計用于存儲和管理XML文檔的數據庫。XML數據庫為數據挖掘模塊提供符合數據挖掘算法要求的待挖掘數據集,待挖掘數據集是由數據源層中與挖掘任務相關的數據經過數據預處理形成的。[3]

            4  數據挖掘模塊

            數據挖掘模塊是數據挖掘系統的核心,該層的具體實現直接關系到整個系統的功能性和擴展性。當前的數據挖掘主要包括概念/類描述、關聯規則分析、分類及預測、聚類分析、等幾種類型的模式的挖掘,針對各種類型的模式又對應多種不同的實現算法。在前圖中,數據挖掘模塊根據不同的挖掘任務在算法庫中選擇相應的挖掘算法。

            通過挖掘算法庫管理各種挖掘算法,算法庫可以根據需要進行擴充,例如增加對神經網絡算法的支持等。

            5  控制層

            控制層用于控制系統的執行流程,協調各功能部件間的關系和執行順序,主要包括對數據挖掘任務進行解析,并根據任務解析的結果判斷挖掘任務涉及到的數據和應該采用的數據挖掘算法。[4]

            6  PMML數據庫

            XML把內容和顯示格式分開的特性對于知識的存儲非常有利。由于XML描述的知識不包含知識的顯示格式,所以將數據挖掘后所得到的知識按著Schema的定義的結構存入PMML數據庫,就可以形成符合PMML規范的知識庫。[5]

            PMML數據庫不但能用于挖掘模型的存儲和發布,還能將其他系統或本系統已經產生的挖掘模型復用于挖掘模塊,獲得相關信息。

            7  用戶界面與知識表示

            用戶通過用戶界面定義數據挖掘任務,包括挖掘類型、挖掘的數據源、興趣度約束等各種相關的約束條件。當用戶需求傳輸給控制層,控制層按其需求進行調度。

            在知識表示層,因PMML格式文檔描述的知識不包含知識的顯示格式。在結果返回界面顯示文檔內容時,可采用用戶所期望的自定義格式,例如HTML文檔、SVG文檔。系統為用戶提供了友好的界面。

            4  總結

            本文簡要介紹了PMML的產生、定義,提出了符合PMML規范、通過XML接口實現轉換的數據挖掘系統架構。通過PMML描述的數據挖掘模型可以實現不同平臺、不同系統下模型的共享和移植。但是PMML模型還存在著表現的局限性和安全等問題。隨著數據挖掘理論研究和應用水平的不斷提高,PMML的應用也將更加豐富,系統架構還需要進一步的深入研究和探討,并在實踐中不斷完善。

            參考文獻:

            [1] 張曉軍,孟說武. 預測模型標記語言應用分析[J].計算機工程與應用.2003,39(10)187-190

            [2] 唐亮,鄭丕諤,陳瑋.基于PMML的數據挖掘模型管理[J]. 計算機工程與應用.2005, 27(3)

            [3] 陳征. 基于XML數據庫的數據挖掘研究[M].華中科技大學.2006

            [4] 王冠,司建輝,楊昌鋒. 數據挖掘系統研究綜述[J].北京工業大學學報,2005

            [5] 王超,周南. 基于Java的支持PMML規范的三層數據挖掘系統[J].農業網絡信息.2004, 8

            作者簡介:

            高雅奇(1982-),,碩士研究生,研究方向為數據挖掘;

            王冠(1968-),,副教授,研究方向為數據庫,數據挖掘,可信計算。

                                                                         10328

             
             
               
            《通信市場》 中國·北京·復興路49號通信市場(100036) 點擊查看具體位置
            電話:86-10-6820 7724, 6820 7726
            京ICP備05037146號-8
            建議使用 Microsoft IE4.0 以上版本 800*600瀏覽 如果您有什么建議和意見請與管理員聯系
            欧美成人观看免费全部欧美老妇0