( 1.北方工業大學,計算機系,北京,100144;
2.北方工業大學,計算機軟件與理論,北京,100144;
3.北方工業大學,計算機應用,北京,100144)
摘要:本文主要是針對在關聯分析領域,多層關聯分析算法中對事務集中連續數據的層次劃分算法進行相關的研究與探討。論述了不同數值型數據分層方法的利弊,同時提出了基于信息熵的數值型數據概念分層算法,驗證了該算法在提高有效頻繁項集數上相對于其他分層算法具有一定的優勢。
關鍵詞:信息熵;分層算法;多層關聯分析
TheResearch of Numeric Data Hierarchical Algorithm on Multi-level Association Analysis
Su ZhiTong1 WangSheng2Li ShaoHua3
(1.North China University of Technology,Department of Computer Science,BeiJing,100144;2.North China University of Technology ,Computer Software and Theory,BeiJing,100144;3.North China University of Technology ,Computer Application,Beijing ,100144)
Abstract:This articleis mainlyrelated tothefieldofcorrelation analysis, and it focuses on discussing and researching continuous datatransaction-level partitioning algorithm in multi-level associationanalysis algorithms. Discussingthe pros and consofdifferentnumeric datalayered approach, and proposingthenumerical datahierarchicalalgorithm based on information entropyconcept , andverifying that thealgorithmhas certain advantagesto improvethenumberofeffectivefrequentitems comparing tootherhierarchicalalgorithms.
Keyword:Information entropy; hierarchicalalgorithm; Multilayerassociatedanalysis
參 考 文 獻
[1] Jiawei Han,Micheline Kamber,Data Mining Concepts and Techniques. American:Elsevier,2006
[2] Agrawal R,Imielinski T,Swami A,Mining association rules between sets of item s in large databases, ACM SIGMOD Conference on Management of Data ,ACM New York,NY,USA(1993): p:207 - 216
[3] 劉軍強,海量數據挖掘技術研究. 浙江: 浙江工商大學出版社,2010
[4] 董祥軍,王淑靜,宋瀚濤,等.關聯規則的研究[J].北京:北京理工大學學報,2004,24(11)
[5] 范明,孟小峰.數據挖掘概念與技術[M].北京:機械工業出版社,2001
[6] 吳偉平,林馥,賀貴明,一種無冗余的快速關聯規則發現算法[ J]. 計算機工程, 2003( 8):p: 90- 91
項目資助:
1、國家自然科學基金資助項目( 51075423,61105045)
2、北京市屬市管高等學校人才強教計劃資助項目( PHR20100509, PHR201108057 ) 北方工大計算機實驗中心
作者簡介:
1. 王升,男,1985年生,遼寧,在讀碩士研究生,主要研究方向數據挖掘方向
2. 蘇志同,男,1963年生,河北,教授,主要研究方向管理信息系統與計算機網絡,數字媒體技術
3. 李少華,女,1983年生,山西,在讀碩士研究生,主要研究方向計算機網絡技術