(北京郵電大學計算機學院,北京 100876)
摘 要 針對異常流量檢測問題的高維數據集降維問題,結合信息熵理論進行特征選擇。首先計算特征的重要系數,刪除重要系數小于一定閾值的特征,得到重要特征集。然后,計算特征間的相似系數,刪除冗余特征,得到精簡的特征子集。最后,用實驗的方法對特征子集進行了驗證,結果表明特征選擇算法是有效的。
關鍵詞 特征選擇 信息熵
參考文獻
[1] 姚旭,王曉丹,張玉璽,權文.特征選擇方法綜述[J].控制與決策,2012,27(2):161-166.
[2] Sun Z H, George Bebis, Ronald Miller. Object detectionusing feature subset selection[J]. Pattern Recognition,2004, 37(11): 2165-2176.
[3] Langley P. Selection of relevant features in machinelearning[C].Proc of the AAAI Fall Symposium onRelevance. New Orleans, 1994: 1-5.
[4] Aliferis C F, Tsamardinos I,Statnikov A,et al.A novel MarkovBlanket algorithm for optimal variable selection,DSL-03-08[R].Vanderbilt University,2003.
[5] Pfahringer B.Compression—based feature subset selection[C].UCAI-95 Workshop Oil data Engineering for Inductive Learning,1995:101—106.
[6]Dash M,Lu H.Feature selection for clustering[CT] PAKDD 2000, Kyoto.2000.
[7] 李楊寰,高峰,李騰,周智敏.特征選擇中信息熵的應用[J].計算機工程與應用,2009,45(12):54-59.
[8] http://kdd.ics.uci.edu/databases/kddcup99/kddcup99.html
[9] 肖立中.基于數據聚類的入侵檢測系統關鍵技術研究[D].華東理工大學,2006.