1北京航空航天大學軟件開發環境國家重點實驗室,北京,中國,100191
2北京航空航天大學軟件開發環境國家重點實驗室,北京,中國,100191
摘要:隨著互互聯網和微博的高速發展,微博中的輿情信息已經越來越受到關注。由于微博自有的一些特點,傳統的事件發現技術在微博中難以得到理想的效果。本文提出了一種聚類和情感分布相結合的事件發現方法。本文在傳統的事件發現方法中加入情感分析以輔助決策,通過分析情感詞的變化判斷是否有熱點事件發生。實驗結果表明本文方法可以有效的在微博平臺當中發現熱點事件,有助于對微博中輿情的監控和管理。
關鍵字:事件發現;微博;聚類;情感分布
Micro-Blog Hot Event Detection which consist of Text Clustering and Emotion Distribution
Jangfeng Chen1Lingfeng Chu2
1Beihang University, State Key Lab. of Software Development Environment, Beijing, China, 100191
2BeihangUniversity, State Key Lab. of Software Development Environment, Beijing, China, 100191
Email:chulingfeng1002@126.com
Abstract: With the quick development of the Internet and Micro-Blog, the public sentiment in the Micro-blog has receive more and more attention. As Micro-Blog has its own characteristics, traditional technology of event detection can’t meet our needs. In this paper, we propose an algorithm which consist text clustering and emotion distribution. This paper add emotion analysis into the traditional event detection method to auxiliary decision, to judge whether there is a hot event happening by analysis the change of emotion words. Experiment results show that the mothod proposed can detect hot events in Micro-Blog platform effectively, facilitating the monitoring and management of the hot events in Micro-Blog platform.
Keywords: event detection; Micro-Blog; text clustering; emotion distribution
參考文獻
[1] 曾依靈,許洪波,網絡熱點信息發現研究[J] 通信學報,2007,28,(12)
[2] 邱立坤,陶然,龍志神,程葳面向互聯網的話題發現技術研究[Z].計算機研究與發展,2006,43(3):489~495
[3] 時達明. Blog熱點話題發現及其坐著聲譽度研究[D],大連:大連理工大學,2007
[4] C Akcora, M Bayir, M Demirbas, H Ferhasmanoglu, Identifying Breakpoints in public Opinion[C]//processedings of KDD Workshop on Social Media Analytics, Washington, July 2010.
[5] Pang B, Lee L, Vaithyanathan S. Thumbs up? Sentiment classification using machine learning techniques [C]//proceedings of EMNLP2002, University of Pennsylvania Philadelphia, USA, 2002, 79-86
[6] Pang B, Lee L. A Sentimental education: sentiment analysis using subjective summarization based on minimum cuts [C]//Proceedings of the 42nd Annual Meeting on Association for computationalLingusitics, Barcelona Spain. 2004, 271-278
[7] M Hu, B Liu. Mining and summarizing customer reviews[C]//Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery & Date Mining, Seattle, Washington, USA. 2007
(本文受北京航空航天大學課題“基于微博社區的熱點話題識別及關聯模型研究(YWF-12- LXGY - 004)”資助)
第一作者簡介:
陳江鋒,男,1976年5月生,博士,副研究員。1998年7月北京航空航天大學飛行器設計與應用力學系本科畢業并留校參加工作,2008年1月獲北京航空航天大學計算機學院工學博士學位。曾以國家公派訪問學者身份赴美國伊利諾伊大學計算機系和華盛頓大學計算機系進行了為期一年的學術交流與合作研究,現就職于北京航空航天大學軟件開發環境國家重點實驗室。主要從事信息檢索技術研究。近年來先后參加了“網絡環境下海量信息組織與處理的理論與方法研究”、“基于IPv6的高速網絡協同工作環境和中間件技術研究”和“北京Internet ITS已用示范項目”的部分研究工作,獨立申請并主持完成了“ConferenceXP在中國發展的可行性驗證研究”項目。發表論文9篇,其中EI 收錄6篇。