隨著3G時代的到來,數據業務超過語音業務是電信業發展的必然趨勢,中國移
動的數據業務種類繁多,新業務層出不窮,包含資訊類、音樂類、商務類、便
民類、娛樂類等,其中咨詢類業務中的手機報業務是熱門業務。手機又根據不
同的人群需求開發不同的內容,新聞類、體育類、財經類、等。中國移動手機
報業務的有效推廣增加了用戶對中國移動的粘性,也提高了用戶對中國移動的
價值貢獻。
常用的數據挖掘的分析方法有六大類分別是:分類(Classification)、估值(Estimation)、預測(Prediction)、關聯規則(Association Rules)、聚類(Clustering)、描述和可視化(Description and Visualization)
本文旨在探討數據挖掘分析方法和移動數據業務精細化營銷的結合,即選取某
一種數據業務,選用合適的數據挖掘方法和工具,以得到一些對精細化營銷有
幫助的分析結果,并進一步探討以客戶為中心的角度如何看待中國移動的數據
業務的數據分析之路。
1 資料和方法
某省移動手機報業務的滲透率不足20%,本項目希望通過研究現有手機報用戶的基本屬性、行為屬性、業務開通屬性、數據業務使用屬性等,識別到手機報用戶不同于非手機報用戶的特征,為后續營銷活動獲取潛在手機報用戶提供支持。
1.1 商業問題分析 某省移動手機報業務精細化營銷項目,希望借助數據分析的力量識別潛在手機報用戶,為研究此問題作如下假設:
假設1:客戶的基本屬性影響著客戶未來是否使用手機報業務;
假設2:客戶的行為屬性(語音業務屬性和數據業務屬性)影響著客戶未來是否使用手機報業務;
假設3:客戶的其他屬性影響著客戶未來是否使用手機報業務;
1.2 數據理解 絕大部分的手機報用戶只開通一份手機報,大部分用戶開通的手機報類型為新聞時事類,仍然有接近2%的手機報用戶會開通超過一份的手機報業務。
表1 手機報開通類型
手機報類型 |
客戶數 |
百分比 |
新聞時事類 |
923591 |
96.48% |
體育類 |
27778 |
2.90% |
生活類 |
22200 |
2.32% |
文娛類 |
3620 |
0.38% |
文學類 |
547 |
0.06% |
財經類 |
428 |
0.04% |
游戲類 |
139 |
0.01% |
品牌? |
0 |
0.00% |
表2 手機報用戶和非手機報用戶使用其他數據比較
其他數據業務 |
占手機報用戶百分比 |
占非手機報用戶百分比 |
連續三個月飛信手機端用戶 |
2.10% |
0.84% |
連續三個月有中央音樂平臺彩鈴下載 |
0.22% |
0.03% |
連續三個月使用手機證券業務 |
0.36% |
0.03% |
連續三個月使用手機電視業務 |
0.17% |
0.01% |
連續三個月使用12580業務 |
0.69% |
0.07% |
連續三個月有彩鈴下載 |
19.40% |
8.11% |
從上表可以看到,手機報用戶使用其他各項數據業務的比例遠高于非手機報用戶,此時證明了用戶使用其他數據業務的屬性影響了其開通手機報業務的意愿。
1.3數據準備 客戶的基本屬性、客戶的語音業務屬性、客戶數據業務屬性、客戶的其他屬性等構成了對客戶將來是否開通手機報業務的解釋因素,各屬性及其對應的變量整理如表3:
表3 手機報目標客戶識別分類模型的主要影響變量
數據準備 |
數據屬性 |
變量 |
數據準備 |
數據屬性 |
變量 |
1 |
客戶基本屬性 |
客戶性別 |
13 |
數據業務屬性 |
中央音樂平臺彩鈴下載次數
|
2 |
客戶基本屬性 |
入網時長 |
14 |
數據業務屬性 |
手機證券費用
|
3 |
客戶基本屬性 |
大客戶級別 |
15 |
數據業務屬性 |
彩鈴下載次數
|
4 |
客戶基本屬性 |
中高端用戶標識 |
16 |
數據業務屬性 |
是否開通手機電視
|
5 |
客戶基本屬性 |
手機品牌 |
17 |
數據業務屬性 |
12580查詢次數
|
6 |
客戶基本屬性 |
漫游屬性 |
18 |
數據業務屬性 |
WAP業務信息費
|
7 |
客戶基本屬性 |
ARPU值 |
19 |
數據業務屬性 |
上行短信數量
|
8 |
語音業務屬性 |
本地通話時長 |
20 |
數據業務屬性 |
點對點彩信條數
|
9 |
語音業務屬性 |
長途通話時長 |
21 |
數據業務屬性 |
夢網彩信信息費
|
10 |
語音業務屬性 |
漫游通話時長 |
22 |
數據業務屬性 |
夢網短信業務訂購量
|
11 |
語音業務屬性 |
新業務通信費 |
23 |
其他屬性 |
是否V網用戶
|
12 |
數據業務屬性 |
GPRS上行流量 |
24 |
其他屬性 |
是否辦理家庭計劃
|
1.4 建立模型 手機報目標客戶識別分類模型的建立是整個工作的核心環節,以下的細節影響了模型的準確性和性能。
1.4.1 拆分數據 將建模數據拆分成三個數據集:訓練集、測試集、驗證集,其中訓練集和驗證集用于訓練模型,測試集用于檢驗模型。在本次分析中這三部分數據按7:1:2的比例拆分。
1.4.2 平衡數據 訓練模型之前需要平衡正負樣本的比例,在這里指的是平衡訓練樣本中開通和不開通手機報業務的用戶的比例。值得注意的是此處的平衡數據僅平衡了訓練樣本。
1.4.3 數據挖掘工具選擇 選取SPSS公司數據挖掘軟件PASW Modeler 13(原來的Clementine)建立模型,該業務問題屬于數據挖掘分類問題,該軟件提供的Auto Classifier節點,可以綜合數十種實現分類目的算法,包括了Neural Net、C5.0、C&R Tree、QUEST、CHAID、Logistic、Decision List、Bayes Net、Discriminant、KNN、SVM,用多種不同方法估算和比較模型得出二元(是/否)目標,可以選擇常用的多種算法。
圖1 PASW Modeler之Anto Classifier 模型運行結果
1.4.4 數據挖掘算法選擇 根據上述樣圖1,選取C5.0模型生成的結果,用C5.0(規則)模型對訓練集數據建立預測模型,在建模節點前的類型節點中設定“是否手機報用戶”變量為輸出變量,其余為輸入變量,這樣各變量作為預測模型的輸入,是否使用手機報業務作為預測模型的結果輸出。
1.4.5 數據模型評估 對檢驗集數據應用模型結果,用混淆矩陣和收益圖對應用結果進行準確性和模型效果評估。
圖2 C5.0模型混淆矩陣圖
在測試數據集中最終被接受的模型的準確性達到82.37%,在測試數據集中打分
前52%的客戶涵蓋了90.2%的手機報用戶。
2 結果
上述最終選用的C5.0決策樹模型用于建立手機報目標客戶分類識別模型,該分析最終可以應用的商業結果為:
第一,決策樹模型生成了手機報用戶規則:此類規則便于從業務上理解用戶開通手機報業務的影響因素,有效的不為業務人員直接獲取的規則可用于知識歸納,形成業務知識的積累,潛移默化的影響決策制定。
圖3 C5.0模型規則生成器
圖4所示的手機報用戶規則中,其中最主要的兩條規則為:
TOP 1 規則:
Rule 155 for T(4425;0.95)
IF 三個月內新業務通信費的最大值超過1.7元;
And 開通GPRS業務;
And 三個月內至少有一個月訂購夢網彩信業務;
Then 未來開通手機報業務
規則解釋:嘗試夢網彩信業務并且開通GPRS業務的客戶;
TOP 2 規則:
Rule 111 for T(928;0.945)
IF 三個月內新業務通信費的最大值超過1.7元;
And 開通GPRS業務,三個月內GPRS上行流量的最大值大于3,下行流量的最大值不大于12;
And 三個月內沒有訂購夢網彩信業務,沒有下載音樂盒;
And 入網時長大于3個月不大于25個月;
And 三個月內存在ARPU值小于83.17元的月份;
And 每個月都有夢網短信下行條數;
And 三個月內點對點短信上行條數存在小于5條的月份,但是不存在大于15條的月份;
Then 未來開通手機報業務
規則解釋:入網時間大約3個月不超過2年左右,沒有訂購夢網彩信業務,短信使用少的用戶;
第二,模型的主要輸出結果是將每個用戶未來開通手機報業務的得分寫回數據庫,營銷人員可以根據該結果設計專門的營銷活動。
圖4 C5.0模型最終輸出打分結果
3 討論
手機報業務只是中國移動數據業務中的熱門業務之一,我們對中國移動數據業務的關注更多地從業務層面擴展到客戶層面,讓中國移動的客戶更多地使用其合適的數據業務,是后續分析的立足點,主要側重在以下幾個方面:
第一,數據業務之間的交叉銷售,中國移動的數據業務種類繁多,交叉銷售的思想旨在借助關聯規則算法發現業務之間的關聯性,從而確定實施交叉銷售的產品和目標,增加交叉銷售的成功率,避免盲目推薦、反復推薦,而是借助于數據挖掘的力量推薦用戶合適的數據業務產品。
第二, 數據業務之間的時序性分析,通常來說,用戶對若干個產品或業務的接受是有時間次序,
例如,客戶首先接受了語音業務,而后嘗試使用數據業務;于是在數據業務中,客戶開通多種數據業務的順序是否也存在著某種固定的模式,一份數據顯示了在手機報用戶中99.88%的用戶同時開通了飛信業務,而對這兩種數據業務的開通次序沒有做分析,進一步的分析在考慮產品之間關聯規則的基礎上,強調時序性,于是數據類業務的營銷不僅體現在對合適的客戶推薦合適的產品,同時也體現了在合適的時間上。
第三,交際圈營銷,對核心用戶的營銷,3G時代的數據業務推廣,最理想的方式是實現讓用戶發展用戶,讓產品現有的用戶真正喜歡他們使用的產品,進而影響、推薦和發展其他用戶。彩鈴業務是一個典型的被影響的業務,尚未開通彩鈴的用戶,聽到別人新穎獨特的鈴聲,覺得好聽,進而嘗試,成為彩鈴的使用者,然后不自覺的又充當了彩鈴業務的推廣者。還有一種模式是自覺的推薦其使用的產品給周圍的人,在每一個群體中,總有一些人是在群內屬于核心人物,他或她的言行影響群內其他的人,也總有一些人是群內容易被影響的人,其選擇產品和品牌更多的是依賴自己的親朋好友的推薦,于是集中有限的營銷資源于核心用戶對整體業務的發展起到以點帶面的作用。
參考文獻:
[1] J. Han, M. Kamber. Data Mining: Concepts and Techniques, 2nd ed.北京:機械工業出版社.2006.
[2] Michael J.A.Berry,Gordon S.Linoff. Data Mining Techniques: For Marketing, Sales, and Customer Relationship Management, 2nd ed.北京:機械工業出版社.2006.
[3] Nongye Ye. The handbook of Data Mining. Mahwah, NJ: Lawrence Erlbaum Associates.2003.
[4] 謝邦昌. 數據挖掘Clementine應用實務.北京:機械工業出版社.2008.
[5] Klemettinen, M., Mannila, H., Toivonen, H. Rule discovery in telecommunication alarm data.
Journal of Network and Systems Management 1999; 7(4):395-423.
[6]Sasisekharan, R., Seshadri, V., Weiss, S. Data mining and forecasting in large-scale
telecommunication networks. IEEE Expert 1996; 11(1):37-43.
[7]付峰. 應用數據挖掘技術的精確化營銷研究. 移動通信,2009(Z1).
[8]鄭英. 數據挖掘在電信業務精確營銷中的應用. 網絡安全技術與應用, 2008(10).
[9]施剛. 淺談數據挖掘在短信增值業務中的應用. 科技情報開發與經濟,2009(03).
[10]呂彥儒. 基于精確營銷的電信業交叉銷售實現方式研究. 移動通信,2008(09).
[11]馬繼華. 讓用戶發展用戶——3G營銷的最高境界. 信息網絡,2009(02).
[12]羨晨靜. 關聯規則分析在電信交叉銷售中的應用研究. 計算機工程與設計,2008(22).09942