一、引言
隨著計算機和網絡的迅速發展,教學方式也引起了很大的變化,各種基于網絡的教學模式也應用而生,遠程教育、多媒體教育等等。在多彩多姿的信息領域中,如何才能快速的學習到自己想要學習的知識,也成了一個令人困惑的問題,目前有很多學生,不再滿足于簡單、單調的課堂教學,他們需要通過快速的途徑來充實自己,而不僅僅只是限于課堂知識。另外現在有很多學生對知識有很強的需求,但是苦于沒有合適的學習機會,雖然,最近幾年,遠程教育也愈來愈多,可是還是很難滿足社會市場需求。個人學習目標的不同、學習能力的不同、認知風格不同。這就決定了網絡教育必定是一種個別化的教育,網絡教學也必須是一種適應個別化學習需求的個性化教學。然而,現有的基于Web的教育平臺并不能解決個別化學習之需求,所以也就無法對學習者實施個性化的遠程學習服務。為了給每個學生提供適合他們自己的學習內容,對網站提出了很高的要求,而達到這一目標的關鍵技術就是數據挖掘。所謂數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含的、人們事先不知道的但又是有用的信息和知識的過程。
二、系統實現
為了克服現在網絡教育的不足,更好的發揮網絡教學的優勢,本系統提出了一種智能化的Education系統,本系統能夠根據用戶的訪問信息,挖掘出用戶的興趣,從而提供給用戶個性化的學習內容。系統總共包含4個模塊:數據組織和表示、數據挖掘系統、個性化實現和預測模型。其功能結構圖如下:
1、 數據組織和表示
學生在訪問網站資源時,會在服務器上留下很多痕跡,這些痕跡就是我們研究學生訪問規律的資源,web服務器的日志可以記錄下學生訪問的網頁序列,同時每個學生在進行學習的時候會有一個注冊信息,通過這些信息我們也可以了解學生的情況:比如學生的年齡,學生的受教育情況,學生的學習興趣等等。網站的教學資源包含很多種類,有圖片,文字,視頻等很多信息。我們按不同的課程和資源類型進行分類,將所有這些教學資源采用關系型數據庫的形式存儲。
2、 數據挖掘系統
數據挖掘系統包含數據預處理和數據挖掘算法實現2部分。由于我們所采用的數據源并非都是關系型數據庫,所以在進行挖掘之前要進行數據預處理,即數據凈化、學生識別、會話識別、路徑補充和事務識別,整個數據挖掘流程見圖2。
所謂凈化是將無用的信息過濾掉,將不完整的信息補充完整。
學生識別:本系統的數據源主要有2個,一是用戶的注冊信息,二是服務器日志文件。對于注冊用戶,由于每個學生有一個用戶名,用戶名是唯一標識學生的身份的標志,用戶名不允許重復,所以另外考慮到有很多學生可能在沒有了解我們的網站之前,不愿意注冊,所以我們除了提供用戶名識別之外,還允許學生不進行注冊的學習方式,由于在日志文件只是記錄了主機或代理服務器的IP地址,不能精確的識別非注冊用戶,我們借助于cookie技術以及啟發式規則來識別非注冊用戶。
會話識別 在時間區段較大的Web服務器日志中,用戶有可能多次訪問該站點。會話識別的目的就是將用戶的訪問記錄劃分成單個的會話。一般采用超時識別,如果用戶請求的頁面之間的時間超過一定間隔,則認為用戶開始了一個新的會話。
路徑補充 確認Web日志中是否有重要的頁面訪問記錄被遺漏,這個問題的產生是由于Cache的存在所致。路徑補充的任務就是將這些遺漏的請求補充到用戶會話文件之中,也可以根據引用日志和網絡拓撲結構提供的信息把路徑補充完整。
事務識別 事務識別就是將用戶會話分割為割為更小的事務,也就是用戶會話中的每一次前進瀏覽的第一頁到回退的前一頁組成的路徑,所以我們可以結合網站的拓撲結構來分割事務,分割好的事務構成事務數據庫,是我們進行模式識別的基礎,下圖我們給出事務識別的流程圖
數據挖掘實現部分 1)學生分類 :本模塊的主要功能就是識別出用戶的訪問興趣,本系統采用分類算法將所有用戶按照興趣不同分為不同的小組。在用戶注冊時我們收集了用戶的興趣,并進行了處理保存在數據庫中,這樣就可以把用戶進行分類。近年來,數據挖掘分類算法主要有:決策樹,關聯規則,貝葉斯,神經網絡,k-臨近算法等,本系統采用關聯規則算法,主要是采用典型的Apriori算法實現關聯規則的挖掘,但由于學習者個別學習時具有很強的盲目性,學習者自己也不一定能準確的掌握自己的學習愛好,針對這部分學生,我們在使用分類時,增加了下述處理步驟:如果學習者選擇的愛好與其的實際愛好存在偏差那么將影響到學習者在本統上的學習。因此我們需從學習者大量的學習記錄中分析出用戶可能存在的學習興趣,并與學習者選擇的興趣相對比,如果相同則不進行任何操作。如果發現不同則需要給學習者加上系統分析的學習興趣,以便用戶在本系統上更好的進行學習。
另外為了能夠更好的將相同類型的網頁內容呈現給用戶,本系統對于網頁進行聚類分析。
2)網頁聚類 聚類算法時通過對變量的比較,把具有相似特征的數據歸于一類。因此,通過聚類以后,數據集就轉化為類集,在類集中同一類數據具有較高的相似性,不同類之間的數據具有不相似性,F存的文本聚類算法可以歸為兩類:分層式聚類和概念聚類。下面我們講述一種哈夫曼樹式的分層聚類法:我們假設有n篇文檔D={d1,d2,…,dn},首先把每篇文檔都看成是單獨的一類,所以有{c1,c2,…,cn}n類,每個類之間的相似度構成一個矩陣:
其中, 是ci,cj之間的相似度,在此矩陣中選取最大值 ,所對應的文檔類分別為cu,cv,將相似性最大的兩類合并為一個新的類ck。重復以上過程,直到只剩下一個類為止,最后構成一顆二叉樹,如圖2所示:
由于聚類的過程是構造一個二叉樹,所以效率不是很高。K-means、K-median算法則在一定程度上提高了效率,適合于處理Web這種具有大量數據的對象,詳細內容請參見文獻[2]。
3、個性化實現
個性化實現部分是本系統的顯示部分,在數據挖掘的基礎上,我們的系統中對于每個學生的學習興趣和學習進度都有記錄,根據每個學生的學習興趣和學習進度,將學生正在學習的內容和可能感興趣的內容以最簡單、最有效的方式展現在學生面前,避免了學生學習時為了找到自己所學的內容和進度必須一層一層的點擊超連接尋找的麻煩。
4、 預測模型
學生訪問了網頁a.html之后,必然會訪問網頁b.html,證明a.html和b.html之間有很強的關聯性,屬于同類的課程,我們可以根據學生的訪問序列將網頁分為一個個興趣點,針對很多學生學習時的盲目性,我們可以將相似內容的課程推薦給學生。在很多情況下,學生學習完了一門課程之后,不知道自己應該接著學習什么內容,不了解當前最新的技術。不了解該領域的前沿課題。我們應該可以根據學生的訪問序列和學生在進行注冊時提供的信息,給出一個預測模型,將學生有可能感興趣的最新的知識推薦給學生。
三、展望
隨著網絡技術的發展,網絡教育已經成為社會中必不可少的一種教學模式,但是由于網絡本身(盲目、安全等)的局限,網絡化的教育并沒有得到很好的發展,利用數據挖掘技術為學生提供個性化的教學模式,使學生在學習時處于主動地位,可以充分發揮出網絡教學的優勢。
<