時間:2023-03-22 17:34:36
導語:在數據挖掘技術分析論文的撰寫旅程中,學習并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優秀范文,愿這些內容能夠啟發您的創作靈感,引領您探索更多的創作可能。

【關鍵詞】GT4;Web Service;聚類分析
1.引言
計算機網絡技術的普及與應用給人們的生活帶來了翻天覆地的變化,同時在網絡上產生了大量雜亂無章的數據。而網格技術、Web技術的發展,為人們從分布的網絡資源中尋找有價值的信息提供了新的技術支持,同時也產生了許多基于網格的數據挖掘系統。而數據挖掘算法又是決定一個數據挖掘系統性能的主要衡量指標。任何軟件系統的設計都離不開算法,數據挖掘技術的執行效率也與數據挖掘算法有關,隨著數據庫技術與數據挖掘技術的成熟與發展,像分類、聚類、決策樹、關聯等等數據挖掘算法已相當成熟,可以研究借鑒現有數據挖掘方法、數據挖掘模式、數據挖掘流程,建立一個基于網格的數據挖掘系統。筆者以眾多數據挖掘算法中的聚類分析算法為例,介紹基于GT4(Globus Tookit 4.0的簡稱,GT4的核心開發工具包(Java Web Service Core))的數據挖掘算法的設計過程。
聚類分析(Clustering Analysis)是一個應用比較廣泛的數據挖掘算法,算法的理論研究與實踐應用都已經很成熟,把這一成熟的理論應用于基于網格的分布式系統中,會大大提高數據挖掘的效率。本文主要研究如何將聚類分析的CURE(Cluster Using Representation)算法和K-平均方法算法應用于基于GT4數據挖掘系統中。
2.系統結構設計
基于GT4數據挖掘系統的數據源是分布式數據源,分布式數據源是指在物理上分布而邏輯上集中的數據源系統。在該系統中,處在這個網格中的每臺計算機就是這個網格的一個節點,稱之為網格節點。在眾多的節點中,要有一個網格節點來控制和管理其他的節點,這個節點就叫做網格中心控制節點,決策支持都是由網格中心控制節點完成的。如果要完成某個數據挖掘任務,則可以由空閑的網格節點先按挖掘需求來完成本節點的挖掘任務,再由網格中心控制節點來匯總每個節點的數據挖掘情況。局部網格節點管理的信息具有局限性,涉及的范圍較小,主要完成單個節點數據的管理,對局部的數據挖掘結果進行匯總分析,但是這些局部節點的數據與全局節點的數據又是有一定關聯的。根據以上的分析可知,網格平臺下的數據挖掘任務由全局數據挖掘與局部數據挖掘共同完成。
3.算法的Web Service設計
3.1 全局聚類算法的Web Service設計
網格環境下的全局控制網格節點與局部網格節點間的關系我們可以理解為上下層的關系,這樣就可以借鑒基于層次的聚類分析算法,按照層次的自底向上的聚類方式,把全局控制節點當成是層次聚類的頂層。本課題全局聚類算法借鑒傳統的利用代表點聚類算法CURE。
CURE算法將層次方法與劃分方法結合到一起,選用有代表性的、固定數目的空間點來表示一個聚類。算法在開始時,每個點都是一個簇,然后將距離最近的簇結合,一直到簇的個數為要求的K。首先把每個數據點即局部網格節點看成一個聚類,然后再以一個特定的收縮因子向中心收縮它們。
CURE算法的主要執行步驟如下:
(1)從數據源樣本對象中隨機抽取樣本集,生成一個樣本集合S;
(2)將樣本集合S分割為一組劃分,每個劃分大小為S/p;
(3)對每個劃分部分進行局部聚類;
(4)通過隨機采樣剔除聚類增長太慢的異常數據;
(5)對局部聚類進行聚類,落在每個新形成的聚類中的代表性點,則根據用戶定義的收縮因子收縮或移向聚類中心;
(6)用相應的標記對聚類中的數據標上聚類號。
有了數據挖掘算法,就可以完成數據挖掘任務了。全局聚類算法的主要功能是響應用戶的數據挖掘請求,將對應的請求發送給局部網格節點,將局部網格節點的挖掘結果整理輸出。全局聚類算法Web Service資源的結構包括算法Web Service接口、算法資源屬性文檔、算法功能實現和算法功能四個部分。
利用傳統的聚類算法完成全局的數據的并行挖掘最重要的一步就是將全局聚類算法部署到GT4中,完成全局聚類算法的Web Service設計要經過過以下幾步:
第一步:用WSDL(Web Service描述語言,是Web Service提供的XLM語言)來描述數據挖掘服務接口,該服務接口可以用Java來定義,利用Java-to-WSDL工具把Java定義的接口轉為WSDL文件。
第二步:用Java編寫全局聚類算法(CURE)代碼;
第三步:用WSDD配置文件和JNDI(GT4自帶文件)部署文件;
第四步:用Ant工具打包上面的所有文件,生成一個GAR文件;
第五步:向Web Service容器部署全局數據挖掘服務。
3.2 局部聚類算法的Web Service設計
局部聚類算法的主要功能是完成局部網格節點的數據挖掘任務,并把數據挖掘結果上傳到全局控制節點。局部網格節點的數據挖掘任務與傳統的單機數據挖掘任務類似,本課題局部聚類算法使用傳統的聚類算法K-平均方法,以K為參數,把N個對象分為K個簇,簇內具有較高的相似度,而簇間的相似度較低[34]。本論文的數據挖掘任務主要是由局部網格節點實現的,下面就詳細的介紹K-平均算法的主要執行過程如下:
(1)從數據集中任意選擇K個對象作為各個簇的初始中心。
(2)根據現有的簇中心情況,利用距離公式計算其他對象到各個簇中心的距離。(可選的距離公式有:歐幾里、行德公式、距離公式、曼哈坦距離公式、明考斯基距離公式)。
(3)根據所得各個對象的距離值,將對象分配給距離最近的中心所對應的簇。
(4)重新生成各個簇的中心。
(5)判斷是否收斂。如果收斂,即簇不在發生變化,那么停止劃分,否則,重復(2)到(5)。
K-平均算法是一個經典的聚類算法,將K-平均算法部署到GT4中,完成局部聚類算法的Web Service設計,部署方法與全局算法相似。
4.結論
基于GT4的數據挖掘系統中的數據挖掘服務資源有網格的中心控制節點(即全局節點)進行統一的管理,在局部網格節點挖掘過程中,根據其處理能力分配最佳的數據集給局部節點,從而使整個系統的計算負載相對均衡。其數據挖掘系統的規模可隨著服務的多少動態伸縮。當系統要增加新的局部挖掘節點時,只需部署局部Web Service資源即可。將網格應用到分布式數據挖掘系統中,建立一個基于網格的數據挖掘系統,必將使其在各個領域都得到廣泛的應用。
參考文獻
[1]薛勝軍,馬廷淮,劉文杰.Globus Tookit 4:Java網格服務編程[M].北京:清華大學出版社,2009.
關鍵詞:數據倉庫,數據挖掘,電子政務
在電子政務信息建設中已經有了成功的電子政務業務處理和信息管理系統,卓有成效的過程控制指揮系統和辦公自動化系統。但從電子政務全局的高層次和大范圍的分析角度去審視,則感到數據分散,難以整合。因此,研究電子政務數據倉庫和數據挖掘很有必要。
1.電子政務信息建設的數據倉庫
電子政務數據倉庫是電子政務信息架構的新焦點,它提供集成化的和歷史化的電子政務業務數據;它集成種類不同的電子政務應用系統;電子政務數據倉庫從事物發展和歷史角度來組織和存儲電子政務數據,以供信息化和分析處理之用。它是對現有電子政務信息系統深刻認識的結果,來自異地、異構的電子政務數據源或數據庫的數據經過加工后在電子政務數據倉庫中存儲、提取和維護。傳統的電子政務數據庫主要面向業務處理,而電子政務數據倉庫面向復雜數據分析、高層決策支持。電子政務數據倉庫提供來自種類不同的電子政務應用系統的集成化和歷史化的數據,為全局范圍的電子政務戰略決策和社會治安長期趨勢分析提供有效的支持。免費論文參考網。目前,經過近20年的建設,全國電子政務信息系統建設已經積累了大量數據,對于電子政務工作起了意義深遠的推動作用,電子政務工作已經初步進入了數字化、電子化、信息化,極大地提高了電子政務工作的效率。以土地管理為例,現在的管理方式是以前不能比擬的。但是,如何將這些數據用于全局范圍的戰略決策和長期趨勢分析,則是需要進一步解決的問題。例如,土地問題,近年來始終與住房問題、物價問題和就業問題一起,成為全國人民非常關心的問題,其問題有表面的原因,也有深刻的歷史原因和現實原因。如何花較少的代價,將此問題解決得圓滿一些,建設電子政務數據倉庫是一重要手段。免費論文參考網。
電子政務數據倉庫是一種全新的分布式異構數據系統的集成方法:把各個信息源中與決策支持有關的數據,預先經過提取、轉換、過濾,并與相應信息源中其它數據進行合并,按主題存放在一個中央數據庫中,當用戶需要查詢時,可以直接訪問中央數據庫,不必訪問其它數據源。
電子政務數據倉庫包括3個基本的功能部分。數據獲取:從電子政務一線數據源獲取數據,數據被區分出來,進行拷貝或重新定義格式等處理后,準備載入電子政務數據倉庫。數據存儲和管理:負責電子政務數據倉庫的內部維護和管理,包括數據存儲的組織、數據的維護、數據的分發。信息訪問:屬于電子政務數據倉庫的前端,面向用戶------提取信息、分析數據集、實施決策。進行數據訪問的工具主要是查詢生成工具、多維分析工具和數據挖掘工具等。
電子政務數據倉庫的特點:針對全局電子政務業務戰略分析,非常詳細的數據,第三范式數據結構,高層次和大范圍的分析,詳細的歷史信息,存儲和管理大量的數據,整個數據結構統一,索引較少。
因此,原來對分布式異構數據的復雜訪問變成直接在該倉庫上進行即席查詢的簡單操作:用戶需要某些指定信息和快速查詢,但不一定要最新信息,在這個環境中需要高性能和訪問信息源中不能長期保存的信息。
電子政務數據倉庫是一個比傳統解決方法更為有效的集成技術,即對感興趣的數據及其變化預先提取并按公共模式集成到一個中央數據庫中,由于分布和異構問題被提前解決,用戶可以在中央數據倉庫上進行高效的查詢或分析。
由于電子政務數據倉庫的體系結構,必須照顧電子政務已有的信息系統的體系結構,以及相關的基礎設施,因此,確定電子政務數據倉庫的體系結構,必須兼顧用戶需求的多變性、基礎設施的復雜性、技術更新的步伐。數據倉庫本身可以使用通用的或者特別要求的數據庫管理系統來實現。盡管在圖中表示的是一個單獨的、中央化的數據倉庫,實際上,為了達到理想的性能,分布式和并行性往往是必然的選擇。
電子政務數據倉庫技術中一些比較重要的問題是:數據倉庫管理,數據源和數據倉庫的演化,復制帶來的不一致,過期數據處理等。電子政務數據倉庫管理涉及電子政務數據倉庫開發的各個階段,與之相關的問題涉及電子政務數據倉庫設計、數據裝載、元數據管理等。數據源和數據倉庫演化,則是研究電子政務數據倉庫體系結構如何順利處理信息源的變化問題,如模式變化、新信息源加入,舊信息源刪除等。復制不一致,是指從各個信息源拷貝來的同一信息或者相關信息出現的不一致,一般用集成器對這些數據進行清理。對于電子政務數據倉庫中的數據,可能會保存很多年,但是一般不會永遠保留下去,這就要求研究比較可靠的技術以保證過期的數據,可以自動而有效地從電子政務數據倉庫中被清除出去。
2.電子政務數據挖掘一般方法
電子政務部門在過去若干年的時間里都積累了海量的、以不同形式存貯的數據資料,例如戶籍資料、土地資料和規劃管理資料等。此外,電子政務工作所涉及到的數據類型是相當復雜的,例如:用地指數,其特征抽取相當復雜;土地配置規律特點,其數據聯系是非平面的,也是非標準立體的。由于這些資料十分繁雜,要從中發現有價值的信息或者知識,達到為決策服務的目的,成為非常艱巨的任務。電子政務數據挖掘一般方法的提出,讓用戶有能力最終認識數據的真正價值,即蘊藏在數據中的信息和知識。
電子政務數據挖掘是按照既定的電子政務業務目標,對大量的數據進行探索、揭示隱藏其中的規律性并進一步將其模型化的先進、有效的方法。數據是按照電子政務數據倉庫的概念重組過的,在電子政務數據倉庫中的數據、信息才能最有效的支持電子政務數據挖掘。因此,首先從正在運行的電子政務計算機系統中完整地將數據取出;其次各個環節的數據要按一定的規則有機、準確地銜接起來,以極易取用的數據結構方式,全面地描述該業務目標。
電子政務數據挖掘就是從大量的、不完全的、模糊的、有噪聲的、隨機的數據中,提取隱含在其中的、事前不知道的、但是潛在有用的信息和知識的過程。電子政務數據挖掘技術是面向應用的,不僅面向特定數據庫的簡單檢索和查詢調用,而且要對這些數據進行微觀和宏觀的分析、統計、綜合和推理,從中發現事件間的相互關系,對未來的活動進行預測。
3.基于電子政務數據倉庫的數據挖掘
基于電子政務數據倉庫的數據挖掘的方法,是以電子政務數據倉庫為中心,各信息源由原始數據庫,經過打包和集成到電子政務數據倉庫;基于電子政務數據倉庫的數據挖掘,是通過模型庫和方法庫的協助,對電子政務數據倉庫進行數據挖掘,從而獲得分析預測結果和決策支持的。
基于電子政務數據倉庫的數據挖掘的特點:1、規模: 電子政務數據倉庫中集成和存儲著來自若干分布、異質的信息源的數據。免費論文參考網。這些信息源本身就可能是一個規模龐大的電子政務數據庫,可以想象數據倉庫會有比一般數據庫系統更大的數據規模。如何從如此巨量的數據中有效的提取有用信息,需要各方面技術的進步。從當前發展來看,支持并行處理的分布式DBMS、具有大規模并行處理(MPP)能力的計算機、超大規模的存儲機構等技術的發展和協同將使電子政務數據倉庫走向實用。2、歷史數據:傳統的電子政務數據庫系統為了獲得最大的執行效率,往往存儲盡可能少的數據量。因為,擁有的數據越多,數據組織、重構、瀏覽、索引和監控的難度越大。傳統電子政務數據庫系統在“時間”方向的長度很有限。比較而言,電子政務數據倉庫的根本特征之一就是進行長時間的歷史數據存儲,這使得可以進行數據長期趨勢的分析。電子政務數據倉庫為長期決策行為提供了獨一無二的支持,電子政務數據倉庫中的數據在時間方向上具有大的縱深性。3、數據集成和綜合性:從全局的角度看,數據倉庫集成了電子政務內各部門的全面的、綜合的數據。電子政務數據挖掘面對的是關系更加復雜的全局模式的知識發現,能更好地滿足高層戰略決策的要求。在電子政務數據倉庫中,數據已經被充分收集起來了,進行了整理、合并,有些還進行了初步的分析處理。另外,電子政務數據倉庫中對數據不同粒度的集成和綜合,更有效地支持了多層次、多種知識的挖掘。4、查詢支持 電子政務數據倉庫面向決策支持,電子政務數據倉庫的體系結構努力保證查詢(Query)和分析的實時性。電子政務數據倉庫設計成只讀方式,用戶可以直接訪問電子政務數據倉庫,挖掘過程可以做到實時交互,使決策者的思維保持連續,挖掘出更深入、更有價值的知識。
電子政務數據倉庫和數據挖掘是將來電子政務智能化的基礎,可以幫助用戶得到他們想知道的信息,有些數據也許隱藏人們意想不到的信息,數據挖掘就是讓用戶發現這些隱藏信息的工具。電子政務數據倉庫和數據挖掘研究和應用所面臨的主要問題:挖掘的對象:更大型的數據庫、更高的維數和屬性之間的復雜關系;多種形式的輸入數據;用戶參與和領域知識的融合;證實(Validation)技術;知識的表達和解釋機制;知識的更新和維護;多平臺支持、與其他系統的集成。
近年來,電子政務利用信息技術的能力大幅度提高,大量數據庫被用于土地管理和城市規劃。為了利用這一巨大的信息資源,從中及時發現有用的知識,提高信息的價值,使數據真正成為電子政務的有力武器,為電子政務自身的業務決策和戰略發展服務,電子政務數據倉庫和數據挖掘是現在和將來的一個重要發展方向。
論文摘要:隨著數據庫技術和人工智能技術的不斷進步,數據挖掘技術逐步發展起來,作為當前計算機信息技術中的一項較為新興的技術,綜合運用了數理統計、模式識別、計算智能、人工智能等多項先進技術,主要是從大量的數據中來發現和挖掘一些隱含的有價值的知識,從大型的數據庫數據中挖掘一些人們比較感興趣的知識,本文主要講了數據挖掘技術的概念、數據挖掘技術在保護設備故障信息中的實現方法以及數據挖掘技術保護設備故障信息管理的基本功能等問題。
數據挖掘技術作為當前計算機信息技術中的一項較為新興的技術,綜合運用了數理統計、模式識別、計算智能、人工智能等多項先進技術,主要是從大量的數據中來發現和挖掘一些隱含的有價值的知識,也就是從大型的數據庫數據中挖掘一些人們比較感興趣的知識,這些被提取的知識通常會表現為模式、規律、規則和概念,將數據挖掘的所有對象定義成數據庫或者是文件系統以及其他的一些組織在一起的數據集合,數據挖掘技術也是現在智能理論系統的重要研究內容,已經開始被應用于行政管理、醫學、金融、商業、工業等不同的領域當中,在保護設備故障信息管理方面發揮出了積極的作用。
一、數據挖掘技術的概念
隨著數據庫技術和人工智能技術的不斷進步,數據挖掘技術逐步發展起來,主要是指從大量的數據中發現和挖掘一些隱含的有價值的有用信息和知識,這些被提取的知識通常會表現為模式、規律、規則和概念,將數據挖掘的所有對象定義成數據庫或者是文件系統以及其他的一些組織在一起的數據集合,當前數據挖掘技術已經逐漸被應用于了醫藥業、保險業、制造業、電信業、銀行業、市場營銷等不同的領域,隨著計算技術、網絡技術以及信息技術的不斷進步,在故障診斷過程中所采集到的數據可以被廣泛地存儲在不同的數據庫當中,如果依然采用傳統的數據處理方法來對這些海量的信息數據進行分析處理,不僅會浪費大量的實踐而且也很難挖掘到有效的信息數據,同時,盡管智能診斷以及專家系統等方式在故障的診斷過程中已經被得到了廣泛的應用,但是這些方法卻仍然存在著很多推理困難、知識瓶頸等一些尚未完全被解決的問題,采用數據挖掘技術就可以比較有效地來解決這些難題,在故障診斷的過程中發揮其獨特的優勢。wWW.133229.Com從不同的角度進行分析,數據挖掘技術可以分為不同的方法,就目前的發展現狀來看,常用的數據挖掘技術方法主要有遺傳算法、粗集方法、神經網絡方法以及決策樹方法等。
二、數據挖掘技術在保護設備故障信息中的實現方法
1.基本原理。在設備出現故障時采用數據挖掘技術對設備進行一系列的故障診斷,也就是說根據這一設備的運行記錄,對其運行的趨勢進行預測,并對其可能存在的運行狀態進行分類,故障診斷的實質就是一種模式識別方式,對機器設備的故障進行診斷的過程也就是該模式匹配和獲取的過程。
2.對故障診斷的數據挖掘方法建模。針對機械故障的診斷來說,首先就應當獲取一些關于本機組的一些運行參數,既要包括機器在正常運行以及平穩工作時的信息數據,也應當包括機器在出現故障時的一些信息數據,在現場的監控系統中往往就會存在著相應的正常工作狀態下以及出現故障時的不同運行參數,而數據挖掘的任務就是從這些雜亂無章的信息樣本庫中找出其中所隱藏著的內在規律,并且從中提取各自故障的不同特征,在對故障的模式進行劃分時,我們通常可以借助概率統計的方式,在對故障模式進行識別時可以采用較為成熟的關聯規則理論,實現變量之間的關聯關系,并最終得到分類所需要用到的一些規則,從而最終達到分類的目的,依據這些規則,就可以對一些新來的數據進行判斷,而且可以準確地對故障進行分類,找出故障所產生的原因和解決故障的正確方法。
三、數據挖掘技術保護設備故障信息管理的基本功能
1.數據傳輸功能。數據挖掘技術保護設備故障信息管理與分析系統的主要數據來源就是故障信息的分站系統,而分站系統中的數據是各個子站的一個數據匯總,而保護設備故障信息管理與分析系統所采用的獲取數據的主要方式就是一些專門的通信程序構建起系統與分站之間的聯系,將分站上的一些匯總數據傳輸到故障信息系統的數據庫中,分析系統所具有的數據傳輸功能,在進行數據的處理時又能做到不影響原先分站數據庫的正常運行,并且具備抗干擾能力強、計算效率高的優點。
2.數據的分析功能。系統在正常運行時,會從故障信息子站或者是分站采集相關的數據并且對這些采集到的數據進行分析整理,最終得到有用的數據信息,利用數據挖掘技術對龐大的故障數據進行分析、分類以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對信息進行有效地存儲和分類。另外,數據挖掘技術還具有信息查詢的功能,可以進行不同條件下的查詢,例如按時間段、報告類型、設備型號以及單位等進行查詢,實現查詢后的備份轉存等,根據故障信息系統所提供高的數據信息以及本系統庫中所保存的一些整定阻抗值,可以通過邏輯判斷生產繼電保護動作的分析報告,主要包括對故障過程的簡述、故障切除情況以及保護動作情況等,可以便于繼電保護人員直觀的對保護裝置的動作情況進行分析。
四、結語
隨著企業自動化程度的不斷提高以及數據庫技術的迅速發展,很多企業在一些重要的設備方面都安裝了監測系統,對設備運行過程中的一些重要參數和數據進行采集,采用數據挖掘技術可以有效地解決設備故障診斷中的一些知識獲取瓶頸,將數據挖掘系統充分應用到監控系統中,有效解決故障診斷中的一些困難,事實證明,將數據挖掘技術應用到故障診斷中是非常有效的,也是值得研究和學習的新型技術手段。
參考文獻:
[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數據挖掘技術的保護設備故障信息管理與分析系統[j].電力自動化設備,2011,9
[2]李建業,劉志遠,蔡乾,趙洪波.基于web的故障信息系統[j].電力信息化,2007,s1
論文關鍵詞:數據挖掘;電子商務;Web數據挖掘
1 引言
當前,隨著網絡技術的發展和數據庫技術的迅猛發展,有效推動了商務活動由傳統活動向電子商務變革。電子商務就是利用計算機和網絡技術以及遠程通信技術,實現整個商務活動的電子化、數字化和網絡化。基于Internet的電子商務快速發展,使現代企業積累了大量的數據,這些數據不僅能給企業帶來更多有用信息,同時還使其他現代企業管理者能夠及時準確的搜集到大量的數據。訪問客戶提供更多更優質的服務,成為電子商務成敗的關鍵因素,因而受到現代電子商務經營者的高度關注,這也對計算機web數據技術提出了新的要求,Web 數據挖掘技術應運而生。它是一種能夠從網上獲取大量數據,并能有效地提取有用信息供企業決策者分析參考,以便科學合理制定和調整營銷策略,為客戶提供動態、個性化、高效率服務的全新技術。目前,它已成為電子商務活動中不可或缺的重要載體。
2 計算機web數據挖掘概述
2.1 計算機web數據挖掘的由來
計算機Web數據挖掘是一個在Web資源上將對自己有用的數據信息進行篩選的過程。Web數據挖掘是把傳統的數據挖掘思想和方法移植到Web應用中,即從現有的Web文檔和活動中挑選自己感興趣且有用的模式或者隱藏的數據信息。計算機Web數據挖掘可以在多領域中展示其作用,目前已被廣泛應用于數據庫技術、信息獲取技術、統計學、人工智能中的機器學習和神經網絡等多個方面,其中對商務活動的變革起到重大的推動作用方面最為明顯。
2.2 計算機Web數據挖掘含義及特征
(1) Web數據挖掘的含義。
Web 數據挖掘是指數據挖掘技術在Web 環境下的應用,是一項數據挖掘技術與WWW技術相結合產生的新技術,綜合運用到了計算機語言、Internet、人工智能、統計學、信息學等多個領域的技術。具體說,就是通過充分利用網絡(Internet),挖掘用戶訪問日志文件、商品信息、搜索信息、購銷信息以及網絡用戶登記信息等內容,從中找出隱性的、潛在有用的和有價值的信息,最后再用于企業管理和商業決策。
(2)Web數據挖掘的特點。
計算機Web數據挖掘技術具有以下特點:一是用戶不用提供主觀的評價信息;二是用戶“訪問模式動態獲取”不會過時;三是可以處理大規模的數據量,并且使用方便;四是與傳統數據庫和數據倉庫相比,Web是一個巨大、分布廣泛、全球性的信息服務中心。
(3)計算機web數據挖掘技術的類別。
web數據挖掘技術共有三類:第一類是Web使用記錄挖掘。就是通過網絡對Web 日志記錄進行挖掘,查找用戶訪問Web頁面的模式及潛在客戶等信息,以此提高其站點所有服務的競爭力。第二類是Web內容挖掘。既是指從Web文檔中抽取知識的過程。第三類是Web結構挖掘。就是通過對Web上大量文檔集合的內容進行小結、聚類、關聯分析的方式,從Web文檔的組織結構和鏈接關系中預測相關信息和知識。
3 計算機web數據挖掘技術與電子商務的關系
借助計算機技術和網絡技術的日臻成熟,電子商務正以其快速、便捷的特點受到越來越多的企業和個人的關注。隨著電子商務企業業務規模的不斷擴大,電子商務企業的商品和客戶數量也隨之迅速增加,電子商務企業以此獲得了大量的數據,這些數據正成為了電子商務企業客戶管理和銷售管理的重要信息。為了更好地開發和利用這些數據資源,以便給企業和客戶帶來更多的便利和實惠,各種數據挖掘技術也逐漸被應用到電子商務網站中。目前,基于數據挖掘(特別是web數據挖掘)技術構建的電子商務推薦系統正成為電子商務推薦系統發展的一種趨勢。
4 計算機web數據挖掘在電子商務中的具體應用
(1)電子商務中的web數據挖掘的過程。
在電子商務中,web數據挖掘的過程主要有以下三個階段:既是數據準備階段、數據挖掘操作階段、結果表達和解釋階段。如果在結果表達階段中,分析結果不能讓電子商務企業的決策者滿意,就需要重復上述過程,直到滿意為止。
(2)Web數據挖掘技術在電子商務中的應用。
目前,電子商務在企業中得到廣泛應用,極大地促進了電子商務網站的興起,經過分析一定時期內站點上的用戶的訪問信息,便可發現該商務站點上潛在的客戶群體、相關頁面、聚類客戶等數據信息,企業信息系統因此會獲得大量的數據,如此多的數據使Web數據挖掘有了豐富的數據基礎,使它在各種商業領域有著更加重要的實用價值。因而,電子商務必將是未來Web數據挖掘的主攻方向。Web數據挖掘技術在電子商務中的應用主要包含以下幾方面:
一是尋找潛在客戶。電子商務活動中,企業的銷售商可以利用分類技術在Internet上找到潛在客戶,通過挖掘Web日志記錄等信息資源,對訪問者進行分類,尋找訪問客戶共同的特征和規律,然后從已經存在的分類中找到潛在的客戶。
二是留住訪問客戶。電子商務企業通過商務網站可以充分挖掘客戶瀏覽訪問時留下的信息,了解客戶的瀏覽行為,然后根據客戶不同的愛好和要求,及時做出讓訪問客戶滿意的頁面推薦和專屬性產品,以此來不斷提高網站訪問的滿意度,最大限度延長客戶駐留的時間,實現留住老客戶發掘新客戶的目的。
三是提供營銷策略參考。通過Web數據挖掘,電子商務企業銷售商能夠通過挖掘商品訪問情況和銷售情況,同時結合市場的變化情況,通過聚類分析的方法,推導出客戶訪問的規律,不同的消費需求以及消費產品的生命周期等情況,為決策提供及時而準確的信息參考,以便決策者能夠適時做出商品銷售策略調整,優化商品營銷。
四是完善商務網站設計。電子商務網站站點設計者能夠利用關聯規則,來了解客戶的行為記錄和反饋情況,并以此作為改進網站的依據,不斷對網站的組織結構進行優化來方便客戶訪問,不斷提高網站的點擊率。
關鍵詞:聚類分析算法 應用研究 算法描述
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1007-9416(2016)10-0143-01
聚類分析(Cluster Analysis)就是將一組物理事物或抽象對象按照某種聚類規則或檢驗度量函數標準劃分不同聚集組別的過程,其中被劃分的若干相對獨立的組為一個類,是一種無監督的學習方法。聚類分析方法是數據挖掘技術中的數據分析普遍運用方法之一,其功能最終實現被研究數據按照相關聚類分析算法進行聚類,對聚類的事物對象,最終要達到相似度大的對象在同一個聚類群組中,相似度小的對象在不同的聚類群組中,從而歸納出聚類數據對象的特征性。聚類分析中的“類(Cluster)”就是一組相似度較高的數據集合。聚類分析能夠將一組事物或數據按照聚類算法規則進行聚類處理,根據聚類算法規則的不同而實現各自側重的聚類分析結果。
1 聚類分析算法
根據聚類對象數據類型的不同,聚類分析分為R型聚類和Q型聚類,R型聚類是對變量型數據的聚類分析,Q型聚類是對具體觀測值數據的聚類分析。對數據對象的聚類分析要借助于聚類分析算法來實現完成,聚類分析算法的基本定義為:
目標數據集合,對于數據集合中的任一數據元素,具有個特征屬性,任一數據元素的屬性特征向量集表示為。通過特定的數據分析處理準則對目標數據集進行聚類處理后,目標數據集被劃分成具有個子集的數據類集合,,聚類結果數據集必須滿足:
根據聚類分析所采取分析方法的不同,聚類分析算法分為基于劃分的聚類分析算法、基于層次的聚類分析算法、基于密度的聚類分析算法、基于網格的聚類分析算法、基于模型的聚類分析算法。
2 K―means聚類分析算法描述
對于給定包含個數據對象的數據集,按照標準偏移量的目標函數進行劃分,形成K個聚類。具體操作過程為:
第一步:數據規范化處理。對數據對象進行規范化預處理,消除非法值及極值影響。
第二步:數據準備。計算各科標準差:
第三步:計算各初始聚類中心。
第四步:計算與聚類中心最近鄰的數據對象,并合并成新類。
第五步:重新計算聚類中心值。
第六步:驗證聚類收斂性。
if 聚類中心值o新變化
結束聚類 else 轉入第四步 endif
第七步:進行各個類數據分析。
3 結語
總之,聚類分析算法是數據挖掘中一種常用算法,在數據挖掘過程中有很多算法,每種算法都有自己的優缺點,數據挖掘是一項極其復雜過程,一般情況我們都是多種算法結合起來一起應用,目的提高工作效率,提高數據挖掘的準確性,數據挖掘技術在我國應用領域比較廣,并且取得一定成績,在當今大數據時代,研究數據挖掘具有一定的現實意義,具有深遠的研究價值。
參考文獻
[1]吳多智.基于語義的手機類產品用戶評論維度挖掘研究[J].安徽電子信息職業技術學院學報,2016(03).
[2]孫永輝.聚類分析在學生成績分析中的應用[J].中國管理信息化,2016(06).
[3]巨曉璇,鄒小斌,屈直,劉春敏.層次聚類算法在氣象客戶細分中的應用[J].河南科技,2015(11).
[4]許進文.數據挖掘中聚類分析算法及應用研究[J].計算機光盤軟件與應用,2013(06).
關鍵詞:Web日志挖掘;聚類;K-均值算法
1 Web日志挖掘
1.1 Web日志挖掘簡介
嚴格的說,Web日志挖掘是Web使用模式挖掘的一種,就是通過對Web日志記錄的挖掘,發現用戶訪問Web頁面的模式,從而進一步分析和研究Web日志記錄中的規律,以期改進Web站點的性能和組織結構,提高用戶查找信息的質量和效率,并通過統計和關聯的分析找出特定用戶與特定地域、特定時間、特定頁面等要素之間的內在聯系。
1.2 Web日志挖掘的過程
Web日志的挖掘過程一般包括數據預處理、模式識別和模式分析三個階段。如下圖所示:
(1)數據預處理
Web日志挖掘的第一個步驟就是搜集原始數據,由于Web日志數據的特殊性,而且為了保證數據分析的準確性和數據挖掘算法的有效性,在數據分析之前必須要對搜集到的原始數據進行預處理,即將原始的日志文件經過數據清理、用戶識別、會話識別、路徑補充和事務識別等幾個步驟,轉化成可供數據挖掘階段使用的事務數據庫,以此保證模式分析階段使用的數據是規則的、準確的、干凈的、簡潔的和完整的源數據,從而提高數據挖掘的精度和性能。
(2)模式識別
模式識別階段就是運用各種技術和算法從預處理后的數據中挖掘和發現用戶使用的各種潛在的規律和模式的過程。這一階段使用的技術和算法來自各個領域,如:數據挖掘領域、社會學和統計學等領域。但是,需要注意的是,針對Web數據的特殊性,不同領域的算法和技術如果要拿過來使用的話,必須進行相應的改善,才能更好的發揮算法的優越性。在Web日志挖掘的模式識別階段,常采用的技術有統計、關聯規則、序列模式、聚類和依賴關系等。
(3)模式分析
模式分析階段是從所挖掘的大量規則或者模式中進行分析,找出用戶感興趣的模式。目前,模式分析階段的工作主要借助合適的技術和工具來輔助分析人員的理解,所以開發各種分析技術和工具也是非常必要的。
目前,常用的模式分析技術有以下幾種:
① 知識查詢:對挖掘出的大量模式,需要一種類似關系數據庫SQL的知識查詢機制使用戶可以很方便的查詢到想要的模式,從而使解釋和分析有針對性。
② 聯機分析處理(OLAP):把Web使用數據裝入數據倉庫,以便執行OLAP操作,以獲得用于預測用途的模式和趨勢。
③ 可視化技術(Visualization):可視化技術在其它領域應用中己經取得巨大成功,因此人們很自然的選擇它來理解Web用戶的行為。
1.3 Web日志挖掘技術
(1)聚類算法
聚類是將物理或抽象對象的集合分成由類似的對象組成的多個類的過程。由聚類所生成的簇是一組數據對象的集合,這些對象與同一個簇中的對象彼此相似,與其它簇中的對象相異。一般的,一個群體就是一個類。
(2)分類算法
分類就是對數據庫中的每一類數據挖掘出關于該數據的描述和模型,而這些數據庫中的類是事先建立起來的。在Web日志挖掘中,分類技術可以根據用戶注冊信息或共同的訪問模式進行分類,得出訪問某一服務器文件的用戶特征。
(3)關聯規則
關聯規則通常用在事務數據庫當中,每個事務由若干事務數據項組成。它定義了數據項中的所有關聯和相互關系,即事務中一組數據項的出現可能標志著其它數據項的出現。在Web日志挖掘中,關聯規則可以發現某個用戶生成的服務器文件中不同引用之間的關系。
(4)序列模式技術
序列模式挖掘旨在從時間序列數據庫中挖掘出用戶行為模式。因為用戶的一次訪問會在Web服務器記錄一段時間,所以序列模式分析技術可以確定一段時間內所有客戶訪問特定頁面所共有的特征。在Web日志挖掘中,序列模式挖掘著重尋找的是用戶頁面訪問序列隨時間推移發生的變化,目的是挖掘出用戶訪問會話之間的變化規律。
(5)路徑分析技術
路徑分析技術是利用鏈接記錄文件項來決定每個訪問者的路徑,并將路徑按時間順序排序。在設計Web站點的合理布局時,圖的節點表示Web頁面,有向邊表示頁面的超鏈接。其它各式各樣的圖也是建立在頁面與頁面之間的聯系或者是一定數量的用戶瀏覽頁面順序的基礎上的。
2改進的算法和原始的K-均值算法的性能比較
由于聚類分析中的類不是事先給定的,而是根據數據的相似性和距離來劃分,因此,衡量一個聚類算法的優越性,我們可以從整個簇的純度、簇內相似度和簇間相異度幾個方面去比較[50]。本次實驗的數據來源為依據河南商業高等專科學校的Web日志文件建立的數據表。
2.1 純度比較
衡量改進算法的優越性,我們可以使用常用的純度(Purity) [51]來度量。設簇Ci的大小為ni,則該簇的純度定義為:
其中ni’表示簇Ci 與第j類的交集的大小,整個簇類的純度定義為:
其中k為聚類最終形成的簇的數目。
通過反復聚類實驗得到改進算法和原始K-均值算法的純度比較值,如下表所示:
通過比較發現,改進的算法在純度和穩定性方面都要優于原來的K-均值聚類算法。
2.2 簇內相似度的比較
一個好的聚類方法應當產生高質量的聚類,即簇內的相似度要高。簇內相似度即是簇內任意數據項與簇內中心點的距離,該距離越小,證明簇內的數據項越緊密,算法的優越性越好。簇內相似度的計算公式采用馬氏距離進行計算。通過反復聚類實驗得到改進算法和原始K-均值算法的簇內相似度的比較,如下表所示:
通過比較發現,改進的算法在簇內相似度方面要優于原來的K-均值算法,即使用改進的聚類算法得到的簇內部比較緊密。
2.3 簇間相異度的比較
一個好的聚類方法除了要保證簇內具有較高的相似度以外,而且還要保證簇間具有較高的相異度。簇間的相異度在有些參考資料上也稱為簇間相似度,即是任意數據項與其所在的簇以外的其它簇內中心點的距離,該距離越大,證明簇間差別越大,聚類效果越好。簇間相異度的計算公式同樣采用馬氏距離進行計算。通過反復聚類操作得到改進算法和原始K-均值算法的簇間相異度的比較,如下表所示:
通過比較發現,改進的算法在簇間相異度方面要優于原來的K-均值算法。
[參考文獻]
[1] 謝丹夏.Web上的數據挖掘技術和工具設計.計算機工程與應用,2001:134
[2] 毛國君,段立娟,王實等.數據挖掘原理與算法.清華大學出版社,2005:323
[3] 王瀾.教學網站中數據挖掘技術的研究和應用.大連交通大學碩士學位論文,2006:23
[4] 張娥,馮秋紅,宣慧玉等.Web使用模式研究中的數據挖掘.計算機應用研究,2001:18
[5] 周涓,熊忠陽,張玉芳等.基于最大最小距離法的多中心聚類算法.計算機應用,2006:1425-1428
關鍵詞:數據挖掘 高校信息管理 應用分析
中圖分類號:G647 文獻標識碼:A 文章編號:1674-098X(2016)11(b)-0109-02
高校多年來的教學管理工作積累了大量的數據,是一個待開發的寶藏。鑒于高校發展的需求和高校信息管理的現狀,利用這些數據理性地分析高校各方面工作的成效以及學生培養過程的得失變得十分重要。該文將結合高校信息管理系統的現狀和數據挖掘技術的功能,分別從教學、管理、科研等方面出發,系統研究和分析數據挖掘技術在高校各領域中的應用。
1 教學領域
教學是高校職能的核心,是關系學生業務能力和綜合素質培養的關鍵因素,數據挖掘在教學領域的應用也顯得尤為重要。
(1)課程設置層面。從某種程度上講,學生在校學習過程中的課程學習屬于循序漸進的過程,而且課程之間存在著相對較強的關聯關系以及先后順序。通常情況下,在完成一項課程學習之前,應學習一些基礎性的先行課程,若是這些先行課程沒有學好,則會嚴重影響之后那些課程項目的學習效果。借助高校教學資源庫當中的歷屆學生成績檔案,在科學化數據挖掘以及合理化數據關聯的基礎上,可以從海量數據當中挖掘有用信息,從而更好地幫助其分析數據間的回歸與相關性聯系,最終獲得價值性較強的規律。在此基礎上就可以比較順利地尋找學生成績下降的原因,進而對課程設置實施科學化的安排。
(2)學生自身的學習評價。目前,學習評價屬于高校教育工作人員的重要職責。對學生自身的學習行為進行判定,不僅可以起到相應的信息反饋作用,有效激發學生所具有的學習動機,還可以檢查課程計劃以及檢驗教學目的。除此之外,學習評價還是判定學生個性化差異的重要手段,有利于高校教師因材施教。借助相應的數據挖掘工具,可以對高校學生成績數據庫以及行為記錄庫等實施仔細分析與處理,得到即實性的評價結果,及時糾正學生的不良行為,克服教師在學生評價上因主觀因素造成的不公平問題,還能夠減輕教師在學習評價環節的工作量。
(3)課堂教學評價。該教學環節不僅可以起到良好的教學調節作用以及教學指導作用,還有著相對較強的導向性特點,屬于高校管理工作的組成部分之一,同時也是高校教學評價工作的關鍵性手段。一般情況下,高校每學期都會搞專業化的教學評價調查,進而積累豐富數據,探討教學效果水平高低與教師自身的年齡和職稱間的聯系,從而為高校教務科提供決策信息,提高高校教學效果。
(4)教務數據分析。目前高校在校學生人數已經超過幾千甚至上萬,教師隊伍也相當強大,經過幾十年的教學管理,教務數據已經達到海量,而目前對于這些數據的應用還僅僅停留在查詢或簡單統計,隱藏在這些數據中的大量寶貴信息還沒有被發現,例如,學生后續課程的成績到底與哪些前導課程有關;影響學生學習成績的因素到底有多少;不同專業學生的差異性有多少等。這些都可以通過數據挖掘工具在海量的教務數據庫中獲得。
2 管理領域
將數據挖掘技術應用到高校日常管理工作中,不僅能夠提升高校管理效率,而且能夠為高校管理工作提供數據支撐和決策支持。
(1)干部考評管理。主要對高校干部進行年度考核。其作用是為了更清楚地掌握干部的個體情況,并且提供近期或動態信息。考核既是了解掌握干部情況的一個重要手段,同時也是正確實施獎懲和選拔使用干部的必要前提。結合高校現有的干部管理數據庫,從干部管理數據庫和職稱考評數據中進行數據挖掘,找出干部工作狀態和干部的年齡、職務、學歷、專業、任職經歷等方面的關聯,找到高校干部成長進步和干部整體素質的關系,做到合理調配使用干部,為人事部門提供科學的決策信息。
(2)學生特征的仔細挖掘。結合高校學生在基礎性信息、學習經歷以及興趣特征等方面的實際情況來針對性挖掘高校學生的個性化特征,從而幫助學生及時修正自身所具有的不良學習行為。憑借對高校學生特征的詳細分析結果與目的制定之間的對比,高校教師可以很好地幫助學生糾正學習行為,促進學習能力的提升,日益完善學生人格,從根本上實現學生綜合素質的大力培養。
(3)人員行為干預。高校教學管理數據庫中記錄著各屆學生與教師的學習、工作、社會活動、獎勵、處罰等情況,利用數據挖掘的關聯分析,尋找師生各種行為活動之間的內在聯系。例如,通過分析挖掘歷年管理數據發現,臨近學年結束時,畢業學生極易出現酗酒違紀事件,也就是:“學年結束”and“畢業學生”=>“酗酒違紀”這一關聯規則的支持度和置信度非常高。所以在實際的管理工作中,對畢業學生在學年結束期間要加強行為干預,及時制定策略避免酗酒違紀現象的發生。
3 科研領域
目前,高校承擔了大量的科研項目,而傳統形式的統計技術以及數據管理工具已經難以滿足相關管理人員的實際需求,借助數據挖掘技術能夠在數據處理環節顯示出相對較強的優點,而且還可以與高校的科研部門進行緊密結合。
(1)科研項目管理領域。科研項目管理包括了項目申報環節、立項環節、跟蹤環節、結題環節等。高校科研管理機構建成科研管理的信息系統,其中包含了科研條件信息、課題基本信息以及科研人員信息等。其主要憑借對項目信息的有效增刪、查詢以及統計等,完成對課題進展、經費使用情況以及課題結題等功能,而對于項目管理者和決策人員來說,必須要對較為豐富的歷史數據實施綜合化分析以及科學化提煉,通過數據挖掘技術,可以幫助項目決策者發現課題承擔人、科研儀器使用等信息間的聯系,提高科研管理人員在發現問題以及解決問題上的能力。
(2)科研成果評估。目前,高校科研成果評估方法和數據支持方面還存在許多問題,在對科研成果的評估時還僅僅局限在機構內部的比較上,高校科研機構主要根據論文數量、專利成果、技術轉讓、獲獎情況等指標來對專業技術干部進行評估,但是我們知道,僅僅進行內部比較不夠合理,因為科學研究的性|存在差異,項目內容也有區別,另外,發表的論文被應用的次數到底有多少,論文的價值到底有多大,這些都應該成為高校科研成果評估考慮的因素。例如在某專項技術的檢測中,我們可以對結構化的專業數據庫和網頁上的非結構數據以及用戶的具體需求數據進行不間斷的、長期運行的自動監測,以挖掘所需數據和知識,并通過數據分析和處理,自動生成某專項技術領域的科研成果動態監測報告,從而為院校科研成果評估專家提供數據和知識支持。
4 結語
教學、管理、科研工作是高校的一項經常性和長期性的工作,能從日常積累的海量數據中挖掘出有利于教師和學生發展的信息,是一項重要的工作。將數據挖據技術應用到高校的教學、管理、科研工作中,數據挖掘的結果對各項工作會有一定的監督和指導作用,可以更好地改善現有工作中的弊端,更好地發揮工作中的優勢方面。
參考文獻
[1] (美)Olivia Parr Rud,著.數據挖掘實踐[M].朱楊勇,譯.北京:機械工業出版社,2003.
【論文關鍵詞】本體 語義Web 知識管理 數據挖掘
【論文摘要】本文首先對本體的概念做了簡要介紹,并結合電信領域知識管理存在的問題,提出了基于本體的數據挖掘,并將本體的概念應用到電信知識管理中。最后給出了電信領域本體的開發方法、步驟,然后對本體在電信領域知識管理方面的應用進行了詳細探討。
O.引言
近幾年,電信企業為了提高自己的競爭能力,爭取更大的市場份額.獲取更大的利潤.各大運營商在現有的運營系統基礎之上,引入數據倉庫和數據挖掘技術,建立了各種經營分析系統和數據挖掘系統,進行輔助決策.從而產生了大量的統計分析報表和數據挖掘的結果。這些信息知識結果是企業的寶貴的財富.但是,其存在形式的多樣化 (文本,數據庫,圖片),導致了維護管理上的困難。另一方面,即使有了大量的信息知識,卻不利用,也是毫無意義的,如何讓企業的員工以便捷的方式來共享這些知識.并且利用這些解決實際問題,也是迫切需要解決的問題Ⅲ。此外,由于電信網自身的發展特點,網絡管理的綜合必然要涉及到管理系統之間的信息交換。由于管理系統實現的獨立性,如何保證系統之間無歧義的信息交換是亟待解決的問題。
語義互聯網的出現,尤其本體的出現使的信息含有語義表征,即成為富有語義的知識,成為人機無歧義交互的橋梁。結合本體和知識管理的特點可有效地解決電信領域的上述難題。本文首先簡要地介紹了本體和知識管理的相關信息,然后,基于對電信領域內經營分析知識的分析以及總結,引入了本體和知識管理的理論。將本體理論和知識管理相結合,構建了電信領域的知識本體,并論述了將其運用在知識管理當中的方式。
1.領域本體介紹
Ontology的概念最初起源于哲學領域,它在哲學中的定義為“對世界上客觀存在物的系統地描述.即存在論”,是客觀存在的一個系統的解釋或說明,關心的是客觀現實的抽象本質l引。在人工智能界,最早給出Ontoloyg定義的是Neches等人,他們將Ontoloyg定義為“給出構成相關領域詞匯的基本術語和關系,以及利用這些術語和關系構成的規定這些詞匯外延的規則的定義”。1993年,Gruber給出了Ontoloyg
的一個最為流行的定義,也是比較簡單的定義——“aspecificationofac0nceptua1izati0n”,可以理解為“對某種概念化體系的規范說明”。
盡管定義有很多不同的方式,但是從內涵上來看,不同研究者對于本體的認識是統一的,都把本體當作是領域內部不同主體之間進行交流的一種語義基礎,即由本體提供一種明確定義的共識。給出了領域本體的定義:領域是世界的一個片段,對該片段我們想要表示一些知識。領域概念化是依據所需要解決的任務和所應用本體語言的本體承諾(OntologyCommitment)將領域本體抽象成術語和知識。領域本體是對領域概念化的顯示說明。
2.知識管理介紹
知識管理是近年來學術界和IT界研究的熱點之一,知識管理過程一般包括四步:知識獲取、知識存儲、知識分發共享和知識應用。通過這四個步驟,企業使員工能夠接受到企業內的各種經驗知識信息,用來解決在工作中遇到各種難題,提高工作效率,降低了開發成本。知識管理學說源于對企業的有效管理。以提高企業的競爭力為目的。它更多的也是從企業的管理辦法和經驗中提取精華利創意。再應用于企業。知識管理這一新興的學科領域近年來引起了人們的廣泛關注。專門的研究機構不斷出現。相關的學術著作成倍增長。專門的“知識管理”的學術期刊也開始出現來自不同領域的學者從不同的角度對知識管理進行了探索這些研究的著眼點不同。因而對知識管理實質的理解也有較大的差異。這些研究的不一致性是由于知識管理的研究還處于初步探索階段。同時也在于知識管理所涵蓋領域的廣泛性和不完全明確性
3.基于本體的數據挖掘在電信知識管理領域的應用
本體是概念化規范說明,對于電信知識本體來說它包括有關數據概念的各種術語、關系并給出術語的語義。本體可以從訪問用戶的不同視圖或側面,例如訪問用戶類型、行為、狀態等,進行訪問用戶描述,展示訪問用戶的不同屬性及屬性之間的關系。利用訪問用戶本體作為一種訪問用戶知識的展示模型可以提高商務系統與訪問用戶之間基于語義的協同性,從而實現訪問用戶信息的高度共享和重用。在挖掘過程中,本體是用來協助訪問用戶構成有效DM過程(可執行方案)集合。因此訪問用戶本體的構建至關重要,構建訪問用戶本體的步驟首先是訪問用戶本體建模,其次是在一些成熟的元本體基礎上.用自然語言描述訪問用戶本體的概念及其之間的關系,并對自然語言描述的結果選擇合適的本體描述語言對其進行形式化,最終生成可供計算機識別、處理的文件。本體的構建方法有很多,結合電子商務系統訪問用戶本體變化快、動態性及健壯性需求比較高的前提下,我們建議采用用軟件工程思想的原型法或知識工程方法來構建訪問用戶本體。
基于本體的數據挖掘中.首先引入軟件工程需求分析的思想.管理者通過和訪問用戶交流獲得挖掘的目標.其次由建好的本體構建成DM所需的數據集,然后選擇合適的數據預處理方法或挖掘方法,對本體庫集進行挖掘,此過程中可以選擇合適的挖掘算法對數據庫進行優化、可視化的操作。在整個過程中,由于本體注重概念屬性之間的關聯和知識的共享,挖掘工作者不會忽略他們此領域中并不熟悉、但又有可能導致發現知識的數據挖掘技術。基于本體的數據挖掘可以面對海量數據,處理實時的復雜的數據分析更詳細.更精確的挖掘電信數據.從而創造出更多的商業機會,提高銷售預測的準確性(accuracy)和時效性(timeliness),增加顧客滿意度和忠誠度。最大限度地減少收集相關商務信息(財政,庫存,采購)所需的時間以降低成本。
關鍵詞:數據挖掘 客戶細分 精準營銷
中圖分類號:F274 文獻標識碼:A
文章編號:1004-4914(2010)10-267-02
隨著3G業務的全面展開,運營商進入了全業務運營時代,中國移動面臨著前所未有的激烈競爭,如何在全業務運營時代更好地了解用戶,增加用戶黏度,提高現有業務的用戶忠誠度是中國移動應對其他運營商的關鍵所在。
3G時代將帶來更多豐富多彩的業務應用,同時隨著客戶群體越來越向小眾化、復雜化發展,終端用戶對多元化業務的需要以及對高質量信息服務的要求也不斷提高,這對運營商精準營銷能力提出了新的挑戰。“真正為客戶提供所需要的應用”已經成為電信運營商營銷創新的重點所在。電信運營商需要進行營銷理念轉變,必須依靠先進的技術手段實現電信業務的深度運營和精準營銷,實現產品、管理及商務模式的創新,從粗放式營銷向精準營銷和深度營銷轉變。
一、傳統客戶細分方法分析
傳統的客戶細分方法包括基于調查資料的細分和基于客戶價值的細分。基于調查資料的客戶細分方法一般是基于市場調查得到的資料進行細分,優點是細分的維度較少,細分的結果容易理解,但缺點是支撐細分的對象只是少量的客戶樣本,因此細分結果的實施會很被動,只能等待有類似特征和需求的客戶主動上門。基于客戶價值的細分方法操作簡單,可以識別出電信企業的高價值客戶,但缺點是無法揭示各類群體在通信業務需求中的差異性,所以無法在市場營銷中幫助運營商進行差異化的方案設計。
二、數據挖掘的客戶細分方法
基于數據挖掘的客戶細分方法是數據挖掘技術和電信企業豐富數據資源的完美結合,其特點是充分利用了電信企業內部數據,細分維度多,不僅包含客戶屬性,客戶消費行為,還包括客戶消費心理等多種因素,因此可以幫助電信企業多層面、多角度地了解客戶的差異。如果將基于數據挖掘的客戶細分和基于市場調查的客戶細分等方法相結合,客戶細分將更加完美。
客戶細分是基于客戶業務需求的細分,消費行為和消費價值維度能直接反映電信客戶的業務需求差異,同時電信企業擁有大量的客戶行為和價值數據。因此,基于行為和價值的客戶細分對電信企業更具有實際意義。通過數據挖掘的聚類分析方法將有助于將客戶群根據其消費行為和價值的內在差異進行合理細分。
三、數據挖掘客戶細分在長沙移動增值手機訂票業務中的應用
1.長沙移動手機訂票精準營銷系統內涵。根據長沙移動對于手機訂購電影票業務的推廣需求提出的,采用數據挖掘技術和分析方法對網絡數據和用戶數據進行分析,并對數據進行采集及關聯分析的解決方案。系統通過采用一系列算法對用戶市場數據和用戶網絡數據進行關聯分析和其他挖掘分析,發現各種有價值的用戶信息,以幫助長沙移動針對手機訂票業務開展精準營銷服務。
2.手機訂票精準營銷系統分析方案。該系統主要針對電影票的手機銷售,其總體目標有兩個,分別是:
(1)幫助長沙移動提高手機訂票業務的用戶滲透率和業務認知度。
(2)幫助長沙移動提高現有手機訂票業務的使用普及率和成功率。為達成這個目標,必須對手機用戶進行客戶細分,以識別目標觀影用戶群,排除疑似工作人員和其他人員干擾,并確定目標觀影用戶群的小區(上接第267頁)分布情況和分時段小區分布情況,分析目標觀影用戶群的移動性、社會聯系性和訂票觀影行為特征,同時分析訂票業務的關鍵影響因素和訂票流程、用戶短信交互行為,旨在提高嘗試訂票用戶的購買成功率。系統的整體分析方案見表1。
按照業務問題和數據分析要求,必須對采集的海量網絡數據進行全面整合和處理,形成有關網絡和終端用戶的全息數據庫。針對具體手機訂票業務特點,提出業務精準營銷解決方案框架設計,根據該業務框架進行相應數據分析,為精準營銷提供數據和建議參考。
系統收集業務需要的部分網絡數據,并根據業務設計的邏輯框架進行數據分析,由于數據的局限性,僅進行部分專題內容分析,完整的業務分析將有待于進一步開展。
系統數據收集范圍顯示了以長沙萬達影院為目標影院,三天系統網絡數據收集的情況,數據覆蓋大部市區,數據量為800G。
系統利用這些數據,對客戶進行行為分析,以識別觀影用戶、進行營銷手段評估,并分析影響用戶手機購買的關鍵因素。
3.建立手機訂票精準營銷數據分析模型提高購買成功率。為提高目標用戶對業務的認知度和提高使用用戶的購買成功率,本文提出手機訂票業務精準營銷數據分析模型,從識別觀影用戶、營銷手段評估,影響用戶手機訂票的關鍵因素分析這三個方面對數據進行分析聚類。(1)識別觀影用戶。該部分目的在于幫助運營商深入了解目標客戶群,通過對網絡數據中目標觀影用戶的識別,并通過關聯技術手段排除工作人員和其他非觀影人員,確定手機訂票業務的真正用戶群體。并且對于這部分用戶進行深入分析,建立全面多維的用戶檔案。(2)營銷手段評估。通過對目標用戶的聚集度、社會活躍性和訂票觀影行為的深入分析,對目標用戶群體進行建模,根據用戶的不同特征特點,對不同的營銷方案進行效果評估,并根據用戶模型優選營銷方案建議。(3)影響用戶手機購買的關鍵因素分析。通過識別出嘗試進行手機訂票的用戶,并對購票成功影響因素的分析,對用戶行為和訂票流程進行關聯分析,確定影響購買的漏斗模型,并提出流程及業務改進建議,幫助更多的用戶成功購票。
隨著中國電信業改革不斷深入,電信運營商之間對客戶的爭奪也越來越激烈。為了適應這種競爭,中國移動進行了戰略轉型,由“移動通信專家”轉型為“移動信息專家”,開展全業務運營,重點發展增值業務等數據業務。而且隨著競爭加劇,電信運營商在爭奪用戶市場的同時必須降低市場營銷成本,那么如何識別潛在客戶,如何選擇有效的營銷手段進行精準營銷就成為市場競爭中獲勝的關鍵。同時,電信行業是典型的數據密集行業,其業務數據中隱含著大量對企業有價值的信息,通過基于數據挖掘技術的“精準營銷”可以幫助我們發現顧客需要、分析顧客行為、評估顧客價值,進而有針對性地制定營銷策略,滿足客戶個性化的需求。
參考文獻:
1.韓家煒.數據挖掘:概念與技術.機械工業出版社,2006
2.范愛民.精細化管理[M].中國紡織出版社,2005
3.彭清圳.基于數據挖掘的電信精細化營銷策略研究.北京郵電大學碩士論文,2008
4.林志宏.以精細營銷為目標的移動通信增值業務客戶行為分析.北京郵電大學碩士論文,2008
5.樊奕.基于數據挖掘的電信企業精確營銷.北京郵電大學碩士論文,2006
6.王春,謝忠,徐士才,張海鷹.3G時代增值業務運營研究.商業時代,2009(7)
7.朱海松.4I模型:3G時代的營銷方法與原理.2009