時間:2023-06-01 11:32:58
導語:在神經網絡文本分類的撰寫旅程中,學習并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優秀范文,愿這些內容能夠啟發您的創作靈感,引領您探索更多的創作可能。

[ 關鍵詞 ] 招聘 人力資源管理 數據挖掘 決策樹 神經網絡
一、引言
隨著計算機和網絡的迅速發展和普及,網絡招聘正日益成為用人單位招聘人才的一種重要方式,招聘者們越來越
希望通過計算機技術協助人力資源管理來處理電子簡歷的評價及篩選,提升整個人力資源管理的效率。數據挖掘技術,是解決這一問題的較好方法。
本文將數據挖掘技術運用于網絡電子簡歷的篩選,并比較了決策樹與神經網絡兩種算法的優劣。
二、網絡簡歷樣本的獲取與預處理
1.簡歷樣本的獲取
本文從某人才招聘網站數據庫獲得簡歷數據,選取十個熱門的崗位(會計、銷售工程師、衛生醫療、紡織服裝設計、司機、建筑/結構工程師管理人員、美術/圖形設計、市場經理、行政/人事人員),每個崗位中抽取50個招聘職位,每個職位抽取20份簡歷信息,每一份簡歷及其相應的招聘職位要求構成一個樣本。其中10份為企業通過招聘網站發出面試通知的簡歷(簡稱A類樣本),另外10份為沒有被企業通知面試的簡歷(簡稱B類樣本)。
2.簡歷樣本的預處理
考慮到本研究的挖掘目的,本文選取了以下幾個應聘者的屬性與招聘公司的需求進行匹配,在對數據進行處理后,再應用到數據挖掘工作中。所選擇的屬性都需要將招聘企業的要求和應聘者的信息相匹配,再進行數據的處理。選擇的輸入屬性是:性別、年齡、籍貫、學歷、婚姻狀況、工作年限、政治面貌、畢業院校、計算機水平、專業、工作經驗,輸出屬性是:是否被接受面試。
由于原始數據庫中的數據存在著各種各樣現實中不可避免的缺陷,下面將根據所選擇的屬性分別詳述對簡歷數據所進行的預處理。
(1)性別(R_Sex):不需要復雜的處理。
(2)年齡(R_Age):本文將應聘者劃分為三個年齡段:a.小于或等于三十歲;b.三十到五十歲;c.五十歲以上,修改后的數據變為“=50”。
(3)婚姻狀況(R_Married):婚姻狀況僅僅分為已婚和單身,因此將數據修改前的FALSE改為單身,TRUE改為已婚。
(4)籍貫(R_Place):本文在預處理中,將籍貫與招聘單位所在省份一致的應聘者籍貫取1,其余的為0。
(5)工作年限(R_WorkYear):本文將應聘者按照工作年限的長短來劃分,修改后數據分別變為“=10”。
(6)學歷(R_Education):大致分為博士后、博士、碩士、本科、大專、高中/中專六類,通過觀察發現這一屬性中存在一些空缺值,因此對這一屬性的處理僅僅是把空缺值清除。
(7)政治面貌(R_Political):本文將是黨員的不做修改,將其他表述一概改為其他。
(8)畢業院校(R_School):本文將應聘者的學校分為五類,并收集了大學的排名和院校名稱,211重點大學取為1,一般重點大學為2,一般本科院校為3,其他專科和民辦院校為4,海外大學為0。
(9)專業(R_Specialty):本文將企業對專業的要求提取出來與應聘者簡歷中的信息做對比,若兩者專業相符合則改為符合,否則改為不符合。
(10)計算機水平(R_ComputerGrade):本研究將初級程序員用等級1代替,中級用2,高級用3,其余的為0。
(11)工作經驗(R_Experience):本文提取了招聘者要求中的一些關鍵字眼與應聘者簡歷中的描述來做對比,將應聘者的經驗劃分為三類:有相關經驗、有實習經驗、無相關經驗。
(12)接受(Accept):接受與否屬性是數據挖掘中唯一的輸出屬性,A類樣本取作為接受,B類樣本取為拒絕。
三、簡歷篩選的分類算法
本文主要選取了C5.0決策樹算法和神經網絡算法在數據挖掘軟件Clementine中對預處理后的簡歷樣本數據進行分類挖掘。
1. C5.0決策樹算法
構造決策樹的目的是找出屬性和類別間的關系,用它來預測將來未知記錄的類別。本文分別抽取了幾個崗位中的部分預處理后的數據作為數據挖掘的數據測試集,為決策樹算法在招聘簡歷中的數據挖掘應用做進一步的驗證和解釋。
首先在Clementine中建立Excel來源節點,導入數據,對其進行讀取和處理,使其符合Clementine中的挖掘要求,將數值類型改為讀取,在方向定輸入輸出屬性。
C5.0算法能產生決策樹或規則集,并且在決策樹的產生過程中它能自動根據最大信息增益進行樣本拆分,一直到樣本子集不能再拆分為止。因此本文選擇C5.0算法來產生規則集,C5.0能支持基于準確性的規則和基于普遍性的規則,基于普遍性的規則會考慮盡可能大的樣本量,而基于準確性的規則則更傾向于規則的準確率。如對財務管理職位進行挖掘,可得到如下分類規則:
(1) 基于準確性的十二個拒絕規則:
規則一:如果Sex=女;并且Education=本科;且School=3;且ComputerGrade
規則二:若Sex=男;且WorkYear2;且Experience=無相關經驗;則拒絕。樣本數:16,準確性:88.9%。
規則三:如果Education=高中/中專;并且CompurerGrade
規則四:如果Sex=男;且WorkYear2;并且ComputerGrade
規則五:如果Education=高中/中專;并且Specialty=不符合;則拒絕。樣本數:27,準確性:86.2%。
規則六:如果School
規則七:如果Education=大專;并且Specialty=不符合;并且ComputerGrade>1;則拒絕。樣本數:45,準確性:83%。
規則八:如果Education=高中/中專;并且Experience=無相關經驗;則拒絕。樣本數:63,準確性:80%。
規則九:若Sex=女;并且Age
規則十:如果Education=初中;則拒絕。樣本數:12,準確性:75%。
規則十一:如果Education=大專;并且School>2;并且Experience=無相關經驗;則拒絕。樣本數:35,準確性:75.7%。樣本數:212,準確性:70.6%。
規則十二:如果Place=符合;并且Education=大專;并且School>3;并且ComputerGrader>1;則拒絕。樣本數:68,準確性:68.6%。
(2) 基于準確性的四個接受規則
規則一:如果Married=單身;并且WorkYear=5-10;并且Education=本科;則接受。樣本數:8,準確性:90%。
規則二:如果School
規則三:如果Education=大專;并且School>3;并且Computergrade=1;并且Experience=有相關經驗;則接受。樣本數:56,準確性:72.4%。
規則四:如果Specialty=符合;則接受。樣本數:566,準確性:50.2%。
(3) 基于普遍性的兩個接受規則
規則一:如果R_School
規則二:如果Experience=有相關經驗;則接受。樣本數:270,準確性:62.5%。
(4) 基于普遍性的四個拒絕規則
規則一:如果R_School
規則二:如果Education=高中/中專;則拒絕。樣本數:103,準確性:74.3%。
規則三:如果R_School>2;并且Experience=無相關經驗;則拒絕。樣本數:372,準確性:69.5%。
規則四:如果R_Political=其他;并且R_School>3;并且ComputerGrade>1;則拒絕。樣本數:201,準確性:64.7%。
2. 神經網絡算法
相對于決策樹來說,神經網絡算法需要更多的時間,而且對結果的解釋也相對較困難,而且神經網絡模型只包含一組權值,了解其中的關系和為什么有效也比較困難。
將數據導入Clementine中并與神經網絡模型相連接,其方法與決策樹算法中一樣??紤]到時間和準確性的關系,本文選擇了修剪方法。另外,為了預防訓練過度,本文選擇了樣本的50%至60%進行訓練。
本文希望數據訓練的準確性盡量高一些,因此,在模型選擇中選擇使用最佳網絡。節點訓練結束后將會產生一個神經網絡模型。神經網絡算法挖掘的準確性在84%左右。
3. 兩種分類算法的比較
分類算法的分類質量一般可以用查全率和查準率來評價。
決策樹算法和神經網絡算法分別對A、B類樣本中部分數據集1、2的挖掘情況比較如下所示:
(1)決策樹和神經網絡算法對數據集1的挖掘結果比較:
決策樹算法
測試樣本數:356,訓練樣本數:713,查準率:79.8%,查全率:75.1%,F1測試值:0.77,用時:1秒。
神經網絡算法
測試樣本數:428,訓練樣本數:713,查準率:83.95%,查全率:80.59%,F1測試值:0.82,用時:5分9秒。
(2)決策樹和神經網絡算法對數據集2的挖掘結果比較:
決策樹算法
測試樣本數:500,訓練樣本數:1000,查準率:81.02%,查全率:79.2%,F1測試值:0.80,用時:1秒。
神經網絡算法
測試樣本數:600,訓練樣本數:1000,查準率:84.56%,查全率:82.34%,F1測試值:0.83,用時:1分33秒。
從上文中我們可以知道,決策樹算法的原理相對容易為人力資源管理者所理解,也能夠得到比神經網絡算法更加直觀易懂的分類規則。決策樹算法計算速度較快,用時較少,神經網絡算法花費時間較長。但神經網絡算法比決策樹算法有更高的整體查準率和查全率,同時F1測試值反映出來的分類質量的二者比較中可見,神經網絡算法比決策樹算法分類質量要高一些。
四、結束語
本文主要研究了數據挖掘技術在電子簡歷數據篩選中的應用,得到了一些有用的結論,但還存在一些不足。
(1)在挖掘過程中,由于時間精力有限,所以本文只選擇了決策樹和神經網絡兩種算法進行挖掘比對,沒有考慮其他算法。
(2)本文在對原始數據進行預處理時,其中涉及到對文本數據的預處理,如工作經驗以及專業,本文只是簡單的進行替換處理。
參考文獻:
[1]趙蘇星:數據挖掘技術在人力資源管理中的應用[J].管理科學,2007,91.
[2]陳小穎:人力資源管理系統中數據挖掘技術的應用[D].武漢:武漢理工大學,2006.
關鍵詞:垃圾郵件; 中文分詞; BP神經網; 遺傳算法
中圖分類號:TP18 文獻標識碼:A文章編號:1009-3044(2011)08-1875-03
Research on the System of Chinese Spam Filtering Based on Neural Net
YE Yan1, LI Pei-guo2
(1.Zengcheng College of South China Normal University, Guangzhou, 511363, China; 2.Department of mathematics, Jinan University, Guangzhou 510632, China)
Abstract: The flooding spams take up huge Internet resource and user time. Especially some virus-spams, they can disable some normal Internet service, or attack user’s computers. It introduces BP neural network as the filtering algorithm, optimized by the Genetic Algorithm. With Chinese word segmentation, it designs and implements a Chinese email filter. At last, it performs training and testing using sample emails, and analyses the testing result. The result indicates that the filtering algorithm has good recall and precision ratio.
Key words: Spam; Chinese word segmentation; BP Neural Networks; Genetic Algorithm
電子郵件是互聯網最重要、最普及的應用,大大方便了人們的生活、工作和學習。然而,近些年來,垃圾郵件成泛濫的趨勢。據中國互聯網協會反垃圾郵件中心統計[1],截止2010年7月,中國互聯網用戶收到的垃圾郵件比例約為40%,這些垃圾郵件花費用戶大量的時間和精力來處理,給正常的使用帶來了諸多的麻煩;對于企業來說,垃圾郵件會造成巨大的經濟損失,尤其是帶有病毒的郵件,更是帶來了巨大的危害。
當前的垃圾郵件過濾技術,主要包括以下幾類:關鍵詞過濾,黑/白名單[2],逆向域名驗證,基于規則過濾[3],特征詞統計,等等。以上方法,分別在各種特定的情況下,能夠達到一定的過濾效果。但是,隨著垃圾郵件制造者的技術提高,以上的各種方法都存在各自的缺陷,不能達到很好的過濾效果。
本文采用基于郵件內容的過濾算法,無論任何偽裝的情況下,郵件的內容是無法改變的,否則就無法達到發送者的目的,因此,基于內容的過濾算法能夠在各種情況下,達到過濾效果。同時,引入BP神經網絡作為過濾算法,利用BP神經網的自組織、自學習和聯想存儲等特點,設計并實現垃圾郵件過濾系統。同時,針對BP神經網在訓練過程中,容易陷入局部最優解的問題[4],引入遺傳算法來對BP神經網絡進行優化,利用遺傳算法的全局搜索能力,進一步提高BP神經網絡的學習能力[5]。針對中文自身的特點,在過濾系統中,加入針對中文的自動分詞模塊,實現針對中文垃圾郵件的過濾。
1 過濾系統的設計
過濾系統的主要思想:通過分析郵件的正文內容,提取其中的特征詞匯,通過過濾模塊進行垃圾郵件的識別;同時,加入了針對中文郵件的自動分詞模塊,達到對中文垃圾郵件的過濾;系統架構如圖1所示。
1.1 系統的流程
系統的流程主要包括兩個過程:過濾系統的訓練過程和未知郵件的過濾過程,分別如下:
1.1.1 過濾系統訓練
首先對郵件樣本集進行預處理,得到待處理的樣本郵件;然后通過中文自動分詞,得到整個樣本集的詞匯統計表;根據詞匯出現的頻率,以及相應的代表性,選取出特征詞匯;根據特征詞匯表,將樣本郵件轉化為BP神經網絡過濾模塊的輸入向量,從而對網絡進行訓練,生成最終具備識別能力的過濾模塊。流程圖如圖2。
1.1.2 未知郵件過濾
收到新郵件后,通過中文自動分詞,得到郵件中的所有詞匯;根據特征詞匯表,生成該郵件對應的特征向量,輸入到神經網絡過濾模塊中;根據過濾系統的輸出結果,判定當前郵件是否為垃圾郵件;用戶可以對過濾模塊的判定結果進行反饋,系統會記錄錯判和誤判的郵件數量,并根據對應的比例決定是否需要重新訓練過濾模塊。同時,根據當前郵件是否為垃圾郵件,將該郵件中出現的詞匯更新到所有詞匯的表中,并統計相應的“垃圾概率”,這樣做的目的是為了定期的更新特征詞匯,達到過濾系統能夠不斷學習的效果。
1.2 系統結構
整個過濾系統采用模塊化設計,共分為四個主要的模塊:自動分詞模塊,特征詞提取模塊,BP神經網過濾模塊,以及用戶反饋模塊,整體的結構如圖3所示。
1.2.1 自動分詞模塊
該模塊主要實現的功能是將郵件的內容通過自動分詞技術,得到對應的詞的集合。需要完成操作包括:
1) 郵件的編碼識別,對于不同的郵件可能使用不同的編碼,所以要針對各種編碼,采用對應的解碼方法對郵件進行解碼,才能保證正確的讀取郵件內容;
2) 郵件內容的預處理,例如,去掉郵件的頭信息;根據已知的一些拆/分詞的特征,去除拆/分的標志,比如一些垃圾郵件發送者,會故意的在字與字之間加上空格,目的就是讓自動分次技術不能夠正確的進行分詞,因此需要在預處理階段去掉這些分隔符;
3) 對郵件內容進行自動分詞,得到郵件中的詞語集合;
該模塊的輸入為郵件訓練集,或者用戶收到的郵件,輸出為經過分詞得到的詞語集合。
1.2.2 特征詞提取模塊
特征詞提取模塊的主要功能是在經過分詞模塊得到的詞匯集合中,選出最有代表性的特征詞,這些詞匯最能夠表明一封郵件是垃圾郵件,或者是正常郵件。該模塊需要完成的操作包括以下幾個:
1) 詞頻的統計:在樣本集郵件的分詞結果中,統計出每個詞在垃圾郵件中出現的次數,以及在正常郵件中出現的次數,從而計算出這個詞匯的“垃圾概率”,即為:
2) 提取特征詞匯,即根據詞匯的“垃圾概率”,取出最具代表性的詞語;選擇時需要考慮以下幾個方面,詞匯的“垃圾概率”,這個是在選取特征詞時,比較重要的一個指標;但是,同時也要考慮詞匯出現的次數,比如某個詞只在一封垃圾郵件中出現,那么它的“垃圾概率”為1,但是它并不是最有代表性的詞,因此,在選取特征詞匯時,需要綜合考慮這兩個方面;
3) 特征向量轉換,將郵件按照特征詞表,轉換為代表該郵件的特征向量;
另外,在提取特征詞時,可以結合使用禁用詞表方法,該方法是通過對漢語的研究,總結出一些對于郵件內容沒有很大的影響的詞匯,比如“是”,“的”,各種數字,等等,這些詞匯并沒有實際的意義,因此,提取特征詞時,應排除這些詞匯。
1.2.3 過濾模塊設計
該模塊是整個過濾系統的核心部分,通過樣本郵件對過濾模塊訓練后,完成對未知郵件的過濾功能。整個過濾模塊使用BP神經網絡作為文本分類的算法,同時使用遺傳算法對BP神經網絡的各個參數進行優化,模型的設計圖如圖4。
其中,引入GA(遺傳算法)優化器的目的是為了克服BP神經網容易陷入局部最優解的缺點,提高其全局搜索的能力。首先,將BP神經網的各個權值進行編碼,通過GA優化器隨機的產生初始的種群;對種群中的每個個體,經過解碼后,構造對應的BP神經網;將樣本訓練集輸入BP神經網,計算所有輸出的均方誤差;GA優化器根據均方誤差,得到對應的適應度值,然后進行遺傳優化,最終得到最優化的BP網絡權值。
2 過濾系統的實現
過濾系統的實現主要采用Java語言,使用SQL Server數據庫來存放分詞的結果,以及最終的關鍵詞列表。過濾系統的實現包括兩個關鍵的部分,自動分詞模塊和遺傳優化的神經網絡過濾模塊。
2.1 自動分詞模塊
本文采用ICTCLAS[6]中文分詞系統來實現對郵件內容的自動分詞,從而得到郵件的關鍵詞列表,為下一步的特征詞提取提供詞庫。具體的實現方法是:在代碼中,調用ICTCLAS系統提供的API,對輸入的郵件內容進行分詞,并返回分詞結果。
2.2 過濾模塊的實現
2.2.1 BP神經網的實現
本文采用實用性很強的三層的BP神經網結構,即包含一個隱含層的BP網絡。根據一般郵件的長度大概為100-200字,輸入層節點數目確定為50個,即對應50個特征詞匯,應該足以反映大部分郵件的特征;輸出層采用一個輸出節點,輸出節點的意義為當前郵件為垃圾郵件的概率:越大則越可能為垃圾郵件;隱層節點數目,按照參考文獻[7]提供的方法,確定數目為10。
BP神經網的實現,采用開源工程JOONE (Java Object Oriented Neural Engine),作為BP神經網的實現框架,按照如上的網絡結構,實現相應的BP網絡結構。
2.2.2 遺傳優化BP網絡
利用遺傳算法可以優化BP網絡的結構和各個權值,為了簡化問題,本文只使用遺傳算法來優化BP網絡的權值部分。
首先需要解決的是編碼問題,根據權值的連續性、高精度等特點,選取實數編碼方案,提高編碼精度,增加搜索空間。對BP網絡各個權值的編碼方法是將權值分為四個部分:
1) 輸入層到隱含層的權值:即由輸入層到隱含層的連接的權值;2) 隱含層的各節點的閾值;3) 隱含層到輸出層的權值:即由隱含層到輸出層的連接的權值;4) 輸出層的各節點的閾值。編碼得到的個體如下:
通過編碼,就將BP網絡的權值轉化為遺傳算法可以處理的染色體了,從而可以進行遺傳優化,找到最優的權值編碼。最后,再根據編碼的規則,逆向解碼得到最終的BP網絡結構。
3 系統測試與分析
本文采用中國教育和科研計算機網緊急響應組(CCERT),2005年搜集的郵件樣本集,作為測試數據。在樣本集中,選取一部分郵件作為訓練數據,對BP網絡過濾系統進行訓練;另外一部分作為測試數據,對過濾系統的結果測試。具體測試數據如下:
練樣本集大?。?113 ;垃圾郵件數:3110;正常郵件數:3003
測試樣本集大小:200;垃圾郵件數:100;正常郵件數:100;判定閾值為:0.9
在以上的測試數據情況下,過濾系統在自動分詞、特征詞提取部分,表現出很好的性能;在采用遺傳算法優化的BP網絡訓練過程中,能夠快速的收斂,大大提高了訓練能力。具體的測試結果如表1。
測試的結果表明,過濾系統具有較好的運行能力,在處理大量郵件時,運行速度相對較快,能夠達到一般的性能要求。郵件過濾結果表明,過濾系統具有很高的準確率和查全率,在樣本集相對完整和充足的情況下,能夠起到很好的過濾效果。
4 結論
針對中文垃圾郵件的過濾問題,本文采用了基于遺傳算法優化的BP網絡作為過濾算法,并結合中文自動分詞技術,設計并實現了針對中文垃圾郵件的過濾系統。引入ICTCLAS系統作為中文自動分詞模塊,基于JOONE框架,來實現遺傳算法優化的BP網絡過濾模塊。最后,通過系統的測試,分析了系統的性能和垃圾郵件過濾的查全率和準確率。測試結果表明,該過濾系統具有一定的實際價值,可以為垃圾郵件處理領域提供一個新的參考。
參考文獻:
[1] 中國互聯網協會反垃圾郵件中心.2010年第二季度中國反垃圾郵件狀況調查報告[R],2010.
[2] 鄭可馨,姜守旭,羅志云.垃圾郵件過濾系統的設計與實現[D].哈爾濱:哈爾濱工業大學,2004.
[3] 潘文鋒,王斌. 基于內容的垃圾郵件過濾研究[D].北京:中國科學院計算技術研究所,2004.
[4] 余本國.BP神經網絡局限性問題的討論[J].微計算機信息,2007(8).
[5] Sexton R S,Dorsey R E.Reliable classification using neural networks: a genetic algorithm and backpropagation comparison[J].Decision Support Systems,2000(30):11-22.
關鍵詞:機器學習;圖像處理;手寫數字識別;SVM分類算法
圖像是人們日常生活和工作中隨時都會碰到的一種客觀的靜態描述,對數字圖像的深入透徹研究大大方便了我們的生活。目前的對于數字識別的算法主要有K鄰近分類算法[1-3]、BP神經網絡算法[4]。K近鄰分類算法本身簡單有效,不需要分類器進行訓練,但其計算量較大,可理解性差;傳統的BP神經網絡收斂速度慢,網絡和學習記憶不穩定。本文使用SVM分類算法結合MNIST數據集進行數字的識別,SVM(support vector machine)即支持向量機是一種分類算法[5],其優點是在統計量樣本數比較小的情況下也能獲得較為準確的統計規律。本文著手于研究機器識別手寫數字,此手寫數字識別實驗主要分為三個部分:圖像采集、圖像預處理、數字識別。
1 圖像預處理
對于攝取到的圖片進行數字預處理是實驗中重要的步驟之一是實驗得出準確結果的前提。采集信號時,周圍環境以及攝取設備對采集后的圖片影響很大,若不進行圖片預處理,往往很難得出正確結果。步驟如下:
1.1 中值濾波
一幅圖像中,噪聲的出現會使噪聲點處的像素值比其周圍的像素值相差非常多。可把圖像中某一塊的數據中所有像素值按大小順序排列,如此和其他像素值相差很大的噪聲點處的像素就會被排到最前或者最末端,再將排在中間的像素值代替模塊中的中間的目標像素值,便可有效去除噪聲。
1.2 直方圖均衡化
直方圖均衡化著重于圖像灰度級的變換,目的是將圖像灰度增強,它在實際工程中使用比較廣泛。利用直方圖均衡化可以將處理后的圖像實際亮度集中的分布在亮度范圍的中間區域。
1.3 圖像分割
對提取到的圖片進行圖片分割,可將想要得到的數字更清晰的呈現出來。對于最佳閾值的選取,可以采用遍歷像素值[1~254]。
(1)首先人工設置初始閾值Th=Th0將原圖分為兩類;分別計算兩類的類內方差:
(4)
(5)
(6)
(7)
(2)計算兩個區域各自的分布概率
(8)
(9)
(3)像素遍歷選擇選擇最佳閾值,根據以下公式判定
(10)
1.4 形態學濾波
最基本的形態學濾波是腐蝕和膨脹,考慮到手寫數字筆畫可能會很粗不易于后期識別,所以采用膨脹的算法思路。一般膨脹是對二值圖像進行處理,將此放在預處理最后一步。
2 數字識別
得到攝像頭采集并經過處理后的數字圖片后,下一步便是識別。識別數字的方式有很多,本文我們使用支持向量機SVM分類算法來實現手寫數字識別。深度學習一般的解決思路便是將大量實例用于訓練學習,學習后的機器會產生自己的一套識別體系,利用訓練好的系統去識別未知的數字。其中SVM分類算法就是這樣一個基礎的機器學習的思想,在獲得大量樣本進行大量學習形成學習系統之后,機器形成一套自己用來識別手寫數字的規則。隨著樣本數量的增加,算法會學的更加精確,不斷提升自身的準確性。通常對于分類問題,可以將數據集分成三部分:訓練集、測試集、交叉驗證集。用訓練集訓練系統從而生成對數字的學習模型,用后者進行準確性驗證(優化參數)。在ubuntu上,大約運行十分鐘便可以完成訓練和預測測試集的結果。
采用MNIST數據集下載訓練數據和測試文件。要注意,攝像機采集之后,為了增強識別效果,對采集到的數字圖片進行預處理以達到手寫數字圖片庫的數字模式使識別可以更加準確。MNIST數據庫是一個手寫數據庫,它有60000個訓練樣本集,10000個測試樣本集。它是NIST數據庫的一個子集。下載后的文件并不是標準的圖像格式,圖像都保存在二進制文件中,每個樣本圖像的寬高為28*28。在進行編寫匹配程序之前要把其轉換為普通jpg格式的文件。
3 結論
本文從識別手寫數字字符識別入手,通過查閱大量資料得出一套完整的手寫數字識別的方法體系,并且在Windows平臺下,利用計算機視覺庫OpenCv和CodeBlocks環境相結合進行實驗,得出結果準確度高。采用的SVM分類算法與和典型的K鄰近分類算法、BP神經網絡算法相比,識別精度高。但是,在攝取圖片背景復雜、圖片曝光過度或不足、分辨率低的情況下,各算法還需要進一步完善。
參考文獻
[1] 陳振洲,李磊,姚正安. 基于SVM的特征加權KNN算法[J]. 中山大W學報(自然科學版). 2005(01)
[2] 錢曉東,王正歐. 基于改進KNN的文本分類方法[J]. 情報科學. 2005(04)
[3] Yufei Tao,Dimitris Papadias,Nikos Mamoulis,Jun Zhang.An efficient cost model for K-NN search technical report. HKUST . 2001
[4] 王建梅,覃文忠. 基于L-M算法的BP神經網絡分類器[J]. 武漢大學學報(信息科學版). 2005(10)
[5] 奉國和,朱思銘. 基于聚類的大樣本支持向量機研究[J]. 計算機科學. 2006(04)
基于OLED器件的封裝材料研究進展
低氧環境下血氧序列的多尺度熵分析
基于多核超限學習機的實時心電信號分析
基于慣性傳感的穿戴式跌倒預警防護系統
痙攣對雙癱型腦癱兒童下肢肌肉相關性的影響
合成免疫策略治療慢性乙肝病毒感染綜述
EMT的表觀遺傳調控在癌癥進程中的研究進展
類風濕性關節炎免疫發病機制的研究進展
三維點云中的二維標記檢測
基于詞項關聯的短文本分類研究
一種離心式微流控生化分析芯片
電子封裝基板材料研究進展及發展趨勢
基于鎳尖錐陣列的柔性超薄超級電容器
溶膠-凝膠法制備二氧化硅微球研究進展概述
一種求解汽車外流場問題的可擴展數值算法
國內汽車機械式自動變速器技術研究綜述
一種基于圓的幾何特性改進的圓檢測隨機算法
智能無線傳感網絡在溫室環境監控中的應用研究
適用于R290聚醚酯型冷凍機油的合成及性能研究
基于神經網絡模型的雙混沌Hash函數構造
微流控芯片技術在心肌標志物檢測中的應用綜述
大數據層面的microRNA功能相似性分析
三維快速自旋回波(SPACE)——序列原理及其應用
多模態集成阿爾茨海默病和輕度認知障礙分類
一種基于頂帽變換和Otsu閾值的軌道邊緣提取方法
ATP熒光檢測法檢測醫院電梯按鈕表面細菌總數
社會網絡中信息傳播與安全研究的現狀和發展趨勢
用于光遺傳技術的體外細胞光刺激系統
基于曲線投影模型的電子斷層三維重構并行算法
配準算法對PCA單幅投影肺部重建的影響
加速量熱儀在鋰離子電池熱測試中的應用
定向生長碳納米管陣列熱界面材料技術研究
低劑量口腔CT成像系統關鍵技術與成像方法研究
深圳市液化天然氣與混合動力巴士排放試驗研究
基于超聲平面波的功率多普勒成像方法研究
基于分層Dirichlet過程的頻譜利用聚類和預測
基于AFE4400的無創血氧飽和度測量系統設計
基于Markov隨機場的腦部三維磁共振血管造影數據的分割
基于模式預測的低復雜度高清視頻幀內編碼方法
基于Android智能手機內置傳感器的人體運動識別
基于MEKF的直流無刷電機磁極位置與轉速檢測技術
一種基于模糊PID的3TPS/TP型并聯機器人的控制算法
基于詞頻統計特征和GVP的大規模圖像檢索算法研究
數據中心保障應用服務質量面臨的挑戰與機遇
基于人工蜂群算法的膠囊內窺鏡位姿磁定位研究
幾種自適應線性判別分析方法在肌電假肢控制中的應用研究
基于相圖的CZTSe光伏材料的形成路徑設計和實驗探索
關鍵詞:大數據;金融監管;外匯管理
一、大數據定義及常用分析方法
(一)定義。對于什么是大數據,迄今為止并沒有公認的定義。麥肯錫全球研究所給出的定義是:一種規模大到在獲取、存儲、管理、分析方面大大超出了傳統數據庫軟件工具能力范圍的數據集合,具有海量的數據規模、快速的數據流轉、多樣的數據類型和價值密度低四大特征。(二)數據挖掘常用分析方法。數據挖掘就是對觀測的數據集(經常是很龐大的)進行分析,目的是發現未知的關系和以數據擁有者可以理解并對數據擁有者而言有價值的新穎方式來總結數據。常用方法類型介紹如下:一是關聯分析。是在未有既定目標情況下,探索數據內部結構的一種分析技術,目的是在一個數據集中發現、檢索出數據集中所有可能的關聯模式或相關性,但這種關系在數據中沒有直接表示或不能肯定。常用的關聯分析算法有:Apriori算法、FP-growth算法。該技術目前廣泛應用于各個領域,如我們在電商平臺瀏覽商品時都會顯示“購買此商品的顧客也同時購買”等提示語,這正是我們日常生活中接觸最多的關聯分析應用實例。二是聚類分析。是在沒有給定劃分類別的情況下,根據數據相似度按照某種標準進行樣本分組的一種方法。它的輸入是一組未被標記的樣本,聚類根據數據自身的距離或相似度將其劃分為若干組,使組內距離最小而組間距離最大。常用的聚類算法有K-Means、K-Medoids、DBSCAN、HC、EM等。當前,聚類分析在客戶分類、文本分類、基因識別、空間數據處理、衛星圖片分析、醫療圖像自動檢測等領域有著廣泛的應用。三是回歸分析。是指通過建立模型來研究變量之間相互關系的密切程度、結構狀態、模型預測的有效工具。常用的回歸模型有:線性回歸、非線性回歸、Logistic回歸等。四是決策樹。是一個預測模型,在已知各種情況發生概率的基礎上,通過構成決策樹來求取期望值大于等于零的概率、判斷可行性的決策分析方法,是直觀運用概率分析的一種圖解法。常用算法有CART、C4.5等。五是人工神經網絡。是人腦的抽象計算模型,是一個大型并行分布式處理器,由簡單的處理單元組成。它可以通過調整單元連接的強度來學習經驗知識,并運用這些知識推導出新的結果,屬于機器學習的一種。
二、大數據分析在金融監管領域主要運用場景
當前大數據在前瞻性研究、風險防控、客戶分析、輿情監測等方面都取得了巨大的成效,在金融領域實現了廣泛應用,有效地提升了金融監管的針對性,為金融管理、風險識別帶來了無限的可能性,成為當前不可或缺的分析手段之一。一是運用大數據開辟“線上溯源,線下打擊”的治假新模式。2015年5月,某省“雙打辦”聯合某電子商務企業發起行動。某電子商務企業首先運用大數據手段識別售假線索、鎖定犯罪嫌疑人、分析串并背后團伙,根據警方需求批量輸出線索用于偵查破案。行動期間,該省侵犯知識產權立案數同比上漲120%,破案數同比上漲77.3%。與傳統打假模式相比,“大數據治假”模式實現了對犯罪嫌疑人線索信息的實時收集,為執法部門線下查處和打擊提供了更精細、精準的線索和證據。二是運用大數據提升監管有效性。2016年,某交易所通過監控發現滬股通標的股票成交、股價漲勢存在明顯異常。運用大數據方法對歷史資料進行關聯匹配映射分析后發現,來自香港的證券賬戶與開立在內地的某些證券賬戶有操縱市場的重大嫌疑,根據上述線索,監管部門查獲唐某等人跨境操縱市場的違法事實,成為滬港通開通以來查處的首例跨境操縱市場案例。大數據方法為資本市場的進一步對外開放提供了新的監管思路。三是運用大數據實現風險分析、風險評級,打擊電信詐騙。通過收集和整理各行業、機構的黑名單,利用多樣化的機器學習模型及大數據關聯分析等技術,為銀行、個人等提供風險管控和反欺詐的服務;運用數據挖掘技術,發掘與相關賬戶信用相關的預警信息,形成預警信號并向相關風險管理系統主動推送,進而跟蹤預警信號處置流程,直至得出最終結論或風險管控方案,形成一個風險預警、通知、處置和關閉的閉環處理流程。四是運用大數據助力風控。例如,某電子商務企業旗下小貸平臺建立了決策系統,借助大數據分析結果選擇風險可控的企業開放信貸服務,實現貸前小額貸款風險管理控制,提升集約化管理的效率。該平臺信用貸款部分客戶的貸款年化利率可低至12%,對比原先降低6個百分點。依靠平臺和數據優勢,該平臺在風險控制方面已形成了多層次、全方位的微貸風險預警和管理體系,實際運行中該平臺的不良貸款率一直保持在1%以下,風險控制成效良好。
三、對大數據分析在外匯管理領域運用的思考
(一)引入大數據分析方法的必要性。近年來,外匯管理部門通過不斷完善國際收支申報體系和加強外匯管理信息化建設,掌握了海量的數據信息,為外匯管理從側重事前審批逐步轉向側重事后監測分析奠定了扎實的基礎。在當前主流的事后監測分析框架中,通常按照業務條線,采用“宏觀—中觀—微觀”自上而下遞進式分析方法。這種分析方法有一定的優點,可以實現對各業務系統的充分利用,與宏觀形勢和業務管理信息結合較為緊密。但同時也存在一些缺陷:一是數據之間關聯度不高,監測分析主要以各業務條線事后核查為主,數據相對分散,數據之間的關聯分析較弱,監測結果相對滯后;二是難以發現潛在風險苗頭,特別是在數據量巨大或關聯關系復雜等特定場景下,有時無法取得滿意的監測分析結果。在此背景下,可以考慮適時引入大數據分析方法。該分析方法是考慮在整合內部系統、互聯網等各類信息數據的基礎之上,利用數據挖掘、建模等工具方法,對企業、集團等主體、各類交易數據及互聯網信息進行多層次、多角度、多項目的情況分析,并通過反饋的結果,修改完善模型,不斷提高分析預測結果的準確性,既能解放大量人力資源,又有助于提高事中事后監管的針對性和效率,同時提高外匯管理的信息化程度。(二)大數據分析方法在外匯管理領域運用的具體思路。1.打造大數據監管中心,探索構建各類監管模型設立大數據監管中心,整合各業務系統數據及互聯網外部數據,構建各類監管模型,多層次、多角度、全方位對各類主體交易數據實施監管及風險防控,探索實現主體監管、本外幣一體化監管等,提升監管效率。一是交易數據監管。將當前各項法規、政策、制度數字化,建立合規性核查模型,通過對交易信息進行模擬仿真測試,獲取交易數據的邊界條件,判斷交易的合規性,自動報告不合規交易。二是交易風險預警。通過對以往違規的交易進行分析建模,結合當前的經濟金融形勢,對每筆交易進行風險分級,自動報告高風險的業務數據。監管部門判斷核查后,系統根據反饋結果通過機器學習等完善預警模型,不斷提升預警準確度。三是主體監管。以企業或集團公司為主體,整合利用全方位數據,運用神經網絡等技術對主體的投融資、結售匯、資金管理與調配等內部交易行為進行分析,了解不同類別主體異同點,對主體進行適當性分析評測,及時識別潛在違規行為。2.預測匯率、跨境收支走勢,了解并引導市場預期通過收集影響匯率變動、跨境收支相關因素信息,建立模型預測匯率、跨境收支走勢,并通過機器學習等方法,自動或人工調整模型,不斷提升預測結果的準確性,同時掌握902017.09市場預期,及時進行引導。一是匯率走勢預測。整理收集通貨膨脹、利率、政府債務、市場心理等影響匯率變化的信息,通過回歸等各類模型方法,分析某一項或多項與匯率之間關系,預測特定時間段匯率走勢。二是全國或地區跨境收支形勢預測。整理收集行業價格、匯率、經濟金融形勢等外部信息,觀測、分析經濟金融形勢、匯率、人民幣即期交易差價等對地區跨境收支或進出口的影響,預測跨境收支或進出口走勢變化。三是掌握人民幣匯率市場預期。收集網絡上關于人民幣匯率相關信息、搜索頻率等,通過文本分析等方法了解人民幣匯率走勢的市場預期,便于適時采取引導措施。3.輿情實時監測,快速預警反饋整理收集互聯網各大網站評論、博客等信息資源,嘗試以數據情感分析角度,實現對文本評論數據的傾向性判斷以及所隱藏的信息的挖掘并分析。一是獲取政策反響。收集各大網站某項政策的相關評論、帖子、博客等信息,通過深度學習、語義網絡等多種數據挖掘模型,分析判斷數據傾向性,以數據角度反映政策執行效果及反響,為政策的進一步完善提供參考。二是設立輿情監測平臺。運用數據倉庫、文本分析、機器學習、神經網絡等技術手段對金融敏感信息、輿論情況、政策解讀反響等進行實時監測、分析,全面覆蓋公共新聞網站、行業網站、微博、博客、論壇、貼吧等信息平臺,在第一時間捕獲相關輿情,并及時發送分析報告,合理引導市場預期。(三)初步實踐與嘗試。我們以某地區2015年1月至2016年10月涉外支出數據為例,對其與CNH、CNY進行了回歸分析。1.涉外支出與CNY回歸分析回歸預估方程為:涉外支出(億美元)=-52.15CNY+530.17。但P值為0.4912(一般認為P<0.05時通過顯著性檢驗),表明CNY與涉外支出無明顯關系。2.涉外支出與CNH回歸分析回歸預估方程為:涉外支出(億美元)=-24.05CNH+349.82。但P值為0.7526,表明CNH與涉外支出無明顯相關關系。3.涉外支出與CNY、CNH回歸分析回歸預估方程為:涉外支出(億美元)=2466.1CNH-2498.2CNY+364.6。其中CNH、CNY、截距項P值分別為2.3×10-5、1.9×10-5和0.246,表明CNH、CNY與涉外支出有顯著的相關性,截距項與涉外支出沒有明顯的相關性,擬合優度為0.5897。4.涉外支出與即期交易價差(CNH-CNY)回歸分析回歸預估方程為:涉外支出(億美元)=2489.06(CNH-CNY)+157.3,其中P值分別為3.73×10-12和1.38×10-5,表明兩項預估值的顯著水平均較為理想,擬合優度為0.6006。從上述情況可以看出涉外支出與即期交易價差存在較強的線性關系,即某地區涉外支出隨著人民幣價差(CNH—CNY)的收窄而減小,隨價差的擴大而增加。在知悉若干變量對另一變量存在影響的情況下,可使用該方法分析各自變量與因變量的具體相關性,逐步求取最優模型,獲取變量之間的線性關系,如:分析匯率與購匯金額之間的關系;分析產品進出口金額、進出口量與產品價格之間的關系。
四、政策建議
關鍵詞: 深度置信網絡; 深度學習; 受限波爾茲曼機; 短信
中圖分類號: TN911?34; TP391 文獻標識碼: A 文章編號: 1004?373X(2016)09?0037?04
Abstract: To improve the filtering effect of spam SMS, a feature extraction algorithm is proposed to convert SMS content into fixed length vector with word2vec tool by the analysis of Chinese SMS content and structure characteristics. The deep belief nets (DBN) were designed to learn and classify. The experimental results show that the generalization performance is increased by about 5% in comparison with the reported results.
Keywords: deep belief net; deep learning; restricted Boltzmann machine; SMS
0 引 言
每年移動運營商和國家都花費了大量的人力和物力進行垃圾短信治理,但公眾還是不滿意治理效果。目前移動運營商主要采用軟件過濾加人工干預的治理方式[1?3]。軟件過濾的算法原理主要有3類:有監督學習、無監督學習和半監督學習。單純的有監督學習[4?10]和無監督學習[11?12]在垃圾短信過濾過程中的效果還是值得肯定的[4?10],但這些學習和過濾算法目前已經不能適應于市場和機器學習環境,特別是深度學習算法理論的完善和應用發展為機器學習提供了廣闊空間[13]。
由于沒有公開的短信素材可以得到,利用以前所做項目收集的大約有300萬條短信作為實驗樣本,該樣本沒有主、被叫號碼、短信時間等涉及個人隱私的信息。本文首先提出充分利用word2vec工具,將短信內容轉化為固定長度向量的特征提取算法;然后設計了適合短信過濾的深度置信網絡對樣本進行學習和分類。實驗效果表明本文的方法是可行的,這為漢字內容分類提供了一種途徑。
1 短信內容向量化
按照有關規定,需要把短信內容分為: 敏感政治信息、黃色信息、商業廣告信息、違法犯罪信息、詐騙信息、正常信息等6大類(本文分別用zp,ss,sy,sh,sp,qt字母組合表示類名)。分類結果除了正常信息外,其余信息需要過濾和提交不同部門處理。將短信表示成為向量的過程主要需要三個步驟:短信預處理,短信分詞,向量化。
1.1 預處理
預處理主要包括非正規字詞替換(不妨稱為短信內容的正規化過程)。比如:“公$$司*_l@PIAO,酒折優惠,歡迎撥打:I39XXXXXXXX”。短信需要根據系統的諧音庫、拼音庫、繁體庫等標準進行內容轉換。同時剔除內容里面不相關的符號。結果這條短信就是“公司開發票,9折優惠,歡迎撥打:139XXXXXXXX”。
假設所有的短信集合記為[S,]記正規化過程對應的函數為[f1,]經過正規化處理的短信集合記為[G,]上面的過程可表達為:[?s∈S,f1(s)∈G。]
1.2 分詞
本文采用中國科學院計算技術研究所ICTCLAS系統(網址:)分詞。在分詞后,如果內容包含有數字,需要按照下面要求處理:
價格數字、電話或聯系號碼數字、商品數字、日期時間數字、其他數字等數字內容分別用AA,BB,CC,DD,NN替換。比如:“公司開發票,9折優惠,歡迎撥打:139XXXXXXXX”,分詞的結果應該是:“公司 開 發票 AA折 優惠 歡迎 撥打 BB”。
1.3 向量化
谷歌推出了將詞語轉換成詞向量的工具word2vec (https:///p/word2vec/)。工具的主要原理是Bengio模型[14]的一個改進和應用,Bengio模型主要理論是:設句子[S]依次由一系列關鍵詞[w1,w2,…,wt]組成, [wi]向量化的過程如圖1所示。
短信內容向量化算法過程描述如下:
(1) 每類按照一定比例取出大約21 280個訓練樣本。然后將每個短信正規化。
(2) 按照1.2節中的方法把正規化的短信進行分詞(每個詞語之間空格分隔),并形成如下的7個文本文件:rubbish.txt,所有樣本的分詞文件;zp.txt,ss.txt,sy.txt,sh.txt,sp.txt,qt.txt分別是敏感政治信息、黃色信息、商業廣告信息、違法犯罪信息、詐騙信息、正常信息等6大類訓練樣本對應的分詞文件。
(3) 對rubbish.txt,zp.txt,ss.txt,sy.txt,sh.txt,sp.txt,qt.txt,分別執行word2vec指令(格式:word2vec ?train 分詞文件名 ?output 向量化結果文件名 ?cbow 0 ?size 5 ?window 10 ?negative 0 ?hs 1 ?sample 1e?3 ?threads 2 ?binary 0),分別得到向量化結果文件rubbish.out,zp.out,ss.out,sy.out,sh.out,sp.out,qt.out。
向量化結果文件每行是一個詞語向量。比如: 擔保0.097 318 0.062 329 -0.068 594 0.087 311 -0.023 715。
(4) 在zp.out,ss.out,sy.out,sh.out,sp.out,qt.out中只保留頻率前20的主關鍵詞(不包括“AA”,“BB”,“CC”,“DD”,“NN”)的詞語向量,其余刪除。
3 實 驗
考慮到計算復雜度和參考文獻的經驗[19?20],本實驗最終采用有2個隱層的BP神經網絡,首先對BP網絡的權值采用DBN算法進行訓練得到,再采用BP算法對網絡權值進行微調。所有結果用Matlab進行仿真實驗。DBN訓練部分代碼采用DeepLearnToolbox?master工具包(https:///rasmusbergpalm/DeepLearnToolbox)。
在沒有考慮拒識的情況下,實驗結果如表1所示,DBN模型的實驗見圖4。其中:qt,sp,sh,ss,zp,sy訓練樣本數目分別是7 416,1 770,3 728,2 590,1 220,4 556;測試樣本數目分別是14 308,3 672,4 579,6 102,2 553,9 080。需要說明表格中比較對方的方法中只是針對文章用的模型本身和可還原的實驗場景(不能代表文章的全部真實場景)。
4 結 論
針對短信分類問題,有下面的結論:
(1) 兩個以上的隱層神經網絡的參數很難選擇,訓練時間比單隱層BP長,即使訓練效果好,推廣性能也不一定好,可能使多層BP收斂到局部極值。也就是在考慮BP網絡中,還是選擇單隱層BP比較好。
(2) DBN+BP網絡具有更好的訓練和推廣性能,因此在選擇多隱層BP網絡時,最好選擇DBN+BP方式(見圖4)。
(3) 本文中的效果好于表1中其他模型,主要有兩方面原因:首先在選擇特征上,采用了word2vec工具將詞向量化,考慮到了短信中詞的語義特征和統計特征;其次選擇DBN+BP模型,將監督和非監督學習有機結合起來,提高了學習效率和精度。
(4) 為了提高效果,接下來的工作需要在DBN最后層的設計上不局限于BP網絡;研究以單個漢字為單元的向量化對分類結果的影響;其他深度學習模型對效果的影響等理論上探討。
(5) 在實際應用過程中,特征可以把黑白手機名單、主叫、被叫、發送時間因素考慮上,同時分類器增加拒識率因素,還可以提高正確識別率。
參考文獻
[1] 何蔓微,袁銳,劉建勝,等.垃圾短信的智能識別和實時處理[J].電信科學,2008(8):61?64.
[2] 李海波,許建明.垃圾短信的現狀及過濾技術研究[J].硅谷,2011(24):110.
[3] 周冰.垃圾短信過濾技術與應用[J].中國新通信,2014(6):78.
[4] 秦建,孫秀鋒,吳春明.“垃圾短信”監控的中文多模式模糊匹配算法[J].西南大學學報(自然科學版),2013,35(3):168?172.
[5] 李輝,張琦,盧湖川.基于內容的垃圾短信過濾[J].計算機工程,2008,34(12):154?156.
[6] 張永軍,劉金嶺.基于特征詞的垃圾短信分類器模型[J].計算機應用,2013,33(5):1334?1337.
[7] 李慧,葉鴻,潘學瑞,等.基于SVM 的垃圾短信過濾系統[J].計算機安全,2012,13(6):34?38.
[8] 馮鷗鵬.垃圾短信過濾中字特征與詞特征對過濾效果的比較研究[D].北京:北京郵電大學, 2011.
[9] 徐易.基于短文本的分類算法研究[D].上海:上海交通大學,2010.
[10] 萬曉楓,惠孛.基于貝葉斯分類法的智能垃圾短信過濾系統[J].實驗科學與技術,2013,11(5):44?47.
[11] 鄭文超,徐鵬.利用word2vec對中文詞進行聚類的研究[J].軟件,2013,34(12):160?162.
[12] LE Q V. Building high?level features using large scale unsupervised learning [C]// Proceedings of 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver: IEEE, 2013: 8595?8598.
[13] SCHMIDHUBER J. Deep learning in neural networks: an overview [J]. Neural networks the official journal of the international neural network society, 2014, 61: 85?117.
[14] BENGIO Y, SCHWENK H, SEHECAO J S, et a1. A neural probabilistic language model [J]. Journal of machine learning research, 2003, 3(6): 1137?1155.
[15] MIKOLOV T, CHEN K, CORRADO G, et a1. Efficient estimation of word representations in vector space [C]// Procee?dings of 2013 ICLR Workshop. [S.l.: s.n.], 2013: 1?12.
[16] HINTON G, OSINDERO S, TEH Y. A fast learning algorithm for deep belief nets [J]. Neural computation, 2006, 18(7): 1527?1554.
[17] TIELEMAN T. Training restricted Boltzmann machines using approximations to the likelihood gradient [C]// Proceedings of 2008 the 25th International Conference on Machine Learning. [S.l.]: ACM, 2008: 1064?1071.
[18] 劉建偉,劉媛,羅雄麟.玻爾茲曼機研究進展[J].計算機研究與發展,2014,51(1):1?16.
[19] HUANG S C, HUANG Y F. Bounds on the number of hidden neurons in multilayer perceptrons [J]. IEEE transactions on neural networks, 1991, 21(1): 47?55.
關鍵詞:農業病蟲害;數據挖掘;關聯規則;Apriori算法;決策規則
中圖分類號:TP311 文獻標識碼:A 文章編號:0439-8114(2014)01-0203-03
Agriculture Disease Diagnosis Based on Improved Apriori Algorithm
MA Dong-lai1,ZHANG Wen-jing2a,QU Yun2b
(1. Hebei Software Institute, Baoding 071000,Hebei, China; 2a. College of Information Science & Technology;
2b. Academic Affairs Office, Agricultural University of Hebei, Baoding 071001, Hebei, China)
Abstract: The basic method of Apriori algorithm was introduced and modified in the three aspects including data item establishment, frequent item sets connection and the rule generation. Decision rule was set up for diagnosing drop diseases by the improved algorithm.
Key words: crop diseases and pests; data mining; association rule; Apriori algorithm; decision rule
收稿日期:2013-05-10
基金項目:河北省教育廳資助科研項目(Q2012139);2011年度河北農業大學青年科學基金項目(qj201238)
作者簡介:馬冬來(1981-),男(回族),河北保定人,講師,碩士,主要從事人工智能方面的研究,(電話)13513220212(電子信箱)。
農業病蟲害是影響農作物產量的一個重要因素。中國是農業大國,據統計,農作物受病蟲害的影響每年可造成15%~25%的經濟損失[1]。因此,農業病蟲害的診斷與防治對農業和經濟的發展具有重要意義[2]。一直以來,對農作物病害的診斷往往是依靠農民或專家的經驗并結合多種檢測手段進行。由于一些病蟲害的差異細微,很容易造成誤診。不同種類的致病病原物會使農作物的葉部呈現不同的病斑形狀。因此,在病害診斷中可將葉部病斑作為農作物病害的一個重要特征,對農作物的病害進行診斷[3]。
數據挖掘又稱為數據庫中知識發現(Knowledge Discovery from Database,簡稱KDD),是一種決策支持過程[4,5]。利用數據挖掘技術,可以在大量的農業數據中進行深層次的數據信息的分析,從而獲得農作物病蟲害產生的原因及環境等因素之間隱藏的內在聯系,對于有效識別及預防農作物病蟲害具有重要意義[6]。
1 Apriori算法
關聯規則挖掘是數據挖掘的一個重要領域,其目的是發現隱藏在數據庫中的各數據項集間深層次的關聯關系,分析出潛在的行為模式[7]。例如利用Apriori算法對大量的商品銷售記錄進行挖掘,可以發現不同商品之間存在的有價值的關聯關系。商家結合這些關系對商品目錄及擺放位置進行設計可以提高銷售額,還可以進行相關的商業決策[8]。Agrawal等[9]提出了挖掘關聯規則的Apriori算法,其核心是基于兩階段頻集思想的遞推算法。在Apriori算法中,關聯規則的挖掘分為兩步:利用候選項集生成頻繁項集,頻繁項集滿足“支持度大于最小支持度閾值”。利用最終的頻繁大項集生成關聯規則,規則滿足“置信度大于最小置信度”。其中的最小支持度閾值和最小置信度閾值都由用戶事先設定。
2 Apriori算法的改進
經典Apriori算法挖掘出的關聯規則一般滿足“A∧B∧C->D∧E”的模式。這些關聯規則側重于描述數據庫中的一組對象之間相互的關聯關系。而在農業病蟲害診斷的實際應用中,需要的是形如“A∧B∧C∧D->E”的規則。即根據A、B、C、D等的病害特征,可以推導出所患病害的種類。這就需要對經典的Apriori算法進行一些改動。
表1是由歷史經驗取得的一組關于某種農作物病害的數據。以這組數據為例,介紹利用改進后的Apriori算法對農業病害進行診斷的方法。
2.1 建立挖掘數據項
表1中每種病害的屬性下都有幾個不同的屬性值。如屬性“病斑顏色”共有“黑褐色病斑”、“粉紅色病斑”和“褐色病斑”3個屬性值。根據具體的病害數據的特點,將算法挖掘的數據項設置成“屬性.屬性值”的形式。各數據項的屬性對照表如表2。
結合屬性對照表,可將表1中原始的農業病害數據轉換為適合挖掘的數據表(表3)。
2.2 挖掘頻繁項集
Apriori算法利用兩個頻繁(k-1)項集連接生成新的頻繁k項集,前提是,這兩個頻繁(k-1)項集的前(k-2)項相同。如對于頻繁3項集“1.3,2.2,3.2”和“1.3,2.2,3.3”,按照連接規則,應該生成新的候選4-項集“1.3,2.2,3.2,3.3”。根據表2,可知3.2和3.3是屬性“病斑形狀”的兩種不同取值(“半圓形”和“不規則”)。即項集3.2和3.3是互斥的關系,不可能共存。因此,對這種情況不進行連接。按照這種新的連接規則,對于表3的農業病害數據庫進行挖掘,再經過最小支持度10%的篩選,最終得到的為頻繁5-項集(表4)。
2.3 生成診斷規則
找出最大頻繁項集之后,Apriori便開始生成關聯規則。具體方法是:生成頻繁項集L的所有非空子集,并依次計算每個非空子集S的置信度。若置信度不小于用戶事先設定的最小置信度閾值,則生成一個關聯規則“S->(L-S)”。如對頻繁項集“1.1,2.1,3.1,4.1,5.1”可以生成規則“1.1∧2.1∧3.1->4.1∧5.1”,這樣,規則的右端也是多個屬性的集合。這種關聯規則側重于描述多個屬性項之間的關聯關系,而非一個可以推導出結論的決策規則。
在農業病害診斷中,單單幾個病害屬性間的關聯關系是沒有實際意義的,需要挖掘出一個可以幫助專家進行病害診斷的決策規則。即形似“A∧B∧C->D”的規則。按照這種需求,首先對于類別屬性“病害名稱”(即5.1,5.2,5.3)只能出現在規則的右端;其次在規則的右端,除了“病害名稱”屬性之外,不能再出現其他的屬性。只有同時滿足這兩個條件的規則才是有意義的。
按照這一要求,在產生規則時,只需計算除“病害名稱”屬性之外的子集的置信度(保證規則的右端L-S為“病害名稱”)。如,對挖掘出的頻繁5-項集“1.1,2.1,3.1,4.1,5.1”,只計算除去“病害名稱”屬性5.1的所有子集的置信度,再按照“置信度不小于最小置信度閾值”的條件進行篩選,最后生成的決策規則如表5。
將表5和屬性對照表(表2)對照后,可轉換成直觀的規則,如表6所示。這樣專家就可以結合表6對農作物的具體病害做出一個更為準確的判斷。
3 小結
農作物病害的診斷具有重要的經濟意義。利用數據挖掘技術,按病害部位、病害特征等屬性對大量的數據進行分析,可以驗證已知的經驗規律,揭示出未知的隱藏信息。進一步將其模型化,可以挖掘出隱藏的農作物病蟲害的發病特征、變異等信息,帶來巨大的社會效益和經濟效益。
另外,利用改進的Apriori算法還可以挖掘出醫學等其他領域的決策規則,并可以建立各種知識庫,建立專家系統,拓展關聯規則Apriori算法的應用范圍。
參考文獻:
[1] 劉乃森,劉福霞.人工神經網絡及其在植物保護中的應用[J].安徽農業科學,2006,34(23):6237-6238.
[2] 黃光明.Apriori算法在農業病蟲害分析中的應用[J].安徽農業科學,2009,37(13):6028-6029.
[3] 金海月,宋 凱.決策樹算法在農業病害診斷中的應用[J].當代農機,2007(5):76-77.
[4] 張永賓.DM在分析客戶忠誠度的應用[J].商場現代化,2008(34):38-39.
[5] 李 斗,李弼程.一種神經網絡文本分類器的設計與實現[J].計算機工程與應用,2005(17):107-109.
[6] 謝艷新.數據挖掘技術在水稻病蟲害系統中的設計與實現[J]. 湖北農業科學,2011,50(11):2340-2342.
[7] 謝宗毅.關聯規則挖掘Apriori算法的研究與改進[J].杭州電子科技大學學報,2006,26(3):78-82.
關鍵詞:電力設備檢修;文本數據;文本挖掘;大數據挖掘
隨著信息化的快速發展,國家電網公司各專業積累的數據量越來越龐大。龐大數據的背后,由于數據結構和存儲方式的多樣化以及電力系統內部不同專業從業者的知識面層次不齊等,其中被利用的數據只占少量的部分,造成大量的有價值數據被浪費。在被浪費的數據中,以文本形式存在的數據占很大比重,如何從比較復雜的文本數據中獲得需要的數據受到國家電網公司的普遍關注。國家電網公司經過SG186、三集五大等大型信息化工程的建設,積累了海量的業務數據,其中包括大量的文本數據。目前,國家電網公司對業務數據的利用主要集中在結構化數據的統計和分析,這些方法無法直接應用在非結構化文本數據中,更無法對其中隱含的價值規律進行深度分析挖掘。針對非結構化文本數據量不斷增大、業務應用范圍不斷擴大這一現狀,為了提升國家電網公司企業運營管理精益化水平,需要進一步挖掘非結構化數據中潛在的數據價值。因此,開展電力大數據文本數據挖掘技術應用場景和一般流程的研究顯得尤為重要[1]。
1非結構化數據概述
與結構化數據(能夠用二維表結構遵循一定的邏輯語法進行體現的數據)相比,非結構化數據不能在數據庫中采用二維結構邏輯形式來表示,這些形式主要有Word文檔、文本、圖片、標準通用標記語言下的子集XML、HTML、Excel報表、PPT、Audio、Video、JPG、BMP等。半結構化數據處于完全結構化數據(邏輯型、關系型數據庫中的數據)和完全無結構化數據(BMP、JPG、Video文件)中間,它一般的功能是對系統文件的描述,如系統應用幫助模塊,有一定的邏輯結構,同時也包含數據格式,兩者相融在一起,比較均衡,沒有明顯的界限[2]。進入21世紀后,網絡技術飛速發展,特別是內聯網和因特網技術取得突飛猛進的發展,各類非結構數據類型格式日益增多,以往的數據庫主要用于管理結構化數據,對于非結構化數據的管理稍顯乏力,為了適應非結構數據的迅猛發展,數據庫的革新勢在必行,在內聯網和因特網技術的基礎上,對數據庫的內在結構進行改進和創新,使其能夠兼容和處電力信息與通信技術2016年第14卷第1期8電力大數據技術理非結構數據形式。北京國信貝斯是我國非結構化數據庫開發和設計的領軍者,其旗下開發的IBase數據庫能夠兼容和處理目前市面上存在的各種文件名、格式、多媒體信息,能夠基于內聯網和互聯網對海量信息進行搜索、管理,技術已經達到全球領先水平。
2文本挖掘技術
2.1文本挖掘
文本挖掘的對象是用自然語言描述的語句、論文、Web頁面等非結構化文本信息,這類信息無法使用結構化數據的挖掘方法進行處理;文本挖掘指通過對單個詞語和語法的精準分析,通過分析結構在海量的非結構化數據中檢索意思相近的詞語、句子或者信息[3]。
2.2文本挖掘流程
挖掘流程如圖1所示。圖1挖掘流程Fig.1Miningprocedure1)文本預處理:把與任務直接關聯的信息文本轉化成可以讓文本挖掘工具處理的形式,這個過程分3步:分段;預讀文本,把文本特征展現出來;特征抽取。2)文本挖掘:完成文本特征抽取后,通過智能機器檢索工具識別符合主題目標的文段信息,在海量信息或者用戶指定的數據域中搜索與文本預處理后得出的文本特征相符或相近的數據信息,然后通過進一步識別和判斷,達到精確檢索的目的,這是一個非常復雜的過程,縱跨了多個學科,包括智能技術、信息技術、智能識別技術、非結構數據庫技術、可視化技術、預處理技術、讀碼技術等。3)模式評估:模式評估是用戶根據自己的需求主題設置符合自己需求主題或目標的模式,把挖掘到的文本或信息與自己設置的模式進行匹配,如果發現符合主題要求,則存儲該數據和模式以方便用戶調用,如果不符合,則跳轉回原來的環節進行重新檢索,然后進行下一個匹配過程的模式評估。
2.3文本挖掘技術分析
解決非結構化文本挖掘問題,現階段主要有2種方法:一是探索新型的數據挖掘算法以準確挖掘出相應的非結構化數據信息,基于數據本身所體現的復雜特性,使得算法的實施愈加困難;二是把非結構化問題直接轉換成結構化,通過實施相應的數據挖掘技術達到挖掘目的。而在語義關系方面,就要應用到特定的語言處理成果完成分析過程。下文是根據文本挖掘的大致流程來介紹其所用到的相關技術。
2.3.1數據預處理技術
文本數據預處理技術大致可分為分詞技術、特征表示以及特征提取法。1)分詞技術主要有兩大類:一種為針對詞庫的分詞算法;另一種為針對無詞典的分詞技術。前者主要包含正向最大/小匹配和反向匹配等。而后者的基礎思路為:在統計詞頻的基礎上,把原文中緊密相連的2個字當作一個詞來統計其出現的次數,若頻率較高,就有可能是一個詞,當該頻率達到了預設閾值,就可把其當作一個詞來進行索引。2)特征表示通常是把對應的特征項作為本文的標示,在進行文本挖掘時只需要處理相對應的特征項,就能完成非結構化的文本處理,直接實現結構化轉換目的。特征表示的建立過程實際上就是挖掘模型的建立過程,其模型可分為多種類型,如向量空間模型與概率型等[5]。3)特征提取法通常是建立起特定的評價函數,以此評價完所有特征,然后把這些特征依照評價值的高低順序進行排列,將評價值最高項作為優選項。在實際文本處理過程中所應用的評價函數主要包括信息增益、互信息以及詞頻等。
2.3.2挖掘常用技術
從文本挖掘技術的研究和應用情況來看,在現有的文本挖掘技術類別中應用較為廣泛的主要包括文本分類、自動文摘以及文本聚類[4-5]。1)文本分類。文本分類是給機器添加相應的分類模型,當用戶閱讀文本時能夠更為便捷,在搜索文本信息時,能夠在所設定的搜索范圍內快速和準確的獲取。用于文本分類的算法較多,主要有決策樹、貝葉斯分類、支持向量機(SVM)、向量空間模型(VectorSpaceModel,VSM)、邏輯回歸(LogisticRegression,LR)以及神經網絡等。2)自動文摘。自動文摘是通過計算機技術智能的把原文的中心內容濃縮成簡短、連續的文字段落,以此來盡可能地降低用戶閱讀的文本信息量。3)文本聚類。文本聚類與文本分類的作用大抵相同,所實施的過程有所區別。文本聚類是將內容相近的文本歸到同個類別,盡可能地區分內容不同的文本。其標準通??梢砸勒瘴谋緦傩曰蛘呶谋緝热輥磉M行聚類。聚類方法大致可分為平面劃分法與層次聚類法。另外,除了上述常用的文本挖掘技術,許多研究還涉及關聯分析、分布預測分析和結構分析等。
2.3.3文本挖掘系統模式評估方法
數據挖掘系統的評估是至關重要的,現在已有大量的研究來衡量這一標準,以下是公認的評估方法。1)查全率和查準率。查全率代表實際被檢出的文本的百分比;查準率是所檢索到的實際文本與查詢相關文本的百分比。2)冗余度和放射性。冗余度表示信息抽取中冗余的程度;放射性表示一個系統在抽取事實不斷增多時產生錯誤的趨勢。最低的冗余度和放射性是系統追求的最終目標。3)雙盲測試。先用機器生成一組輸出結果,再由相關專家產生一組輸出結果,然后混合2組輸出結果,這種混合后的輸出集再交給另一些相關專家進行驗證,讓他們給予準確性方面的評估。
3電力行業文本挖掘可研究實例
文本挖掘技術在國內電力行業屬于新興的前沿領域,對從業人員的素質要求相對比較高。由于現階段知識和技術層面上匱乏,國家電網幾乎沒有關于此方面的項目實施。本節通過2個電力運營監測業務的應用需求,初步探討文本挖掘的建模過程。
3.1電力運營監測業務應用需求
1)檢修資金投入工作效能分析場景分析。大檢修和技改是保障電網安全的重要工作。由于運檢業務系統的數據質量問題,通過對量化數據的統計,無法準確掌握大修、技改資金投入的工作效能情況。但設備的實際運行狀態可以通過文本類故障記錄、運行日志等進行反映,因此,采用文本挖掘技術對檢修工作效能進行分析與可視化展現,同時結合傳統的統計方法,實現對大修技改資金投入工作效能的分析和監測。例如,可以通過分析歷年的故障記錄信息,反映出每年主要故障變化情況,進而結合每年大修技改資金投入情況,分析資金投入是否與預期目標相一致。2)家族缺陷識別分析。家族缺陷是指同一廠家生產的同一型號、同一批次的設備在運行過程中出現了相同或相似的缺陷。家族缺陷識別分析是通過對運行記錄、故障記錄等設備運行文本信息的挖掘和可視化分析,對設備家族缺陷進行識別。該場景既可以輔助基層業務人員對家族缺陷進行準確判斷,同時可以作為一種輔助手段為總部專家判定家族缺陷提供參考,從而實現對家族缺陷辨識方式的優化,并基于此為檢修計劃制定、廠商評價、采購建議等提供決策支撐。
3.2文本分析建模過程
第1步:將原始的非結構化數據源轉換為結構化數據,分析文本集合中各個文本之間共同出現的模式;匯總與家族缺陷相關的所有文檔,形成原始數據源的集合。第2步:對原始數據源的集合進行分詞處理,建立特征集,使用詞頻/逆文檔頻率(TermFrequency-InverseDocumentFrequency,TF/IDF)權值計算方法得到各個點的維度權值,判斷關鍵字的詞頻,例如“主變1號”運行記錄中多次出現,但在故障記錄中很少出現,那么認為“主變1號”有很好的類別區分能力。第3步:對分詞后的文檔建立索引,匯總所有文檔的索引形成索引庫,并對索引庫排序。第4步:文檔向量化;構建向量空間模型,將文檔表達為一個矢量,看作向量空間中的一個點;實際分析過程中對多維數據首先將其降低維度,降低維度后得到一個三維空間模型,文檔向量化生成文檔特征詞對應表、文檔相似度表。第5步:結合業務實際,對相似度較高的表中出現的關鍵字進行比對,例如:“主變1號”、“停電故障”等關鍵字在多個日志中頻繁出現,則該文檔所記錄的相關設備存在異常的可能性較大。
3.3文本分析應用及成效
對生產信息管理系統中報缺單數據中的報缺單名稱進行文本聚類,實現對缺陷的細分,進而對各類別在非聚類變量上進行分析,得出各類別的缺陷特征。經過近一年以來在國網遼寧電力公司的逐步應用,科學的分析挖掘出缺陷主要集中在開關、主變、指示燈、直流、冷卻器、調速器等設備,主要出現啟呂旭明(1981–),男,河北保定人,高級工程師,從事電力企業信息化、智能電網及信息安全研究與應用工作;雷振江(1976–),男,遼寧沈陽人,高級工程師,從事電力信息化項目計劃、重點項目建設、信息技術研究與創新應用、信息化深化應用等相關工作;趙永彬(1975–),男,遼寧朝陽人,高級工程師,從事電力信息通信系統調度、運行、客服及信息安全等相關工作;由廣浩(1983–),男,遼寧遼陽人,工程師,從事信息網絡建設、信息安全等工作。作者簡介:動、漏水、停機、滲水等缺陷現象。公司故障處理快速響應、及時維修、提高供電質量和服務效率得到了顯著的提升。電力設備故障缺陷特征示意如圖2所示。
4結語
國家電網文本挖掘的目的是從海量數據中抽取隱含的、未知的、有價值的文本數據,利用數據挖掘技術處理電力公司文本數據,將會給企業帶來巨大的商業價值。本文提出的關于檢修資金投入工作效能分析和家族缺陷識別分析2個文本挖掘實例只是文本挖掘在電力行業應用的一角。如今,數據挖掘技術與電力行業正處于快速發展階段,文本挖掘的應用將越來越廣泛。下一階段的研究目標是探尋有效辦法將數據挖掘技術融入到文本挖掘領域的實際應用中,使得國家電網文本挖掘項目得以順利實施,并達到預期成效。
作者:呂旭明 雷振江 趙永彬 由廣浩 單位:國網遼寧省電力有限公司 國網遼寧省電力有限公司 信息通信分公司
參考文獻:
[1]費爾德曼.文本挖掘(英文版)[M].北京:人民郵電出版社,2009.
[2]孫濤.面向半結構化的數據模型和數據挖掘方法研究[D].吉林:吉林大學,2010.
[3]胡健,楊炳儒,宋澤鋒,等.基于非結構化數據挖掘結構模型的Web文本聚類算法[J].北京科技大學學報,2008,30(2):217-220.HUJian,YANGBing-ru,SONGZe-feng,etal.Webtextclusteringalgorithmbasedonnonstructuraldataminingmodel[J].JournalofUniversityofScienceandTechnologyBeijing,2008,30(2):217-220.
關鍵詞:文本挖掘;文本特征表示;特征提??;模式識別
文本挖掘主要完成從大量的文檔中發現隱含知識和模式的任務,一般處理的對象都是海量、異構、分布的文檔。傳統數據挖掘所處理的數據是結構化存儲于數據庫當中,而文檔都是半結構或無結構的。所以,文本挖掘面臨的首要問題是如何在計算機中表示文本,使之包含足夠的信息反映文本的特征。目前的網絡信息中80%是以文本的形式存放,Web文本挖掘是Web內容挖掘的重要內容。
文本的表示與特征提取是文本挖掘領域中的基本問題。目前通常采用向量空間模型生成文本向量來表示非結構化的文本數據。但直接通過分詞與詞頻統計得到的高維度文本向量作為文本表示,不僅給文本理解等后續任務,比如:文本分類、聚類等,帶來巨大的計算開銷,且精確也會受到影響。因此,研究有效的文本特征選擇與壓縮方法來進行降維處理,是十分必要的。
目前有P文本表示的研究主要集中在文本表示模型方法與特征選擇算法方面。用于表示文本的基本單位通常稱為文本的特征或特征項。在中文文本中,采用字、詞或短語作為表示文本的特征項。目前大多數中文文本分類系統都采用詞作為特征項。(但考慮到文本挖掘的不同具體任務,有時也會將字或者短語作為特征項。)如果把所有的詞都作為特征項,那么其特征向量的維數將非常高,要高性能地完成文本分類、聚類等文本理解任務將非常困難。特征提取與壓縮主要是為了保持文本核心信息表達的同時,盡量降低特征向量的維度,從而提高文本處理的效率。
特征提取主要有如下四種思路:一是用映射或變換的方法把原始特征變換為較少的新特征;二是從原始特征中選取一些最具代表性的特征;三是根據專家知識選取最有影響的特征;四是用統計方法找出最具分類信息的特征,這種方法適合于文本分類任務。下面將從文本特征評估方法、文本特征選擇方法、以及基于領域語義理解的文本特征提取方法等方面,對文本表示與特征提取研究領域現有的研究成果進行綜述,然后再展望未來文本特征表示與提取技術可能的研究熱點。
1 主流基于統計的文本特征評估方法
1.1 詞頻(TF: Term Frequency)、文檔頻度(DF: Document Frequency)與TFIDF
(1)詞頻(TF: Term Frequency):即一個詞在文檔中出現的次數。將詞頻小于某一閾值的詞刪除,從而降低特征空間的維數,完成特征選擇。該方法是基于出現頻率小的詞對文本表達的貢獻也小這一假設。但有時在信息檢索方面,頻率小的詞可能含有更多信息。因此,不宜簡單地根據詞頻來選擇特征詞。
(2)文檔頻度(DF: Document Frequency):即統計在整個數據集中有多少個文檔包含該詞。在訓練文本集中對每個特征詞計算其文檔頻度,并且根據預設閾值去除那些文檔頻度超高或超低的特征詞。文檔頻度的計算復雜度較低,適用于任何語料,常用于語特征降維。
考慮到文檔頻度超高或超低的特征詞分別代表了“代表性弱”或“區分度低”這兩種極端情況,故而需要刪除。DF 的缺陷是有些稀有詞可能在某一類文本中并不稀有,即可能包含著重要的類別信息,如果舍棄將可能影響分類精度。
(3)TFIDF:它是由Salton在1988 年提出的。其中IDF稱為反文檔頻率,用于計算該詞區分文檔的能力。TF*IDF 的基本假設是在一個文本中出現很多次的單詞,在另一個同類文本中出現次數也會很多,反之亦然;同時考慮單詞含有的類別區分能力,即:認為一個單詞出現的文檔頻率越小,其類別區分能力越大。
TFIDF算法用于特征詞權值估計就是為了突出重要單詞,抑制次要單詞。但IDF的假設認為文本頻數小的單詞就越重要,文本頻數大的單詞就越無用,并不能有效地反映單詞的重要程度和特征詞的分布情況,使其無法很好地完成對權值調整的功能,導致TFIDF算法法的精度并不是很高。特別是,TFIDF算法中沒有體現出單詞的位置信息對其重要性的影響,對于Web文檔而言,權重的計算方法應該體現出HTML的結構特征。特征詞在不同的標記符中對文章內容的反映程度不同,其權重的計算方法也應不同。因此如何對于在網頁不同位置的特征詞分別賦予不同的系數,然后乘以特征詞的詞頻,以提高文本表示的效果,成為了研究者關注的熱點。
1.2 統計詞與類別信息相關度的文本特征評估方法
互信息:互信息用于衡量某個詞和某個類別之間的統計獨立關系。
互信息作為計算語言學模型常用分析方法,原是信息論中的概念,用于表示信息之間的關系,即兩個隨機變量統計相關性測度。它被用于特征提取是基于如下假設:在某個特定類別出現頻率高,但在其它類別出現頻率比較低的詞條與該類的互信息比較大??紤]到無需對特征詞和類別之間關系的性質作任何假設,非常適合于文本分類的特征和類別匹配工作。
特征詞和類別的互信息體現了特征詞與類別的相關程度,被廣泛用于建立詞關聯統計模型。它與期望交叉熵不同,它沒有考慮特征詞出現的頻率,使得互信息評估函數更傾向于選擇稀有詞而非有效高頻詞作為文本的最佳特征。以互信息作為提取特征值的評估方法時,最終會選取互信息最大的若干特征詞構成文本向量。互信息計算的時間復雜度平均值等同于信息增益,它不足之處在于權重受詞條邊緣概率影響較大。當訓練語料庫沒有達到一定規模的時候,特征空間中必然會存在大量的出現文檔頻率很低(比如低于3 次)的詞條,而較低的文檔頻率必然導致它們只屬于少數類別。但是從實驗數據中發現,這些抽取出來的特征詞往往為生僻詞,很少一部分帶有較強的類別信息,多數詞攜帶少量的類別信息,甚至是噪音詞。
二次信息熵:將二次熵函數取代互信息中的Shannon熵,形成基于二次熵的互信息評估函數。它克服了互信息的隨機性。作為信息的整體測度,比互信息最大化的計算復雜度要小,可提高分類任務征選取的效率。
期望交叉熵:也稱KL距離。反映的是文本某一類的概率分布與在某特征詞的條件下該類的概率分布之間距離,特征詞w的交叉熵越大,對文本類的分布影響也越大。它與信息增益不同,它沒有考慮單詞未發生的情況,只計算出現在文本中的特征項。如果特征項和類別強相關,即:P ( Ci | w )就大,而P( Ci) 又很小,則說明該特征詞對分類的影響大。交叉熵的特征選擇效果都要優于信息增益。
信息增益方法:用于度量已知一個特征詞在某類別的文本中是否出現對該類別預測的影響程度。信息增益是一種基于熵的評估方法,用于評估某特征詞為整個分類所能提供的信息量,即:不考慮任何特征詞的熵與考慮該特征后的熵的差值。根據訓練數據,計算出各個特征詞的信息增益,刪除信息增益很小的,其余的按照信息增益從大到小排序。某個特征項的信息增益值越大,對分類也越重要。
信息增益最大的問題是:它只能考察特征詞對整個分類系統的貢獻,而不能具體到某個類別上,這就使得它只適合用來做所謂“全局”的特征選擇(指所有的類都使用相同的特征集合),而無法做“本地”的特征選擇(每個類別有自己的特征集合,因為有的詞,對這個類別很有區分度,對另一個類別則無足輕重)。
其它的文本特征評估方法:比如卡方統計量方法、文本證據權、優勢率等,這些方法也都是用于評估特征詞與文本類別的相關性。其中,在卡方統計和互信息的不同在于, 卡方統計其評估權重只對在同類文本中的詞是可比的, 另外,它對低頻詞評估實用性不高。
2 主流的文本特征選擇方法
2.1 N-Gram算法
其基本思想是將文本內容按字節流進行大小為N的滑動窗口分段,形成長度為N的字節片段序列。每個字節片段稱為一個N-Gram單元,對全部N-Gram單元的出現頻度進行統計,并按照事先設定的閾值進行過濾,形成關鍵N-Gram列表,作為該文本的特征向量空間。由于N-Gram算法可避免中文分詞錯誤的影響,適用于中文文本處理。中文文本處理大多采用雙字節進行分解,即:bigram。但是bigram切分方法在處理20%左右的中文多字~時,會產生語義和語序方面的偏差。而對于專業領域文本數據,多字詞常常是文本的核心特征,處理錯誤將導致負面影響。于是有研究者提出改進的基于N-Gram文本特征提取算法,即:在進行bigram切分時,不僅統計bigram的出現頻度,還統計某個bigram與其前鄰bigram的共現情況。當共現頻率大于預設閾值時,將其合并成為多字特征詞。該算法,較好地彌補N-Gram算法在處理多字詞方面的缺陷。
2.2主成分分析算法
該算法通過搜索最能代表原數據的正交向量,建立一個替換的、較小的特征集合,將原數據投影到這個較小的集合。主成分分析(PCA)按其處理方式的不同,又分為數據方法和矩陣方法。矩陣方法中,所有數據通過計算方差-協方差結構在矩陣中表示出來,矩陣的實現目標是確定協方差矩陣的特征向量,它們和原始數據的主要成分相對應??紤]到矩陣方法的計算復雜度隨著數據維度n的增加,以n的二次方增長,有研究者提出了使用Hebbian學習規則的PCA神經網絡方法。
2.3遺傳算法與模擬退火算法
(1)遺傳算法(Genetic Algorithm, GA):是一種通用型的優化搜索方法,它利用結構化的隨機信息交換技術組合群體中各個結構中最好的生存因素,復制出最佳代碼串,并使之一代一代地進化,最終獲得滿意的優化結果。如果將文本看作是由若干個特征詞構成的多維空間,那么將文本特征提取問題就轉化為了文本空間的尋優過程。有研究者已經將遺傳算法應用于這個尋優過程中。首先對文本空間進行編碼,以文本向量構成染色體,通過選擇、交叉、變異等遺傳操作,不斷搜索問題域空間,使其不斷得到進化,逐步得到文本的最優特征向量。
基于協同演化的遺傳算法使用其它的個體來評價某一特定個體。個體優劣的標準是由在同一生存競爭環境中的其它個體決定。這種協同演化的思想與處理同類文本的特征提取問題相吻合。同一類別文本相互之間存在著相關性,各自所代表的那組個體在進化過程中存在著同類之間的相互評價和競爭。因此,每個文本的特征向量(個體)在不斷的進化過程中,不僅受到其母體(文本)的評價和制約,而且還受到其它同類個體的指導?;趨f同演化的遺傳算法不僅能反映其母體的特征,還能反映其它同類文本的共性,從而有效地解決同一類別的多個文本的集體特征向量的提取問題,獲得反映整個文本集合最佳特征向量。
(2)模擬退火算法:將特征選取看作組合優化的問題,因而可以使用解決優化問題的方法來解決特征選取的問題。模擬退火算法(Simulating Anneal,SA)就是其中一種方法。將模擬退火算法運用到特征選取中,理論上可以找到全局最優解,但在初始溫度的選取和鄰域的選取時,需要找到有效的策略來綜合考慮解的性能和算法的速度。
3 詞向量(word embedding)
深度學習(Deep Learning)中一般用到的詞向量是用詞向量(Word Embedding)或分布式表達方法( Distributed Representation)所表示的一種低維實數向量。維度以 50 維和 100 維比較常見。這種向量的表示不是唯一的。詞向量的提出,為的是將相關或者相似的詞,在距離上更接近。向量的距離可以用最傳統的歐氏距離來衡量,也可以用 cos 夾角來衡量。比如:用這種方式表示的向量,“麥克”和“話筒”的距離會遠遠小于“麥克”和“天氣”??赡芾硐肭闆r下“麥克”和“話筒”的表示應該是完全一樣的,但是由于有人會把英文名“邁克”也寫成“麥克”,導致“麥克”一詞帶上了一些人名的語義,因此不會和“話筒”完全一致。該方法很好地解決了傳統的文本特征向量用于文本挖掘任務時可能出現的維數災難問題,因而被很多研究者廣泛地用于各類文本挖掘的任務當中。
4 基于領域語義理解的文本特征提取方法
4.1基于語境框架的文本特征提取方法
有研究者發現,單單依靠統計無法完成語義分析。沒有考慮句子的語義以及句子間的關系的情況下,無法提取準確的文本特征向量來表達文本語義。因此,研究者提出將語義分析與統計算法相結合的語境框架算法,并獲得了豐富的研究成果。可以將語境框架看作是一個三維的語義描述框架,即:把文本內容抽象為領域(靜態范疇)、情景(動態描述)、背景(褒貶、參照等)三個模塊。在語境框架的基礎上,從語義分析入手,實現了四元組表示的領域提取算法、以領域句類為核心的情景提取算法、以對象語義立場網絡圖為基礎的褒貶判斷算法。該算法可以有效地處理語言中的褒貶傾向、同義、多義等現象,表現出較好的特征提取能力。
4.2基于本體論的文本特征提取方法
有研究者提出了應用本體論(Ontology)模型,有效地解決特定領域知識的描述問題。比如:針對數字圖像領域的文本特征提取問題,可以通過構建文本結構樹,給出特征權值的計算公式。算法充分考慮特征詞的位置以及相互之間關系的分析,利用特征詞統領長度的概念和計算方法, 能夠更準確地進行特征詞權值的計算和文本特征的提取。
4.3基于Z義網絡的概念特征提取方法
文本挖掘,特別是中文文本挖掘,處理的對象主要有字、詞、短語等特征項。但字、詞、短語更多體現的是文檔的詞匯信息,而非語義信息,因而無法準確表達文檔的內容。目前的大多數關于文本特征提取的研究方法只注重考慮特征發生的概率和所處的位置,缺乏語義方面的分析。向量空間模型(VSM)最基本的假設是各個分量相互正交,但事實上,作為分量的特征詞間存在很大的相關性,無法滿足模型的假設?;诟拍畹奶卣魈崛》椒ㄊ窃赩SM的基礎上,對文本進行部分語義分析,利用英文的WordNet或中文的知網等語義網絡獲取詞匯的語義信息,將語義相同的詞匯映射到同一概念,進行概念聚類。用概念作為文檔向量的特征項, 這樣就能夠比一般詞匯更加準確地表達文檔內容,減少特征之間的相關性和同義現象,從而有效降低文檔向量的維數,減少文檔處理計算量,提高特征提取的精度和效率。
5 總結與展望
本文對近年來文本特征提取研究領域所取得的研究成果進行了全面的綜述。隨著人工智能深度學習技術的發展,在未來幾年中,將可能從以下幾個方面取得突破:(1)文本特征提取及文本挖掘在專業領域,比如:金融領域、軍事領域等的應用研究。(2)新的文本特征表示模型,比如考慮使用層次結構的向量對文本進行建模,關鍵詞向量能快速定位用戶的興趣領域,而擴展詞向量能準確反映用戶在該領域上的興趣偏好。結合領域知識,采用概念詞、同義詞或本體來代替具體的關鍵詞成為特征詞,體現語義層面的需求和分析。(3)改進分詞算法。比如針對特征提取的需要,應用深度學習算法框架,建構高性能的分詞系統。(4)改進特征評價函數。比如考慮將表達文本結構的特征提取與表達文本語義的特征提取進行交叉解碼,即對特征詞的權重從表達文本結構與文本語義兩個層面進行評價。
責編/魏曉文
參考文獻
[1] Bengio Y, Schwenk H, Senécal J, et al. Neural Probabilistic Language Models[J]. Journal of Machine Learning Research, 2003, 3(6):1137-1155.
[2] Salton G, Buckley C. Buckley, C.: Term-Weighting Approaches in Automatic Text Retrieval. Information Processing & Management 24(5), 513-523[J]. Information Processing & Management, 1988, 24(5):513-523.
[3] 劉健, 張維明. 基于互信息的文本特征選擇方法研究與改進[J]. 計算機工程與應用, 2008, 44(10):135-137.
[4] 成衛青, 唐旋. 一種基于改進互信息和信息熵的文本特征選擇方法[J]. 南京郵電大學學報(自然科學版), 2013, 33(5):63-68.
[5] Cavnar W B, Trenkle J M. N-Gram-Based Text Categorization[C]// In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, US. 1994:161--175.
[6] 陳素芬, 曾雪強. 中心修正增量主成分分析及其在文本分類中的應用[J]. 中文信息學報, 2016, 30(1):108-114..
[7] 郝占剛, 王正歐. 基于潛在語義索引和遺傳算法的文本特征提取方法[J]. 情報科學, 2006, 24(1):104-107.
[8] 晉耀紅, 苗傳江. 一個基于語境框架的文本特征提取算法[J]. 計算機研究與發展, 2004, 41(4):582-586.