時間:2023-06-18 10:31:04
導語:在數(shù)據(jù)分析方法的撰寫旅程中,學習并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優(yōu)秀范文,愿這些內(nèi)容能夠啟發(fā)您的創(chuàng)作靈感,引領您探索更多的創(chuàng)作可能。

關鍵詞:大壩 安全監(jiān)測 數(shù)據(jù) 分析
中圖分類號:P2 文獻標識碼:A 文章編號:1672-3791(2012)12(b)-0053-02
1 大壩安全監(jiān)測的意義
大壩所具有的潛在安全問題既是一個復雜的技術問題,也是一個日益突出的公共安全問題,因此,我國對大壩安全越來越重視。隨著壩工理論和技術的不斷發(fā)展與完善,為了更好地實現(xiàn)水資源的進一步開發(fā)利用,我國的大壩建設正向著更高更大方向發(fā)展,如三峽重力壩、小灣拱壩(最大壩高294.5 m)、拉西瓦拱壩(最大壩高250 m)、溪洛渡拱壩(最大壩高285.5 m)等,這些工程的建設將為我國的經(jīng)濟發(fā)展做出巨大貢獻,也將推動我國的壩工理論和技術水平上升到一個新的高度。但是,這些工程一旦失事,將是不可想象的毀滅性災難,因此,大壩安全問題就顯得日益突出和重要。保證大壩安全的措施可分為工程措施和非工程措施兩種,兩者相互依存,缺一不可。
回顧大壩安全監(jiān)測的發(fā)展歷史,最早可追溯到19世紀90年代,1891年德國的挨施巴赫重力壩開展了大壩位移觀測,隨后于1903年美國新澤西州Boont。n重力壩開展了溫度觀測,1908年澳大利亞新南威爾士州巴倫杰克溪薄拱壩開展了變形觀測,1925年美國愛達荷州亞美尼加一佛爾茲壩開展了揚壓力觀測,1826年美國墾務局在Stevenson一creek試驗拱壩上開展了應力及應變觀測,這是最早開展安全監(jiān)測的幾個實例。我國從20世紀50年代開始進行安全監(jiān)測工作,大壩安全監(jiān)測的作用是逐漸被人們認識的,趙志仁將大壩安全監(jiān)測的發(fā)展歷程劃分為以下3個階段。
(1)1891年至1964年,原型觀測階段,原型觀測的主要目的是研究大壩設計計算方法,檢驗設計,改進壩工理論。(2)1964年至1985年,由原型觀測向安全監(jiān)測的過度階段,接連發(fā)生的大壩失事,讓人們逐漸認識到大壩安全的重要性,逐步把保證大壩安全運行作為主要目的。(3)1985年至今,安全監(jiān)測階段,此階段,大壩安全監(jiān)測已經(jīng)成為人們的共識,隨著監(jiān)測儀器、監(jiān)測技術和資料分析方法的不斷進步、發(fā)展與完善,將逐步實現(xiàn)大壩的安全監(jiān)控。
2 大壩安全監(jiān)測數(shù)據(jù)分析概述
大壩安全監(jiān)測取得的大量數(shù)據(jù)為評價大壩運行狀態(tài)提供了基礎,但是,原始觀測數(shù)據(jù)往往不能直觀清晰地展示大壩性態(tài),需要對觀測數(shù)據(jù)進行分辨、解析、提煉和概括,從繁多的觀測資料中找出關鍵問題,深刻地揭示規(guī)律并作出判斷,這就需要進行監(jiān)測數(shù)據(jù)分析。
2.1 監(jiān)測數(shù)據(jù)分析的意義
大壩監(jiān)測數(shù)據(jù)分析可以從原始數(shù)據(jù)中提取包含的信息,為大壩的建設和運行管理提供有價值的科學依據(jù)。大量工程實踐表明:大壩監(jiān)測數(shù)據(jù)中蘊藏了豐富的反映壩體結(jié)構(gòu)性態(tài)的信息,做好觀測資料分析工作既有工程應用價值又有科學研究意義。大壩安全監(jiān)測數(shù)據(jù)分析的意義表現(xiàn)在如下幾方面:(1)原始觀測數(shù)據(jù)本身既包含著大壩實際運行狀態(tài)的信息,又帶有觀測誤差及外界隨機因素所造成的干擾。必須經(jīng)過誤差分析及干擾辨析,才能揭示出真實的信息。(2)觀測值是影響壩體狀態(tài)的多種內(nèi)外因素交織在一起的綜合效應,也必須對測值作分解和剖析,將影響因素加以分解,找出主要因素及各個因素的影響程度。(3)只有將多測點的多測次的多種觀測量放在一起綜合考察,相互補充和驗證,才能全面了解測值在空間分布上和時間發(fā)展上的相互聯(lián)系,了解大壩的變化過程和發(fā)展趨勢,發(fā)現(xiàn)變動特殊的部位和薄弱環(huán)節(jié)。(4)為了對大壩監(jiān)測數(shù)據(jù)作出合理的物理解釋,為了預測大壩未來的變化趨勢,也都離不開監(jiān)測數(shù)據(jù)分析工作。因此,大壩監(jiān)測資料分析是實現(xiàn)大壩安全監(jiān)測最終目的的一個重要環(huán)節(jié)。
2.2 監(jiān)測數(shù)據(jù)分析的內(nèi)容
監(jiān)測資料分析的內(nèi)容通常包括:認識規(guī)律、查找問題、預測變化、判斷安全。
(1)認識規(guī)律:分析測值的發(fā)展過程以了解其隨時間而變化的情況,如周期性、趨勢、變化類型、發(fā)展速度、變動幅度等;分析測值的空間分布以了解它在不同部位的特點和差異,掌握它的分布特點及代表性測點的位置;分析測值的影響因素以了解各種外界條件及內(nèi)部因素對所測物理量的作用程度、主次關系。通過這些分析,掌握壩的運行狀況,認識壩的各個部位上各種測值的變化規(guī)律。(2)查找問題:對監(jiān)測變量在發(fā)展過程和分布關系上發(fā)現(xiàn)的特殊或突出測值,聯(lián)系荷載條件及結(jié)構(gòu)因素進行考查,了解其是否符合正常變化規(guī)律或是否在正常變化范圍之內(nèi),分析原因,找出問題。(3)預測變化:根據(jù)所掌握的規(guī)律,預測未來一定條件下測值的變化范圍或取值;對于發(fā)現(xiàn)的問題,估計其發(fā)展趨勢、變化速度和可能后果。(4)判斷安全:基于對測值的分析,判斷過去一段時期內(nèi)壩的運行狀態(tài)是否安全并對今后可能出現(xiàn)的最不利條件組合下壩的安全作出預先判斷。
一般來講,大壩監(jiān)測資料分析可分為正分析和反演分析兩個方面。正分析是指由實測資料建立原型物理觀測量的數(shù)學模型,并應用這些模型監(jiān)控大壩的運行。反演分析是仿效系統(tǒng)識別的思想,以正分析成果為依據(jù),通過相應的理論分析,反求大壩材料的物理力學參數(shù)和項源(如壩體混凝土溫度、拱壩實際梁荷載等)。吳中如院士提到通過大壩監(jiān)測資料分析可以實現(xiàn)反饋設計,即“綜合原型觀測資料正分析和反演分析的成果,通過理論分析計算或歸納總結(jié),從中尋找某些規(guī)律和信息,及時反饋到設計、施工和運行中去,從而達到優(yōu)化設計、施工和運行的目的,并補充和完善現(xiàn)行水工設計和施工規(guī)范”。綜上所述,大壩監(jiān)測資料正分析中數(shù)學模型的研究與應用是實現(xiàn)大壩安全監(jiān)測及資料分析的目的和意義的基礎與根本。
3 監(jiān)測數(shù)據(jù)分析方法
大壩安全監(jiān)測數(shù)據(jù)分析涉及到多學科交叉的許多方法和理論,目前,常用的大壩監(jiān)測數(shù)據(jù)分析方法主要有如下幾種:多元回歸分析、時間序列分析、灰色理論分析、頻譜分析、Kalman濾波法、有限元法、人工神經(jīng)網(wǎng)絡法、小波分析法、系統(tǒng)論方法等等。(圖1)
3.1 多元回歸分析
多元回歸分析方法是大壩監(jiān)測數(shù)據(jù)分析中應用最為廣泛的方法之一,最常用的方法就是逐步回歸分析方法,基于該方法的回歸統(tǒng)計模型廣泛應用于各類監(jiān)測變量的分析建模工作。以大壩變形監(jiān)測的分析為例,取變形(如各種位移值)為因變量(又稱效應量),取環(huán)境量(如水壓、溫度等)為自變量(又稱影響因子),根據(jù)數(shù)理統(tǒng)計理論建立多元線性回歸模型,用逐步回歸分析方法就可以得到效應量與環(huán)境量之間的函數(shù)模型,然后就可以進行變形的物理解釋和預報。由于它是一種統(tǒng)計分析方法,需要因變量和自變量具有較長且一致性較好的觀測值序列。如果回歸模型的環(huán)境變量之間存在多重共線性,可能會引起回歸模型參數(shù)估計的不正確;如果觀測數(shù)據(jù)序列長度不足且數(shù)據(jù)中所含隨機噪聲偏大,則可能會引起回歸模型的過擬合現(xiàn)象,而破壞模型的穩(wěn)健性。
在回歸分析法中,當環(huán)境量之間相關性較大時,可采用主成分分析或嶺回歸分析,為了解決和改善回歸模型中因子多重相關性和欠擬合問題,則可采用偏回歸模型,該模型具有多元線性回歸、相關分析和主成分分析的性能,在某些情況下甚至優(yōu)于常用的逐步線性回歸模型,例如王小軍、楊杰、鄧念武等在應用偏回歸模型進行大壩監(jiān)測數(shù)據(jù)分析時,還采用遺傳算法進行模型的參數(shù)估計,取得了較好的效果。
3.2 時間序列分析
大壩安全監(jiān)測過程中,各監(jiān)測變量的實測數(shù)據(jù)自然組成了一個離散隨機時間序列,因此,可以用時間序列分析理論與方法建立模型。一般認為時間序列分析方法是一種動態(tài)數(shù)據(jù)的參數(shù)化時域分析方法,它通過對動態(tài)數(shù)據(jù)進行模型階次和參數(shù)估計建立相應的數(shù)學模型,以了解這些數(shù)據(jù)的內(nèi)在結(jié)構(gòu)和特性,從而對數(shù)據(jù)變化趨勢做出判斷和預測,具有良好的短期預測效果。進行時間序列分析時一般要求數(shù)據(jù)為平穩(wěn)隨機過程,否則,需要進行協(xié)整分析,對數(shù)據(jù)進行差分處理,或者采用誤差修正模型。例如,徐培亮利用時間序列分析方法,對大壩變形觀測資料進行分析建模得到一個AR(2)模型,并對大壩變形進行了預報,結(jié)果表明具有良好的預測精度。涂克楠、張利、鄭簫等也利用時間序列對大壩監(jiān)測數(shù)據(jù)進行分析,有效地提高了模型對實測數(shù)據(jù)的擬合能力和預測能力。
3.3 灰色理論分析
當觀測數(shù)據(jù)的樣本數(shù)不多時,不能滿足時間序列分析或者回歸分析模型對于數(shù)據(jù)長度的要求,此時,可采用灰色系統(tǒng)理論建模。該理論于20世紀80年代由鄧聚龍首次提出,該方法通過將原始數(shù)列利用累加生成法變換為生成數(shù)列,從而減弱數(shù)據(jù)序列的隨機性,增強規(guī)律性。例如,在大壩變形監(jiān)測數(shù)據(jù)分析時,也可以大壩變形的灰微分方程來提取趨勢項后建立組合模型。一般時間序列分析都是針對單測點的數(shù)據(jù)序列,如果考慮各測點之間的相關性而進行多測點的關聯(lián)分析,有可能會取得更好的效果。1991年,熊支榮等人詳述了灰色系統(tǒng)理論在水工觀測資料分析中的應用情況,并對其應用時的檢驗標準等問題進行了探討。同年,劉觀標利用灰色系統(tǒng)模型對某重力壩的實測應力分析證明了灰色模型具有理論合理、嚴謹、成果精度較高的特點。
3.4 頻譜分析
大壩監(jiān)測數(shù)據(jù)的處理和分析主要在時域內(nèi)進行,利用Fourier變換將監(jiān)測數(shù)據(jù)序列由時域信號轉(zhuǎn)換為頻域信號進行分析,通過計算各諧波頻率的振幅,最大振幅所對應的主頻可以揭示監(jiān)測量的變化周期,這樣,有時在時域內(nèi)看不清的數(shù)據(jù)信息在頻域內(nèi)可以很容易看清楚。例如,將測點的變形量作為輸出,相關的環(huán)境因子作為輸入,通過估計相干函數(shù)、頻率響應函數(shù)和響應譜函數(shù),就可以通過分析輸入輸出之間的相關性進行變形的物理解釋,確定輸入的貢獻和影響變形的主要因子。將大壩監(jiān)測數(shù)據(jù)由時域信號轉(zhuǎn)換到頻域信號進行分析的研究應用并不多,主要是由于該方法在應用時要求樣本數(shù)量要足夠多,而且要求數(shù)據(jù)是平穩(wěn)的,系統(tǒng)是線性的,頻譜分析從整個頻域上對信號進行考慮,局部化性能差。
參考文獻
關鍵詞:大數(shù)據(jù);數(shù)據(jù)分析;數(shù)據(jù)挖掘
中圖分類號:TP311 文獻標識碼:A 文章編號:1007-9416(2017)03-0104-02
1 綜述
1.1 簡介
在數(shù)字化時代,需要新一代系統(tǒng)架構(gòu)提升業(yè)務創(chuàng)新能力。在新一代系統(tǒng)架構(gòu)中,大數(shù)據(jù)是核心要素。業(yè)務應用能否自主發(fā)現(xiàn)與自助獲得高質(zhì)量的大數(shù)據(jù),就成為業(yè)務創(chuàng)新成敗的關鍵。這就要在搭建大數(shù)據(jù)平臺時,就著手大數(shù)據(jù)治理相關建設。
1.2 需求和意義
從某種意義上說大數(shù)據(jù)治理架構(gòu)需要以元數(shù)據(jù)為核心、提高大數(shù)據(jù)質(zhì)量、透明化大數(shù)據(jù)資產(chǎn)、自助化數(shù)據(jù)開發(fā)、自動化數(shù)據(jù)、智能化數(shù)據(jù)安全,提升大數(shù)據(jù)平臺服務能力,讓大數(shù)據(jù)平臺變得易使用、易獲得、高質(zhì)量。
但是,目前很多技術解決方案存在諸多安全和效率隱患:業(yè)務系統(tǒng)多,監(jiān)管力度大;數(shù)據(jù)量龐大且呈碎片化分布,急需提升大數(shù)據(jù)質(zhì)量;數(shù)據(jù)格式不規(guī)范、難以在短時間內(nèi)找到所需數(shù)據(jù);數(shù)據(jù)在各階段的應用角度不同,需要降低系統(tǒng)間的集成復雜度。
2 功能設計
2.1 總體架構(gòu)
本文講述的數(shù)據(jù)分析方法及實現(xiàn)技術是建立在Hadoop/Spark技術生態(tài)圈的基礎之上,以實現(xiàn)用戶集成處理、、清理、分析的一個統(tǒng)一的數(shù)據(jù)處理平臺;按數(shù)據(jù)類別分為線數(shù)據(jù)、歸檔數(shù)據(jù);按數(shù)據(jù)格式分為非結(jié)構(gòu)化數(shù)據(jù)、結(jié)構(gòu)化數(shù)據(jù);按數(shù)據(jù)模型分類為范式化模型數(shù)據(jù)、維度模型數(shù)據(jù);按數(shù)據(jù)采集頻度分為非實時數(shù)據(jù)、準實時數(shù)據(jù)處理架構(gòu);并提供數(shù)據(jù)中心平臺與安全管理方案,為企業(yè)級用戶建立一個通用數(shù)據(jù)處理和分析中心。如圖1所示。
2.2 在線數(shù)據(jù)
在線數(shù)據(jù)在線通過接口去獲得的數(shù)據(jù),一般要求為秒級或速度更快。首先應當將數(shù)據(jù)進行區(qū)分:在線數(shù)據(jù)、或歸檔數(shù)據(jù)。本平臺中采用:Storm或Spark Streaming框架進行實現(xiàn)。Spark Streaming將數(shù)據(jù)切分成片段,變成小批量時間間隔處理,Spark抽象一個持續(xù)的數(shù)據(jù)流稱為DStream(離散流),一個DStream是RDD彈性分布式數(shù)據(jù)集的micro-batch微批次,RDD是分布式集合能夠并行地被任何函數(shù)操作,也可以通過一個滑動窗口的數(shù)據(jù)進行變換。
2.3 歸檔數(shù)據(jù)
歸檔數(shù)據(jù)是在線存儲周期超過數(shù)據(jù)生命周期規(guī)劃的數(shù)據(jù),處理的要求一般在分鐘級或速度更慢。通常歸檔數(shù)據(jù)的計算量、數(shù)據(jù)量、數(shù)據(jù)復雜度均超過試試數(shù)據(jù)處理。本平臺中采用:Hadoop、Spark技術生態(tài)體系內(nèi)的框架進行計算,這里不詳細闡述。
2.4 非結(jié)構(gòu)化數(shù)據(jù)
通常非結(jié)構(gòu)化的數(shù)據(jù)不一定具備字段,即使具備字段其長度也不固定,并且字段的又可是由可不可重復和重復的子字段組成,不僅可以包含結(jié)構(gòu)化數(shù)據(jù),更適合處理非結(jié)構(gòu)化數(shù)據(jù)。常見的非結(jié)構(gòu)化數(shù)據(jù)包括XML、文本、圖象、聲音、影音、各類應用軟件產(chǎn)生的文件。
針對包含文字、數(shù)據(jù)的為結(jié)構(gòu)化數(shù)據(jù)應當先利用數(shù)據(jù)清洗、數(shù)據(jù)治理工具進行提取,這項工作目前仍依賴技術員進行操作,由于格式的復雜性所以難以使用自動化方式進行較為高效的批處理。在治理數(shù)據(jù)的過程中,需要根據(jù)情況對數(shù)據(jù)本身額外建立描述數(shù)據(jù)結(jié)構(gòu)的元數(shù)據(jù)、以及檢索數(shù)據(jù)的索引服務,以便后續(xù)更佳深度利用數(shù)據(jù)。
2.5 結(jié)構(gòu)化數(shù)據(jù)
結(jié)構(gòu)化數(shù)據(jù)具備特定的數(shù)據(jù)結(jié)構(gòu),通常可以轉(zhuǎn)換后最終用二維的結(jié)構(gòu)的數(shù)據(jù),并且其字段的含義明確,是挖掘數(shù)據(jù)價值的主要對象。
本平臺中主要使用Hadoop Impala和Spark SQL來進行結(jié)構(gòu)化數(shù)據(jù)的處理。Impale底層采用C++實現(xiàn),而非Hadoop的基于Java的Map-Reduce機制,將性能提高了1-2個數(shù)量級。而Spark SQL提供很好的性能并且與Shark、Hive兼容。提供了對結(jié)構(gòu)化數(shù)據(jù)的簡便的narrow-waist操作,為高級的數(shù)據(jù)分析統(tǒng)一了SQL結(jié)構(gòu)化查詢語言與命令式語言的混合使用。
結(jié)構(gòu)化數(shù)據(jù)根據(jù)采集頻度可以繼續(xù)分類為:非實時數(shù)據(jù)、準實時數(shù)據(jù)。
2.6 準實時數(shù)據(jù)
通常準實時數(shù)據(jù)是指數(shù)據(jù)存儲在平臺本身,但更新頻率接近于接口調(diào)用數(shù)據(jù)源的數(shù)據(jù)。適合用于支持數(shù)據(jù)和信息的查詢,但數(shù)據(jù)的再處理度不高,具有計算并發(fā)度高、數(shù)據(jù)規(guī)模大、結(jié)果可靠性較高的特點。通常使用分布式數(shù)據(jù)處理提高數(shù)據(jù)規(guī)模、使用內(nèi)存數(shù)據(jù)進行計算過程緩沖和優(yōu)化。本平臺主要采用Spark SQL結(jié)合高速緩存Redis的技術來實現(xiàn)。Spark SQL作為大數(shù)據(jù)的基本查詢框架,Redis作為高速緩存去緩存數(shù)據(jù)熱區(qū),減小高并發(fā)下的系統(tǒng)負載。
2.7 非實時數(shù)據(jù)
非實時數(shù)據(jù)主要應用于支持分析型應用,時效性較低。通常用于數(shù)據(jù)的深度利用和挖掘,例如:因素分析、信息分類、語義網(wǎng)絡、圖計算、數(shù)值擬合等。
非實時數(shù)據(jù)根據(jù)數(shù)據(jù)模型可繼續(xù)分類為:范式化模型數(shù)據(jù)、維度模型數(shù)據(jù)。
2.8 范式化模型
范式化模型主要是針對關系型數(shù)據(jù)庫設計范式,通常稻菔遣捎玫諶范式3NF或更高范式。面向近源數(shù)據(jù)查詢、數(shù)據(jù)主題的整合。范式化模型數(shù)據(jù)的數(shù)據(jù)存儲區(qū),建議使用并行MPP數(shù)據(jù)庫集群,既具備關系型數(shù)據(jù)庫的優(yōu)點,又兼顧了大數(shù)據(jù)下的處理。
2.9 基于維度模型
維度模型數(shù)據(jù)主要應用于業(yè)務系統(tǒng)的數(shù)據(jù)挖掘和分析。過去多維度數(shù)據(jù)處理主要依賴OLAP、BI等中間件技術,而在大數(shù)據(jù)和開源框架的時代下,本技術平臺采用Hadoop Impala來進行實現(xiàn)。Impala并沒有使用MapReduce這種不太適合做SQL查詢的范式,而是參考了MPP并行數(shù)據(jù)庫的思想另起爐灶,省掉不必要的shuffle、sort等開銷,使運算得到優(yōu)化。
3 應用效果
本系統(tǒng)在不同的業(yè)務領域上都可以應用,以2016年在某銀行的應用案例為例:該銀行已完成數(shù)據(jù)倉庫建設,但眾多數(shù)據(jù)質(zhì)量問題嚴重影響了數(shù)據(jù)應用的效果,以不同的數(shù)據(jù)存儲方式,以更高的要求去進行數(shù)據(jù)的統(tǒng)一管理。通過組織、制度、流程三個方面的實施,以元數(shù)據(jù)、數(shù)據(jù)標準、數(shù)據(jù)質(zhì)量平臺為支撐,實現(xiàn)了數(shù)據(jù)管控在50多個分支,60個局,1000余處的全面推廣,實現(xiàn)了全行的覆蓋;管理了120個系統(tǒng)和數(shù)據(jù)倉庫,顯著提升了新系統(tǒng)的快速接入能力;通過14個數(shù)據(jù)規(guī)范和流程明確了數(shù)據(jù)管控的分工;數(shù)據(jù)考核機制的實施,使其在數(shù)據(jù)質(zhì)量評比中名列前茅。
4 結(jié)語
本文介紹了大數(shù)據(jù)下數(shù)據(jù)分析方法及實現(xiàn)技術的大體設計和思路,從需求分析、總體架構(gòu)和數(shù)據(jù)處理以及數(shù)據(jù)分析這幾個方面來介紹。文章在最后介紹出了這種平臺的應用效果。筆者相信這些思路和技術能夠在業(yè)務中能得到很好的應用。
參考文獻
[關鍵詞]財政收入;GDP;面板數(shù)據(jù)
中圖分類號:F01 文獻標識碼:A 文章編號:1006-0278(2013)02-024-01
在計量經(jīng)濟學中,我們一般應用的最多的數(shù)據(jù)分析是截面數(shù)據(jù)回歸分析和時間序列分析,但截面數(shù)據(jù)分析和時間序列分析都有著一定的局限性。在實際經(jīng)濟研究當中,截面數(shù)據(jù)回歸分析會遺漏掉數(shù)據(jù)的時間序列特征,例如在分析某年中國各省的GDP增長數(shù)據(jù)時,單純的截面數(shù)據(jù)回歸分析無法找出各省GDP隨時間變化的特征,使得分析結(jié)果沒有深度。而如果只用時間序列分析,則會遺漏掉不同截面間的聯(lián)系與區(qū)別,例如在分析中國單個省市的GDP隨時間增長的數(shù)據(jù)時,無法找出各個省市之間經(jīng)濟增長的聯(lián)系與區(qū)別,因而同樣無法滿足我們的需要。而面板數(shù)據(jù),是一種既包括了時間序列數(shù)據(jù),也包括了相關截面數(shù)據(jù)的復合數(shù)據(jù),是近年來用得較多的一種數(shù)據(jù)類型。
下面我們將基于2000-2009年中國各省GDP和財政收入的面板數(shù)據(jù)的實例來詳細闡述面板數(shù)據(jù)的分析方法。
一、GDP與財政收入關系的經(jīng)濟學模型
財政收入是保證國家有效運轉(zhuǎn)的經(jīng)濟基礎,在一國經(jīng)濟建設中發(fā)揮著重要作用。隨著中國經(jīng)濟發(fā)展速度的日益加快,財政收入不斷擴大,而擴大的財政收入又以政府支出來調(diào)節(jié)和推動國民經(jīng)濟發(fā)展。正確認識財政收入與經(jīng)濟增長之間的長期關系,把握財政收入與經(jīng)濟增長之間的相互影響,發(fā)揮財政收入對經(jīng)濟發(fā)展的調(diào)節(jié)和促進功能,對于完善財稅政策,深化財稅體制改革,實現(xiàn)財政與經(jīng)濟之間的良性互動,具有重要的現(xiàn)實意義。文章就將從中國各省的面板數(shù)據(jù)出發(fā)研究,中國不同地域間財政收入和GDP之間的關系。
二、實證分析
(一)單位根檢驗
Eviews有兩種單位根檢驗方法,一種在相同根的假設下的檢驗,包括LLC、Breintung、Hadri。另一種則是在不同根下的假設前提下,包括IPS,ADF-Fisher和PP-Fisher5。檢驗結(jié)果表明所有檢驗都拒絕原假設,因此序列GDP和CZSR均為一個2階單整序列。
(二)協(xié)整檢驗
如果基于單位根檢驗的結(jié)果發(fā)現(xiàn)變量之間是同階單整的,那么我們可以進行協(xié)整檢驗。協(xié)整檢驗是考察變量間長期均衡關系的方法。所謂的協(xié)整是指若兩個或多個非平穩(wěn)的變量序列,其某個線性組合后的序列呈平穩(wěn)性。此時我們稱這些變量序列間有協(xié)整關系存在。
在最終的結(jié)果中,Pedroni方法中除了rho-Statistic、PP-Statistic項目外都拒絕GDP和CZSR不存在協(xié)整關系的原假設,同樣Kao和Johansen檢驗方法也都拒絕原假設,因此,上述檢驗結(jié)果表明,我國各省2000-20009年的GDP和財政收入面板數(shù)據(jù)間存在著協(xié)整關系。既然通過了協(xié)整檢驗,說明變量之間存在著長期穩(wěn)定的均衡關系,其方程回歸殘差是平穩(wěn)的,因此可以在此基礎上直接對進行回歸分析,此時假設方程的回歸結(jié)果是較精確的。
三、建立模型
混合模型:如果從時間上看,不同個體之間不存在顯著性差異;從截面上看,不同截面之間也不存在顯著性差異,那么就可以直接把面板數(shù)據(jù)混合在一起用普通最小二乘法(OLS)估計參數(shù)。
我們根據(jù)混合模型的回歸結(jié)果,得到財政收入和GDP之間的回歸方程為:
CZSR=227.3123+0.103224*GDP
(26.47637)(0.002839)
R2=0.810995 F=1321.587
顯然從模型的回歸結(jié)構(gòu)來看,R2的值達到了0.81,有了比較好的回歸解釋力,同時,GDP的回歸系數(shù)為0.103224,表明各省的財政收入平均占到了國民收入的10.3%左右。
變系數(shù)模型:顯然,在中國各省之間由于處在不同的地區(qū),因而擁有不同的區(qū)位優(yōu)勢,那么各省的發(fā)展水平顯然就不一樣。正是由于這種不同的地方政策、管理水平、文化差異等會導致經(jīng)濟變量間出現(xiàn)一些關聯(lián)性的變化,此時在進行模型回歸的時候,我們就有必要考慮變系數(shù)模型。
在回歸結(jié)果中,R2的值達到了0.97,比混合模型擁有更好的回歸解釋力,而在變系數(shù)模型回歸結(jié)果中,GDP的回歸系數(shù)大于0.5的只有、青海、寧夏三個省份,也就是說這三個省份的財政收入占到了GDP的50%以上,他們同處于經(jīng)濟并不是很發(fā)達的西部地區(qū),由此可以看出,處在經(jīng)濟發(fā)達地區(qū)的財政收入占GDP的比重要低,而不發(fā)達地區(qū)則要高。
四、結(jié)論
通過以上的分析檢驗,我們發(fā)現(xiàn)針對于中國財政收入和GDP的面板數(shù)據(jù),我們應建立起變系數(shù)模型,并通過模型分析,我們可以得出這樣的結(jié)論,中國各省間由于存在著地域經(jīng)濟發(fā)展水平不同、管理水平不同以及國家的相關政策等諸多不同,造成了各省之間在財政收入以及國民收入上面存在著一定的差異。而回歸結(jié)果也告訴我們,我國西部地區(qū)的財政收入占GDP的比例要明顯高于東部地區(qū),地區(qū)發(fā)展落后地區(qū)的財政收入占GDP的比例也要明顯高于東部地區(qū)。因此,這為我們改善我國落后地區(qū)的經(jīng)濟發(fā)展提供了一定的新思路,就是對一地區(qū)的稅收征收可以適當放緩,而將GDP中以前政府占用的部分歸還于民眾和企業(yè),因為,按照發(fā)達地區(qū)的經(jīng)驗表明,財政收入所占比重過高,經(jīng)濟發(fā)展的活力或者就不會很高,對于進一步刺激財政收入的增加也沒有任何幫助。因此,我們應該適度降低財政收入占GDP的比重,從而增加經(jīng)濟活力,使西部地區(qū)以及落后地區(qū)及早的跟上東部發(fā)達地區(qū)的發(fā)展步伐,從而消除我國經(jīng)濟發(fā)展的地域不平衡。
參考文獻:
[1]謝識予,朱洪鑫.高級計量經(jīng)濟學[M].復旦大學出版社,2005.
[2]張曉峒.Eviews使用指南(第二版)[M].南開大學出版社,2004.
一、以認知沖突,引發(fā)學生產(chǎn)生數(shù)據(jù)收集與整理的強烈愿望
學生每一個學習行為的背后,都是有目的、有價值、有意義的。簡言之,學生自己要真正認識到這種學習是有用的,哪怕僅僅是因為有趣、好玩,才能激發(fā)學生進行相關學習的愿望和興趣。對于數(shù)據(jù)分析觀念的培養(yǎng),教師有必要替學生問一個“為什么”,問題不必明確提出,但一定要把相關信息告訴學生,引發(fā)學生強烈的認知沖突,才會產(chǎn)生進行數(shù)據(jù)收集、整理與分析的欲望,才會使他們認識到學習數(shù)據(jù)分析的必要性,產(chǎn)生興趣,從而建立與培養(yǎng)其初步的數(shù)據(jù)分析觀念。
以二年級上冊“統(tǒng)計”一課的學習為例,學生首次接觸“統(tǒng)計”的相關內(nèi)容。在學生尚不真正知道與理解該詞的確切含義的情況下,教材提供的課例是“統(tǒng)計最喜歡的動物”,以統(tǒng)計圖形式呈現(xiàn)出喜歡四種動物(小貓、小狗、小兔、烏龜)的學生的人數(shù),并提供了3道題目,但教材始終沒有告訴學生,“為什么我要學習這個知識”、“為什么我要進行數(shù)據(jù)分析”。此時,對這一問題的提出與引導學生思考,只能由教師在不動聲色中完成。所以,教學時,利用學生愛吃零食的特點,我調(diào)整了教學思路,首先,我征得學生同意,打算用班上賣廢品的錢給學生買糖吃。此舉得到學生們的一致歡迎;其次,我要求5個小組長提前去學校門口的超市,了解糖塊的種類與價格,并告知其他同學;再次,我要求班委成員負責了解班上每一名同學的需求并進行分類、計算總量。每人限一塊,以便于合理安排買糖的數(shù)量與花費;再次,將買來的糖帶入教室,上課,進行相關的數(shù)據(jù)整理與分析;最后,完成全部教學任務后,吃糖。
當我將此想法與實際的授課過程講給其他老師聽時,有老師笑談“孩子們學習的動力就是吃糖”。我不否認這是學生們積極參與教學活動的動力之一,因為事先我有告訴學生全部的活動過程與“完不成就不會有糖吃”的話。但不可否認的是,對于二年級的學生來說,為了達成“每個同學都能吃到自己想吃的糖”這一目標,要在活動的每一個步驟都進行相關數(shù)據(jù)的收集、整理與分析,才能正確且順利地完成任務。簡言之,等于我們告訴學生,“為什么要進行數(shù)據(jù)分析”、“只因為我們需要達成一定的目的”,并且,活動的每一步驟的數(shù)據(jù)分析都有學生親自進行,并明確知曉這樣做的原因——當然不是教師的程式化的要求,這就使得學生的數(shù)據(jù)分析工作是主動的,各成員之間是相互合作的,既使學生愉快地接受了數(shù)據(jù)分析的內(nèi)容與過程,也在增強學生數(shù)據(jù)分析觀念的同時,培養(yǎng)了學生主動學習與合作的精神。
二、挖掘數(shù)據(jù)中蘊藏的深層信息,體驗數(shù)據(jù)分析的應用價值
統(tǒng)計教學的一個重要目標,是鼓勵學生通過分析從統(tǒng)計圖表中獲取盡可能多的信息,為后續(xù)的某項工作或?qū)W習做出合理的決策。表現(xiàn)在教材中,數(shù)據(jù)分析觀念的首次引入即是一個簡單的“最喜歡的動物”的統(tǒng)計圖,接下來的每一個問題的答案無不需要從該統(tǒng)計圖進行尋找。這樣的例子,在學生生活中也是有接觸的。但是,教學過程中,也存在一個常見現(xiàn)象,學生通過統(tǒng)計圖表獲取的信息,多是一些最基本的、一眼即可看出的直接信息,而很少能夠?qū)D表上的數(shù)據(jù)信息進行更為深入的整理與分析,挖掘出更多有價值和有意義的信息來做出合理的決策。
[關鍵詞]探索性數(shù)據(jù)分析;職工平均工資;匹配變換
[中圖分類號]G819[文獻標識碼]A[文章編號]1005-6432(2013)46-0099-02
1引言
探索性數(shù)據(jù)分析方法是一種新型的統(tǒng)計分析手段,近年來在許多行業(yè)得到了廣泛的應用,并取得了明顯成效。其強調(diào)了數(shù)據(jù)本身的價值,可以更加客觀地發(fā)現(xiàn)數(shù)據(jù)的規(guī)律,找到數(shù)據(jù)的穩(wěn)健耐抗模式,從而發(fā)掘出數(shù)據(jù)的隱藏信息。本文從職工平均工資的實際數(shù)據(jù)出發(fā),利用探索性數(shù)據(jù)分析中的工具,直觀地探索華東六省職工平均工資的規(guī)律,挖掘數(shù)據(jù)特征和有價值的信息。
2華東六省職工平均工資的描述性分析
職工平均工資指企業(yè)、事業(yè)、機關單位的職工在一定時期內(nèi)平均每人所得的貨幣工資額。它表明一定時期職工工資收入的高低程度,是反映職工工資水平的主要指標。由于中國城市眾多,各地經(jīng)濟發(fā)展水平有較大的差異,生活水平和生活質(zhì)量也各有不同,為了縮小地理差異對研究數(shù)據(jù)的影響,得到較為準確和有意義的結(jié)果,這里只選用了2010年華東地區(qū)六個省的職工平均工資運用探索性數(shù)據(jù)分析方法做初步的描述性分析和研究,每個省選取了9個大城市。
為了更加簡單直觀地對比各個省市的數(shù)據(jù),我們繪制了箱線圖,如圖1所示。對華東六省進行對比中,可以看到只有江西省和福建省是有離群值的,說明了這兩省中存在著個別城市職工平均工資與同省其他城市相比特別大,其他幾省的數(shù)據(jù)就不存在離群值。對于四分展布,可以得到大小關系,安徽>江蘇>浙江>山東>福建>江西,可知安徽和江蘇中城市的職工平均工資差異較大,福建和江西相比起來,則分布得更加集中。
圖1華東六省2010年職工平均工資水平箱線圖
綜合對比各個省的中位數(shù),可以發(fā)現(xiàn)江蘇省平均職工工資水平最大,江西省最小,從經(jīng)濟上反映了地區(qū)經(jīng)濟發(fā)展差異,江蘇緊靠上海,處在華東的中心,交通系統(tǒng)發(fā)達,同時,長三角江蘇占了大部分,其靠海的地理優(yōu)勢給它帶來了更多的經(jīng)濟發(fā)展機會,導致了職工工資水平中位數(shù)相差如此大。
同時可以直觀地看出安徽省數(shù)據(jù)對稱性最好,除了福建省數(shù)據(jù)呈現(xiàn)左偏趨勢外,其他省都呈現(xiàn)右偏的趨勢,其中江西省的數(shù)據(jù)最為嚴重,主要是受到了兩個離群值的影響,為了使其更對稱,我們運用探索性數(shù)據(jù)分析方法中的對稱變換方法,在經(jīng)過R軟件的計算后,得到職工平均工資的對稱性變換圖,如圖2所示。
圖2江西省2010年職工平均工資水平對稱性變換圖
進行對稱性變換后,運用R軟件擬合曲線,得到:
由圖3可以看出,在進行對稱匹配變換之后,江西省的兩個離群值消失了,數(shù)據(jù)變得更加集中,趨勢也更加易于分析和研究。這樣的數(shù)據(jù)會給分析帶來便利,更加清晰和直觀地表現(xiàn)出數(shù)據(jù)的本質(zhì)特征。
圖3江西省2010年職工平均工資水平匹配
3結(jié)論
使用探索性數(shù)據(jù)分析技術具有耐抗性和穩(wěn)健性的特點,通過箱線圖可以簡單直觀地看出數(shù)據(jù)間的差異,華東六省中浙江、江蘇省職工平均工資較高,安徽、山東、福建省處于中間,江西省最低。安徽省的數(shù)據(jù)較為分散,同時數(shù)據(jù)比較對稱,而江西省的數(shù)據(jù)有著極大的右偏性,在經(jīng)過了對稱、匹配變換后,仍然與華東地區(qū)其他省的數(shù)據(jù)有較大的差異,可能是由離群值太大造成的。
參考文獻:
[1]李世勇,胡建軍,熊燕,等2004年我國卷煙焦油量的探索性數(shù)據(jù)分析[J].煙草科技,2005(7):8-11
[關鍵詞] 網(wǎng)間結(jié)算;結(jié)算支出;業(yè)務短信;短信結(jié)算
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 11. 016
[中圖分類號]F239.1[文獻標識碼]A[文章編號]1673 - 0194(2012)11- 0026- 02
1背景
網(wǎng)間結(jié)算是各運營商之間永恒的話題。自各運營商開展全業(yè)務經(jīng)營以來,網(wǎng)間結(jié)算的協(xié)議和收入支出結(jié)構(gòu)都發(fā)生了很大的變化,C網(wǎng)的雙向結(jié)算和規(guī)模的發(fā)展、增值短信業(yè)務的發(fā)展、固網(wǎng)的逐漸萎縮以及國家對TD業(yè)務結(jié)算上的扶持,網(wǎng)間結(jié)算支出的變化,均值得分析研究。
網(wǎng)間結(jié)算的收入與本網(wǎng)的規(guī)模間接相關,網(wǎng)間結(jié)算的支出與本網(wǎng)的用戶數(shù)量、話務量以及商品、營銷政策直接相關,是公司經(jīng)營成本的一部分,也是關注的重點。
網(wǎng)間結(jié)算的支出與很多環(huán)節(jié)相關,如在設計各類套餐、營銷政策、增值業(yè)務包資費政策等環(huán)節(jié)時是否考慮網(wǎng)間結(jié)算的成本、規(guī)避風險保證公司經(jīng)營目標的實現(xiàn);在公司經(jīng)營分析中是否持續(xù)關注網(wǎng)間結(jié)算的支出,防范各種異常、突發(fā)的網(wǎng)間結(jié)算損失等。
2分析思路和目標
網(wǎng)間結(jié)算支出按業(yè)務可分為語音、短信兩大類,按通信區(qū)域可分為本地網(wǎng)和長途業(yè)務兩大類。語音又可分為固網(wǎng)和移動兩類,兩者之下還可繼續(xù)分為本地業(yè)務和長途業(yè)務(省內(nèi)、省際、國際)。本地業(yè)務包括普通語音、短號、智能網(wǎng)、卡類業(yè)務等,本地普通語音業(yè)務還要細分為固話、GSM/WGSM/CDMA、TD三個小類。短信可大致分為點對點短信、彩信、業(yè)務短信等。每一類還要分為收入和支出,劃分如此多的小類是結(jié)算規(guī)則的要求和系統(tǒng)結(jié)算出賬的需要。
我們可以從一個分公司結(jié)算支出的時間和業(yè)務兩個維度進行分析調(diào)查。在分析分公司結(jié)算支出的月度變化趨勢時,也分析結(jié)算支出的業(yè)務構(gòu)成。計算出單個分公司每個用戶的平均語音、短信結(jié)算支出,可與其他分公司進行比較,還可進一步細化到對某一類套餐進行分析。對支出占比較大的結(jié)算業(yè)務要分析其支出的明細清單,查清是哪些號碼造成的結(jié)算支出,查清這些號碼的來源、商品屬性、受理渠道并檢查結(jié)算系統(tǒng)的結(jié)算規(guī)則是否正確配置。
流程如下:
(1)檢查結(jié)算報表。
(2)分析結(jié)算支出的月度變化。
(3)計算每個用戶的平均語音、短信結(jié)算支出。
(4)查找高額結(jié)算用戶。
(5)檢查用戶套餐資費、受理渠道信息。
(6)檢查營銷或業(yè)務短信資費政策的合理性。
根據(jù)以上思路進行調(diào)查分析,我們可以確立重點和發(fā)現(xiàn)疑點,做到有的放矢,進行深入分析。重點查找是哪些業(yè)務的結(jié)算支出較高,計算該業(yè)務或套餐在結(jié)算收支相抵后帶來的價值,找出評價的標準,提出管理建議。
3分析方法
結(jié)算系統(tǒng)每個月都會出網(wǎng)間結(jié)算報表,包括結(jié)算的收入和指標。我們可以先從這些數(shù)據(jù)的分析開始。
3.1 分析網(wǎng)間結(jié)算的變化趨勢
首先分析網(wǎng)間結(jié)算總的變化趨勢,再查看指標明細項的變化趨勢,找出結(jié)算支出變化較大的分公司。
3.2 查找平均結(jié)算金額高出平均水平的營銷套餐
我們可以從指標中計算出每個用戶的平均結(jié)算支出,公式如下:
(1)固話語音平均結(jié)算支出=固網(wǎng)語音(本地、省內(nèi)、省際)網(wǎng)間結(jié)算支出/當月過網(wǎng)固網(wǎng)用戶數(shù)。
(2)固話短信平均結(jié)算支出=短信結(jié)算支出/當月過網(wǎng)固網(wǎng)用戶數(shù)。移動用戶的平均結(jié)算支出計算與固話類似。
(3)再調(diào)查一些營銷方案,計算其扣除補貼、結(jié)算支出以及傭金后的收入,檢查是否可能有結(jié)算風險。
3.3 檢查業(yè)務短信的結(jié)算支出
我們分析短信結(jié)算支出的構(gòu)成要分析構(gòu)成是否包含了業(yè)務短信的結(jié)算支出。
先分析總體情況,再進一步統(tǒng)計檢查結(jié)算清單,找出結(jié)算支出金額、條數(shù)較多的號碼,可到系統(tǒng)進一步查看這些號碼。
3.4 預估以后一段時間內(nèi)的網(wǎng)間結(jié)算支出
經(jīng)過統(tǒng)計分析發(fā)現(xiàn),單個過網(wǎng)用戶的平均結(jié)算支出是比較穩(wěn)定的。而業(yè)務短信基本是采取預付費的形式,因此可以通過業(yè)務受理情況、分析其他網(wǎng)占比(單個分公司基本穩(wěn)定)來估算它一段時間內(nèi)的網(wǎng)間結(jié)算支出。分公司一段時間的網(wǎng)間結(jié)算支出的模型如下:
分公司一段時間的網(wǎng)間結(jié)算支出≈固話語音平均結(jié)算支出×平均過網(wǎng)用戶數(shù)×賬期數(shù)+移動語音短信平均結(jié)算支出×平均過網(wǎng)用戶數(shù)×賬期數(shù)+短信(不含業(yè)務短信)平均結(jié)算支出×平均過網(wǎng)用戶數(shù)×賬期數(shù)+預期消費的業(yè)務短信業(yè)務受理量/資費×他網(wǎng)占比×結(jié)算資費。該公式的數(shù)值都可以從報表和平臺統(tǒng)計得到,有一定指導意義。通過這個公式我們可以預估一個分公司一段時間的網(wǎng)間結(jié)算支出。
4分析結(jié)論和建議
分析發(fā)現(xiàn),要加強對結(jié)算支出數(shù)據(jù)的分析、監(jiān)控,應對結(jié)算的支出開展預估,要加強對業(yè)務短信的管理,維護市場秩序,結(jié)算支出的監(jiān)控要實現(xiàn)自動化、智能化。
主要參考文獻
目前,我國有很多下崗和失業(yè)者,大量的下崗和失業(yè)者事實上就是我們這個社會的被淘汰者,他們已經(jīng)成為被甩到社會結(jié)構(gòu)之外的一個群體,且這樣一個群體的規(guī)模是驚人的。而不斷擴大的城鄉(xiāng)差距等等一系列問題也并非只是暫時現(xiàn)象,一個斷裂的社會給我們提出了許多難題。與此同時,在與國際經(jīng)濟秩序處于同一平臺的國際學術研究領域,這種斷裂的現(xiàn)象似乎依舊存在。打個不恰當?shù)谋扔鳎@就好像是在種地,如果說掌握了先進的研究方法(工具),也就是掌握了先進的生產(chǎn)工具的話,那么,生產(chǎn)工具決定生產(chǎn)力,用鐵鍬和鐮刀,必然不如直接用播種機高效,每一種平臺的出現(xiàn)都伴隨著一種工具的誕生,換句話說,以目前的國際學術研究發(fā)展速度而論,我們目前迫切需要的是“生產(chǎn)工具的升級”。如果還一味停留在用過去那種表面的、書桌式的研究方法,那么,就目前我們掌握的“生產(chǎn)工具”而言,無疑也會被甩到國際學術研究新秩序的,不能夠繼續(xù)長跑下去。最終,一種“上行”的學術研究發(fā)展體制只能是海市蜃樓。
2舊居住區(qū)更新研究過程中幾種新的分析方法的介紹
舊居住區(qū)更新在社會、經(jīng)濟、環(huán)境以及文化等方面所具有的多樣性與特殊性,使其研究過程的復雜性與矛盾性非同尋常。各個利益集團(政府、開發(fā)商、當?shù)鼐用瘛⒁?guī)劃師與建筑師等專業(yè)工作者)在強調(diào)其自身利益重要性的同時,也在改造過程中尋找自身“利益最大化”,而專業(yè)研究人員由于自身的專攻方向、興趣所至以及專業(yè)訓練等因素導致的差異性,使得對于舊居住區(qū)更新這一領域的研究往往是多學科(城市規(guī)劃、城市社會學、建筑學、經(jīng)濟學、心理學、統(tǒng)計學等)結(jié)合的產(chǎn)物,這也要求我們運用多學科的研究分析方法來幫助我們更好地展開研究。正如我們所熟知的,在建筑與城市規(guī)劃研究領域常用的分析方法有資料法、記述法、比較法、分類法,此處不再贅言。下文將介紹的研究分析方法多是在心理學、經(jīng)濟學、社會學、醫(yī)學、生物科技等領域開發(fā)并廣泛應用的一些方法,同時,由于其自身的合理性與實用性,逐漸也被建筑與規(guī)劃領域吸收借鑒并加以很好的利用與拓展。以下介紹的幾種方法是目前國外建筑研究領域中常用的幾種分析研究方法,均具有一定的影響力并經(jīng)過大量研究證實。這些方法之所以能夠被廣泛應用,往往是由于對研究對象的因果關系不太明顯,或是研究對象內(nèi)部機制的作用關系復雜,而又不得不解明其中的相關關系。相對于上文提到過的舊居住區(qū)更新研究過程的復雜性與矛盾性,這些方法或許會為其調(diào)查研究提供更好的發(fā)展途徑。最重要的是,計算機的介入為這些方法的普及鋪平了道路。1)SD法———語義學解析法(SemanticDifferential,即語義分化)。SD法是C•E•奧斯顧德1957年作為一種心理測定的方法而提出的,從字面上講,SD法是指語義學的解析方法,即運用語義學中“言語”為尺度進行心理實驗,通過對各既定尺度的分析,定量地描述研究對象的構(gòu)造和概念。這本書一經(jīng)出版,SD法便在短短時間內(nèi)得到了普及。只是,目前SD法在心理學等相關領域卻慢慢被忽視了,而在建筑領域、室內(nèi)工程、商品開發(fā)、市場調(diào)查等領域備受青睞。在日本,運用SD法研究建筑空間與色彩等課題已經(jīng)發(fā)展到爐火純青的地步。SD法已經(jīng)成為建筑空間環(huán)境相關量心理評定的基本方法。由于SD法的介入,使得研究人員對于建筑空間的評價由感性上升到理性,并使得定量分析成為可能。而目前運用SD法進行實態(tài)調(diào)查的研究項目在國內(nèi)建筑研究領域尚處于起步階段。SD法操作要點:a.基本程序;b.評定的尺度;c.被驗者;d.評定實驗;e.因子分析;f.因子軸的抽出。莊惟敏先生發(fā)表于《清華大學學報自然科學版》的“SD法與建筑空間環(huán)境評價”一文中對于SD法做過詳細介紹,并歸納出操作要點,提出了評價尺度的設定原則、評價操作的程序、實態(tài)調(diào)查的多因子變量分析方法以及評價結(jié)論的意義。空間環(huán)境評價是建筑學研究領域的主要內(nèi)容之一,其研究結(jié)果在舊居住區(qū)更新研究中有著重要的學術參考價值。SD法也是現(xiàn)代設計方法論中的重要手段和技術準備,對建筑學傳統(tǒng)的理論體系的變革和發(fā)展有著重要意義。2)模擬法及數(shù)值解析法:以與現(xiàn)實目標相仿的模擬空間作為研究對象,模擬生態(tài)環(huán)境、進行實驗和數(shù)據(jù)分析。3)多元回歸分析。在實際的研究中,我們常常要研究兩個或兩個以上變量之間的聯(lián)系,而不只是討論一個變量的某些孤立的特征。我們常常需要知道一個變量是如何與其他變量相聯(lián)系的,這就是統(tǒng)計學家所說的“回歸”。多元回歸模型在觀察性研究中(非實驗性數(shù)據(jù))有著特別的價值。舉例來說,例如影響人們對于舊居住區(qū)更新滿意度的因素可能有年齡、性別、教育程度、居住條件、更新方式、政府管理等等,那么,我們就可以通過回歸分析來判斷這些變量(自變量與應變量)之間的相互聯(lián)系。4)KJ法:是從收集到的以及儲存的數(shù)據(jù)庫中,抽出當前對解決問題有用的東西,將它們之間又相互聯(lián)系的內(nèi)容結(jié)合在一起,進行整理、組合的方法。主要用于追蹤人們的思考過程。
關鍵詞:移動通信;WAP網(wǎng)關;用戶數(shù)據(jù)
1概述
目前移動通信網(wǎng)絡飛速發(fā)展,GSM、TD-SCDMA、CDMA2000以及WCDMA各制式無線網(wǎng)絡基礎設施升級換代頻繁、核心網(wǎng)3G無線網(wǎng)絡與核心網(wǎng)絡與2G網(wǎng)絡互相兼容兼容性,各地運營商根據(jù)實際需求考慮使用4G、3G與2G三大獨立的無線、接入、核心網(wǎng)絡并存的局面。在全網(wǎng)同步引入HSDPA和HSUPA技術的同時,對2G核心網(wǎng)中對原有GPRS/EDGE網(wǎng)絡升級改造。利用2G網(wǎng)絡頻率范圍在890-960MHz的穿透性強的優(yōu)勢,不僅減輕3G、4G基站的運維負擔,還可以彌補4G網(wǎng)絡的覆蓋盲區(qū)。所以在移動通信用戶數(shù)據(jù)采集時不能不考慮現(xiàn)存2G網(wǎng)絡的豐富數(shù)據(jù)參考價值。隨著ISO和安卓系統(tǒng)的智能手機的大眾化,曾經(jīng)的GPRS技術里數(shù)據(jù)經(jīng)過WAP網(wǎng)關的處理逐漸弱化,用戶終端可接入移動網(wǎng)絡經(jīng)過GGSN網(wǎng)關連接互聯(lián)網(wǎng)并訪問其內(nèi)容,2G網(wǎng)絡GPRS數(shù)據(jù)業(yè)務和EDGE技術與WAP網(wǎng)關相連。2G時代,WAP無線協(xié)議互聯(lián)網(wǎng)無直接訪問功能,所以添加WAP網(wǎng)關是用戶上網(wǎng)。智能手機之前的Symbian系統(tǒng)處理能力不及PC主機,無論是網(wǎng)速還是現(xiàn)實視頻、音頻、互動性媒體、主題等等都與寬帶互聯(lián)網(wǎng)甚至光纖入戶的PC家用主機電腦無法匹敵,在2.5G時代,GSM通信系統(tǒng)中的配套設備模塊中的WAP網(wǎng)關只能根據(jù)MS手機終端的應別能力進行通信網(wǎng)與互聯(lián)網(wǎng)的交[1]。
2移動通信網(wǎng)絡數(shù)據(jù)
移動互聯(lián)網(wǎng)在2G/3G時代,核心網(wǎng)是兩個獨立的域,控制語音相關的叫電路域(CS域:CircuitSwitch),控制數(shù)據(jù)業(yè)務相關的叫分組域(PS域:PacketSwitch)。相應的,與語音相關的控制都放在了電路域,比如上面的語音呼叫建立、返回振鈴、判斷并執(zhí)行呼叫轉(zhuǎn)移,業(yè)務短信等等。與數(shù)據(jù)相關的控制則放在了分組域,比如上面的與因特網(wǎng)服務器(通信網(wǎng)與因特網(wǎng)是兩張網(wǎng))建立數(shù)據(jù)連接、區(qū)分當前流量是微信還是微博等等。自2G時代以來WAP網(wǎng)關是承載移動數(shù)據(jù)業(yè)務的網(wǎng)元。
2.1用戶數(shù)據(jù)
移動通信的空間自由度與互聯(lián)網(wǎng)的內(nèi)容形式豐富結(jié)合處移動互聯(lián)網(wǎng)的新品種。目前移動通信運營商3G、4G技術的發(fā)展以及Wifi覆蓋范圍的擴大也使得網(wǎng)速越來越快,用戶體服務需求驗越來越迫切;用戶數(shù)據(jù)分為兩種:一種是用戶注冊信息將自己的身份識別與手機號碼相關聯(lián),在信息層面上存入數(shù)據(jù)庫,咋數(shù)據(jù)層面上存入HLR中為通信系統(tǒng)的呼叫、尋址、和計費分配信道等工作提供服務;另一種是指通過無線基站近乎于log日志的形式,使用戶主觀意愿被動或不知情的前提下在系統(tǒng)存儲設備上記錄用戶位置更新,小區(qū)切換,小區(qū)重選等為用戶提供的移動通信服務功能。這類數(shù)據(jù)的產(chǎn)生不由用戶的主觀意愿為選擇,是為了完成一次通信系統(tǒng)用戶漫游的一個必要手段和環(huán)節(jié),但是在數(shù)據(jù)分析挖掘研究者看來,是有著非常意義的數(shù)據(jù)內(nèi)容,通過數(shù)據(jù)的數(shù)據(jù)清洗:去重、去噪聲、去錯誤、插值等異常處理;數(shù)據(jù)集成:統(tǒng)一單位、去掉冗余、選擇感興趣屬性列;數(shù)據(jù)變換:數(shù)值歸一化、離散化處理;數(shù)據(jù)脫敏:去隱私化,截斷與加密;數(shù)據(jù)演繹:特征構(gòu)造,根據(jù)原有的一個或多個特征創(chuàng)建出新的特征并填充。獲得群體用戶的地理位置特征,在不同時段的移動基站下的人流密度,繪制出人口出行交通時段的密度可視化圖等等,通過對用戶數(shù)據(jù)不斷發(fā)掘分析,才能滿足移動互聯(lián)網(wǎng)用戶日益增長的智能化需求。
2.2數(shù)據(jù)分析
在3.5G的LTE網(wǎng)絡體系架構(gòu)中,WAP/Web網(wǎng)關處在PGW后與外網(wǎng)互通,功能等同于PDSN,其余接口并沒有什么功能變化。經(jīng)過BTS(基站)、傳輸設備、BSC\RNC等至PDSN(分組數(shù)據(jù)支持節(jié)點),在2G網(wǎng)絡中發(fā)至WAP網(wǎng)關的數(shù)據(jù)分流發(fā)至智能設備;由設備開啟用戶TCP連接,解析主機的URL用戶請求、判斷、處理,經(jīng)過鑒權(quán)處理合法用戶,允許通過防火墻轉(zhuǎn)達請求接至互聯(lián)網(wǎng)提供鏈路連接分配IP地址提供服務,如果是欠費或非法用戶拒絕原服務請求。從移動互聯(lián)網(wǎng)的智能手機應用端的使用業(yè)務流量角度來分析,用戶通過終端經(jīng)過移動互聯(lián)網(wǎng)接入Internet網(wǎng)絡不同的APP有不同的流量特征,例如連接應用程序:電子郵件、即時通訊、GPS導航、遠程訪問;商業(yè)應用程序:移動銀行服務、股市跟蹤與交易、文件處理及日程規(guī)劃;日常生活類應用程序:電子商務、賬單支付、健康監(jiān)測、數(shù)字閱讀與社交;娛樂應用程序:新聞、游戲、多媒體播放器、照片及視頻編輯器。
3研究方法
3.1數(shù)據(jù)流收集器
部署于SGSN和GGSN之間,并且不僅僅移動電話產(chǎn)生的流量會被記錄,上網(wǎng)卡所產(chǎn)生的流量也會被記錄。流量記錄中包含了時間、手機號、服務器IP、數(shù)據(jù)傳輸大小、數(shù)據(jù)類型等信息。本課題根據(jù)這些信息建立了流量權(quán)值圖(簡稱流量圖)。其中,手機號和服務器IP分別對應流量圖中的不同節(jié)點,手機號向服務器IP的數(shù)據(jù)傳輸代表了流量圖的邊,從服務器-IP到手機號是流量圖中對應邊的方向,數(shù)據(jù)傳輸大小代表了流量圖中邊的權(quán)值。通過上述對應方法,為不同類型的流量數(shù)據(jù)建立了各自的流量圖。并在流量圖的基礎上,對網(wǎng)絡流量傳輸數(shù)據(jù)進行了分析。
3.2技術路線
SGSN與無線分組控制器之間同過Gb口連接,實現(xiàn)移動數(shù)據(jù)的管理;與歸屬位置寄存器通過Gr口連接,實現(xiàn)對用戶數(shù)據(jù)庫的訪問控制;與GGSN通過Gn口連接,進行IP數(shù)據(jù)包的傳輸以及協(xié)議變換。本文通過部署Gb接口(SGSN與BSS之間)的PC端截取數(shù)據(jù)流之后,用網(wǎng)絡爬蟲軟件對數(shù)據(jù)進行初步的收集。Gb接口是傳遞轉(zhuǎn)達SGSN和BSC之問的信令和用戶數(shù)據(jù)的功能。用戶通過移動終端將請求發(fā)給BTS,再通過基站子系統(tǒng)連接傳輸網(wǎng)絡,Gb接口是終端入網(wǎng)的必經(jīng)接口。本文是從Gb接口攔截移動互聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù),并對數(shù)據(jù)盡情分類,聚類等數(shù)據(jù)挖掘方面的研究[2]。原始數(shù)據(jù)由Gb接口得到,進行深層次的分析,不僅能夠?qū)崟r地了解當前的網(wǎng)絡質(zhì)量,還能發(fā)現(xiàn)移動用戶的網(wǎng)絡行為。以SGSN作為研究對象,GPRS是GPRS服務節(jié)點(ServiceGPRSSupportNode)是移動通信核心網(wǎng)的重要組成部分,也是分組交換的核心部分。研宄流經(jīng)具體SGSN的網(wǎng)絡業(yè)務流量、接入用戶數(shù)以及訪問記錄數(shù)的情況,以此來表征網(wǎng)絡中具體節(jié)點的業(yè)務情況[3]。
4結(jié)語
當前的三代移動通信系統(tǒng)(2G\3G\4G)并存的移動互聯(lián)網(wǎng)環(huán)境中,移動互聯(lián)網(wǎng)流量中雖然WAP流量不能構(gòu)成主流的移動用戶流量的主要組成部分,原有的WAP內(nèi)容正逐漸被WEB內(nèi)容所代替。本文所研究在移動互聯(lián)網(wǎng)環(huán)境下,關于個人用戶數(shù)據(jù)隱私保護的數(shù)據(jù)挖掘相關問題。采取從基礎的移動互聯(lián)網(wǎng)機制下的顯示存在的“混搭”網(wǎng)絡為數(shù)據(jù)研究出發(fā)點,深入分析地研究不同代移動通信系統(tǒng)所組成的網(wǎng)絡中產(chǎn)生的互聯(lián)網(wǎng)用戶數(shù)據(jù)。針對每個個人為基本單位內(nèi)容,采用“理論建模方法論證實驗認證”的研究方法。隨著移動數(shù)據(jù)接入的蓬勃發(fā)展,WAP網(wǎng)關面臨著各種問題。但是作為數(shù)據(jù)分析方,需要的是廣而全的數(shù)據(jù),數(shù)據(jù)挖掘用戶行為不是僅僅需要少數(shù)服從多數(shù)的統(tǒng)計,無論是Symbian系統(tǒng)的MS移動終端使用GPRS技術通過WAP網(wǎng)關訪問WML語言編寫的網(wǎng)站,還是早已去電路域依靠軟交換全網(wǎng)IP化實現(xiàn)核心網(wǎng)部分的網(wǎng)關轉(zhuǎn)接傳遞,每一個bit流量都代表這一個用戶一個群體的價值與意義。所以現(xiàn)網(wǎng)并存的三代移動通信系統(tǒng)的數(shù)據(jù)全面采集的多樣性,才能展現(xiàn)其內(nèi)在隱藏的特征,才是正確的得到數(shù)據(jù)揭示真理的第一步。
參考文獻
[1]王璐.移動互聯(lián)網(wǎng)用戶行為分析[D].重慶:重慶郵電大學,2013:86.
[2]趙其朋.WAP網(wǎng)關應對移動互聯(lián)網(wǎng)大流量的改造及演進[J].廣州:移動通信,2014:16.
[關鍵詞] 單核苷酸多態(tài)性;聚類分析;基因;數(shù)據(jù)挖掘
[中圖分類號] R181.2+3 [文獻標識碼] A [文章編號] 1673-7210(2015)09(a)-0036-06
[Abstract] Statistical methods currently used for single nucleotide polymorphisms (SNPs) data cluster analysis are explained, and select five kinds of representative statistical methods, make specific analysis to each method separately. In the discussion process for each method, all divided into 5 parts: principle of the method, calculation methods, formulas, advantages and defects. In the discussion section of the article, all the methods are summarized, and propose future development direction of the cluster method for SNPs data.
[Key words] Single nucleotide polymorphisms; Cluster analysis; Gene; Data mining
在人類的基因組中存在各種形式的變異,其中,單核苷酸多態(tài)性(single-nucleotide polymorphisms,SNPs),即單個的核苷酸變異所引發(fā)的DNA鏈序列的多態(tài)性,是這些變異中最普遍的形式。根據(jù)數(shù)據(jù)統(tǒng)計,在人類含有不低于30億個含氮堿基對數(shù)量的基因組中,SNP出現(xiàn)的概率在1/1000左右[1]。如何利用這些信息,建立數(shù)字模型,探索這些基因與位點和疾病的關聯(lián),成為了擺在科學家面前的一個富有挑戰(zhàn)意義的課題[2]。
科學家們在長期的研究中,根據(jù)“物以類聚”的原始思想,衍生出了對復雜數(shù)據(jù)或者試驗對象等進行歸類的一種多元統(tǒng)計學分析方法,即現(xiàn)在歸屬于統(tǒng)計學分支的聚類分析(cluster analysis),又稱其群分析。這種統(tǒng)計方法的核心思想從誕生之日起就未更改,即在沒有任何可用來參考的或者依從的規(guī)范下(即先驗知識準備程度為零),按照被研究對象或者樣品本身的特點或者性狀,進行最大程度合理的分類。通過聚類分析的計算過程,不僅可以保證在最終所分的類別情況下,同一類別中的對象或者樣品,能夠具有最大程度的相似性,而且使不同類別中的對象或者樣品,擁有最大程度的相異性。以大量相似為基礎,對收集數(shù)據(jù)來分類,成為了聚類分析計算本身的最終目標[3]。從統(tǒng)計學的觀點看,聚類分析計算是通過數(shù)據(jù)建模簡化原有數(shù)據(jù)復雜程度的一種方法,而從實際應用的角度看,聚類分析計算亦是數(shù)據(jù)挖掘的主要任務之一。高維度高通量SNPs數(shù)據(jù)聚類分析,是近現(xiàn)代聚類分析中一個非常活躍的領域,同時也是一個非常具有挑戰(zhàn)性的工作。
目前用于高維度SNPs數(shù)據(jù)聚類分析的方法有很多種,常用的幾大類有Logistic回歸、潛在類別分析(latent class analysis,LCA)模型、結(jié)構(gòu)方程模型分析(structural equation modeling,SEM)、以決策樹為基礎的分類回歸樹(classification and regression trees,CART)和隨機森林(random forest,RF)算法的分析[4]、基于貝葉斯網(wǎng)絡(Bayesian networks,BNs)模型的分析、基于神經(jīng)網(wǎng)絡(neural networks,NNs)模型的分析和支持向量機(support vector machine,SVM)的方法等,上述種類的方法各有其適用性,在聚類計算的效能方面也廣泛存在爭議。本文從以上幾類方法中,遴選出應用較廣泛、理論相對成熟的潛在類別分析、分類回歸樹模型、貝葉斯網(wǎng)絡潛變量模型、BP神經(jīng)網(wǎng)絡模型和支持向量機5種具體方法進行比較,闡述其在SNPs數(shù)據(jù)聚類分析中的意義。
1 潛在類別分析
誕生于20世紀50年代的LCA方法,其基本原理是通過引入潛變量概念,建立潛在類別模型(latent class model,LCM),在保證維持各個顯變量的數(shù)據(jù)局部獨立性的基礎上,力圖用少數(shù)的潛變量與各個顯變量建立關系,然后以數(shù)量相對較小的潛變量進行對象關系解釋。而爭取利用最少數(shù)量的且關系上互相排斥的潛變量對各個顯變量的概率分布進行最大程度的解釋,就是潛在類別分析的基本假設,這種假設的思想傾向于各種顯變量對其類別進行解釋的潛變量都有反應的選擇性[5]。潛在類別分析的統(tǒng)計原理建立在概率分析的基礎之上。一個潛在類別模型是由一個(或多個)潛在變量和多個外顯變量組成的Bayes網(wǎng)[6]。
完整的LCM分析過程包括數(shù)據(jù)概率變換參數(shù)化、模型參數(shù)估計與識別、模型評價指標選擇、分類結(jié)果解釋等[7-10]。
1.1 概率參數(shù)化
潛在類別概率和條件概率構(gòu)成了潛在類別模型概率參數(shù)化過程中的兩種參數(shù)。假設某數(shù)據(jù)集含有三個彼此之間不相互獨立的外顯變量,以A、B、C表示,而且每一個顯變量分別具有的水平數(shù)為I、J、K。按照假設,若尋找到合適的潛變量X,則X需滿足一下條件:首先,要求合理解釋A、B、C的關系;第二,在潛變量的各個類別之中所有顯變量維持最大的局部獨立性,則為潛在類別分析,如果潛變量X中含有T個潛在類別的話,用數(shù)學模型表達就為:
在上式中,LCM的組合概率,用πijkABC表示,相應的,潛在類別概率,以πtX表示,其意義可以解釋為:在觀察變量處于局部獨立的條件下,潛變量X在第t個水平的概率,即從樣本中隨機選取的觀察對象屬于潛在類別t的概率。容易證明,各個潛在類別的概率總和永遠為100%即1,用公式表達為:
條件概率,用πitAX表示,其意義可以解釋成:外顯變量A的第i個水平更傾向于劃歸到第t個潛在類別的個體的概率。由于各個潛變量的各個水平處于相互獨立的狀態(tài),所以各外顯變量的條件概率總和為1,即:
1.2 參數(shù)估計與模型擬合
在潛在類別模型的參數(shù)估計過程中,最大似然法(maximum likelihood,ML)是被最廣泛使用且計算軟件中默認的方法。EM(expectation-maximization)、NR(Newton Rapson)算法在計算迭代過程中為最常用的方法,而其中前者更為常用。在潛在類別模型評價方面,AIC評分(akaike informationcriterion)和BIC評分(bayesian information criterion)成為使用最為廣泛的擬合評價指標。兩者共同點為:其計算理論基礎都為似然比χ2檢驗,對于模型對應的參數(shù)限制不一致的情況下,也可以用來橫向比較,且結(jié)果簡單直觀,都是數(shù)值越小表示模型擬合越好。Lin與Dayton曾經(jīng)指出,當研究的樣本數(shù)量級達到或者超過千位級時,BIC指標更可靠,否則AIC更佳[11]。
1.3 潛在分類
完成最優(yōu)化模型的確定之后,就可以利用模型進行計算,將每個外顯變量的數(shù)據(jù)值分配到判定的潛在類別之中,通過這個過程,完成數(shù)據(jù)的后驗類別分析,即潛在聚類分析。上述分類的理論依據(jù)是著名的貝葉斯理論,分類的計算公式為:
潛在類別分析雖然理論建立時間較早,但是一直依靠著自身的優(yōu)勢在聚類分析領域有一席之地,其計算思想中融合了結(jié)構(gòu)方程模型與對數(shù)線性模型的構(gòu)思。該算法的目的明確,即數(shù)量眾多的顯變量之間的關系,可以用最優(yōu)化的組合模式,使用最少的潛變量來解釋。結(jié)構(gòu)方程模型只能夠?qū)B續(xù)型潛變量處理的缺陷,在潛在類別模型問世后得到了相當程度的彌補,特別在設計思想范圍中,使得研究者以概率論為基礎,能夠通過數(shù)據(jù)對分類結(jié)果之后所隱藏的因素做更為深刻的了解,這些都要歸功于分類潛變量的引入這一有效提高分類效果的方法[12]。
但是,由于該方法的分析原理比較簡單,只是脫胎于貝葉斯概率理論的概率參數(shù)化,所以使得該方法在聚類分析過程中,如果SNPS數(shù)量較少,則表現(xiàn)出不錯的聚類效果,但如果SNPS數(shù)據(jù)維度過高,則有失水準。具體表現(xiàn)在高維度高通量的SNPS數(shù)據(jù)聚類分析過程異常復雜,時間消耗過長,而最終得到的聚類結(jié)果也容易在解釋時發(fā)生阻礙。
2 分類回歸樹模型
CART[13]不僅可以在已經(jīng)獲得的數(shù)據(jù)庫中通過一定的規(guī)則提煉出關聯(lián),而且是對隱藏在各種指標中的分類屬性進行量化計算成為可能,其作為數(shù)據(jù)挖掘技術中的經(jīng)典聚類分析方法,為高通量SNPs數(shù)據(jù)的聚類分析制造了一個科學而準確的平臺。分類回歸樹的基本原理為:如果對于已經(jīng)給定的待分類對象X,已知其可以進行Y個不同屬性的分類,那么該模型將模擬把X逐級遞歸的分解為多個數(shù)據(jù)子集,并且認為Y在子集上的分布狀態(tài),是均勻并且連續(xù)的,而分解的方法為二叉樹分類法。該方法如同自然界中的樹木一樣,數(shù)據(jù)集X由根部向葉部逐步分解移動,每一個劃分點即樹木分叉點的原因,由分支規(guī)則(splitting rules)確定,最終端的葉子表示劃分出的最終區(qū)域,而且每一個預測樣本,只能被分類到唯一的一個葉子,同時Y在該點的分布概率也被確定下來。CART的學習樣本集結(jié)構(gòu)如下:
L={X1,X2,…,Xm,Y}
其中,X1~Xm可以稱之為屬性變量,Y可以稱之為標簽變量。但在樣本集中無論是X或是Y,其變量屬性可以容許多種形式,有序變量和離散型變量都可以存在。若Y處于有序變量的數(shù)值情況時,模型被稱為回歸樹;若情況相反,稱之為分類樹。
2.1 分類回歸樹的構(gòu)建
將給定的數(shù)據(jù)集L轉(zhuǎn)化成與其對應的最大二叉樹,這個過程稱之為構(gòu)建樹Tmax[14]。為了尋找到對應數(shù)據(jù)集的最優(yōu)分支方法,最大雜度削減算法被運用到構(gòu)建過程之中。在進行分支時,數(shù)據(jù)中每個值都要納入計算范圍,只有這樣才能計算出最佳的分支點進行分叉。CART的構(gòu)建離不開Gini系數(shù)的使用。若數(shù)據(jù)集L中,含有記錄的類別數(shù)量為N,Gini系數(shù)的表達式就為:
其中,Pj表示T中第N個分類數(shù)據(jù)的劃分頻率。對于任意的劃分點T,如果該點中所包含的樣本量非常集中,那么該點的Gini(T)值越小,從分類圖上顯示為該節(jié)點分叉角度越鈍。欲構(gòu)建最終的Tmax,就要重復操作,將根節(jié)點分支為子節(jié)點,而這種遞歸分類的計算,最好利用統(tǒng)籌學中的貪心算法。
2.2 樹的修剪
當Tmax建造好之后,下一步需要對其進行所謂的修剪操作,就是去掉那些可能對未知的樣本分類計算精度上,沒有任何幫助的部分,其目標是處理掉對給定數(shù)據(jù)集中的噪音干擾的問題,以便形成最簡單最容易理解的樹。通常對樹進行修剪的方法是以下兩種,先剪枝方法(prepruning)與后剪枝(postpruning)方法,兩者都有助于提高已經(jīng)建成的樹,脫離開訓練數(shù)據(jù)集后,能夠正確地對未知數(shù)據(jù)進行分類的能力,而修剪方法都是通過統(tǒng)計計算,將理論上最不可信的分枝去掉。
2.3 決策樹評估
測試樣本評估法(test sample estimates)與交叉驗證評估法(cross-validation estimates)[15]是通常被用來對CART模型進行評估的方法,而前者的使用率更高。該評估方法的原理與多因子降維法有些類似,而且即時效率比較高,在學習數(shù)據(jù)集囊括的樣本量比較大的情況下,該方法的優(yōu)越性就更加突出,其原理可以解釋為:將原始的數(shù)據(jù)集L隨機分成兩部分,分別為測試集L2與樣本集L1,利用L1生成一系列的Tmax,而且按照序列T1>T2>T3>…>Tn,將測試集L2放到序列中的樹模型之中,TK為L2中的每個樣本逐個分配類別,因為L2中每個樣本的原始分類是事先已經(jīng)知道的,則樹TK在L2上的誤分情況可以利用公式(6)計算:
式中,Nij(2)代表L2中j類樣本劃歸至i類的數(shù)量,c(i|j)為把j類誤分到i類的代價,Rts(TK)表示TK針對L2的誤分代價,則最優(yōu)化樹的條件為:Rts(TK0)=minK(Rts (TK)。
作為一種經(jīng)典的通過數(shù)據(jù)集進行訓練并有監(jiān)督學習的多元分類統(tǒng)計模型,CART以二元分叉樹的形式給出所構(gòu)建出的分類的形式,這種方式非常容易解釋,也非常容易被研究者理解和運用,并且這種方法與傳統(tǒng)意義上的統(tǒng)計學聚類分析的方法構(gòu)建完全不一樣[16]。
但是CART方法對主效應的依賴程度很高,無論是每個分支的根節(jié)點還是后續(xù)內(nèi)部的子節(jié)點,其預測因子都是在主效應的驅(qū)動下進行,并且每個節(jié)點都依賴于上一級的母節(jié)點分支的情況。而且CART方法對結(jié)果預測的穩(wěn)定性上也有缺陷,具體表現(xiàn)在,如果所給數(shù)據(jù)集中的樣本有小范圍的更改,那么所產(chǎn)生的蝴蝶效應就會導致最終所構(gòu)建的模型與原始模型的差別很大,當然分類結(jié)果也就難以一致。
3 貝葉斯網(wǎng)絡潛變量模型
BNs是一種概率網(wǎng)絡,它用圖形的形式來對各種變量間的依賴概率聯(lián)系做描述,經(jīng)典的圖形中,每一個隨機變量利用節(jié)點的方式表達,而變量之間的概率依存關系則利用直線表達,直線的粗細表示依賴的強度。在BNs中,任何數(shù)據(jù),當然也可以是高通量SNPs數(shù)據(jù),都能夠成為被分析的變量。BNs這種分析工具的提出,其原始動力是為了分析不完整性和概率性的事件,它可以從表達不是很精準的數(shù)據(jù)或信息中推理出概率結(jié)果。
網(wǎng)絡的拓撲結(jié)構(gòu)和條件概率分布作為構(gòu)成BNs的兩大核心組件,如果再將潛變量概念引入BNs,則成為了BNs潛變量模型。被包含在BNs中的潛變量數(shù)量,決定著這個模型的復雜程度,因為一般來講,在實際工作中,研究者常常利用潛變量來進行聚類計算,所以BNs潛變量模型也成為了一個經(jīng)典的潛結(jié)構(gòu)模型(latent structure model)或潛類模型(latent class model)。
3.1 模型參數(shù)
在滿足一定的假定條件下,才能對BNs模型進行參數(shù)學習的過程。根據(jù)文獻記載,這些條件分別為:所有的樣本處于獨立狀態(tài);無論全局和局部,均處于獨立狀態(tài);變量不能為連續(xù)變量,只能是分類變量。在上述條件得到滿足的情況下,該模型可以利用數(shù)據(jù),計算出網(wǎng)絡拓撲結(jié)構(gòu)中各個節(jié)點的條件概率θ,且服務于制訂的BNs模型結(jié)構(gòu)η和數(shù)據(jù)集D。計算的方法有最大似然估計法等[17]。
3.2 模型選擇
與LCA方法類似,BNs模型也利用函數(shù)來對模型的擬合優(yōu)劣程度進行評價,衡量標準也是BIC、AIC、BICe等的評分,一般來說,分數(shù)低的模型更加優(yōu)化。
3.3 模型優(yōu)化
在通過評分的方法來確定BNs潛變量模型后(需綜合考量BIC、AIC、BICe三者的得分),該模型下一步就轉(zhuǎn)化成了如何去搜索符合所給數(shù)據(jù)集的最優(yōu)模型的過程。由于該網(wǎng)絡的拓撲結(jié)構(gòu),使得該模型結(jié)構(gòu)的數(shù)目的增長速度非常快,與納入模型的變量數(shù)的增長呈指數(shù)級別比例,能夠適應這種數(shù)量級的搜索算法是啟發(fā)式的,其過程是比較不同的模型的評分,其中最常被使用的是爬山算法(hill climbing)[18]。
利用BNs模型進行高通量SNPs數(shù)據(jù)聚類,其優(yōu)點之一就是在該模型中,所有遺傳的模式都可以被忽略,無論是對SNPs的二分類變異賦值,還是三分類變異賦值,只要納入模型中,就轉(zhuǎn)變成純粹的數(shù)學問題。正是由于這種優(yōu)勢的存在,使得該方法對原始數(shù)據(jù)的類型容許程度很高,由此擴展了此種模型的使用范圍。BNs模型計算的過程雖然復雜,但是結(jié)果解讀起來卻是十分的簡單直觀。只要將各個類別的概率直方圖呈現(xiàn)出來,那所有重要的且有意義的高維度SNPs的整體效應,就能直觀的展現(xiàn)出來。BNs模型一旦被建立起來,就可以被用來對新納入的患者進行分類,其過程如下:輸入新加入樣本的SNPs的狀況,并且將這些狀況進行數(shù)學化處理即賦予其數(shù)據(jù)值,并帶入模型開始運行。模型會通過新加入樣本的SNPs的狀況,根據(jù)概率理論,將其歸入相應類別。
但是BNs模型的理論比較抽象,公式比較復雜,如果讓醫(yī)學工作者去理解其中的數(shù)學機制,可能不太現(xiàn)實,若再要求對模型進行深刻解釋,則更困難。該模型在優(yōu)化過程中的搜索算法也有硬傷,爬山算法從出現(xiàn)開始,就一直受到一定程度的詬病,因為其有使模型偏離到局部最優(yōu)的傾向。
4 BP神經(jīng)網(wǎng)絡模型
BP(back propagation)神經(jīng)網(wǎng)絡在所有的神經(jīng)網(wǎng)絡模型系列中,是被使用最多的模型之一,其核心原理為按照誤差逆?zhèn)鞑ニ惴ǎ瑢λo數(shù)據(jù)集進行多層的正向的反饋擬合,而這些層則包括輸入層(input layer)、隱層(hide layer) 和輸出層(output layer)。
BP神經(jīng)網(wǎng)絡模型對于已經(jīng)給定的數(shù)據(jù)集的訓練過程可以解釋為:各種數(shù)據(jù)由輸入層負責接收,并且向內(nèi)層進行傳遞,傳遞過程中需經(jīng)過一定的中間層級,信息在隱層部分進行計算處理,處理完畢后向輸出層傳遞,輸出層的神經(jīng)元接收到后,即完成了一次完整的訓練信息的傳播,其結(jié)果由輸出層向外面釋放。如果輸出的結(jié)果與期望值差距沒有達到要求,則進入信息的反方向運動過程,將誤差信息通過輸出層、隱層、輸入層的順序反向傳遞。在上述正向和反向的兩種信息傳遞過程中,為了使整個BP神經(jīng)網(wǎng)絡模型的誤差的平方和達到最小,就需要對各個層級的權(quán)重和反應閾進行相應調(diào)整,在一定次數(shù)的迭代過程中達到符合設定的要求范圍內(nèi)[19]。
BP神經(jīng)網(wǎng)絡模型建立流程:①建立高通量SNPs足夠而可靠的數(shù)據(jù)信息樣本數(shù)據(jù)庫。②把SNPs樣本數(shù)據(jù)進行處理,變成BP神經(jīng)網(wǎng)絡模型可以納入的形式。③建造BP神經(jīng)網(wǎng)絡初級雛形,進行數(shù)據(jù)訓練。首先確定神經(jīng)網(wǎng)絡所需層的數(shù)量,還有隱藏節(jié)點的數(shù)量,接下來完成各連接權(quán)值的初始化過程,將樣本數(shù)據(jù)代入。④開始BP神經(jīng)網(wǎng)絡的迭代過程,按照誤差逆?zhèn)鞑ニ惴ǎ瑢λo數(shù)據(jù)集進行多層的正向的反饋擬合,最終確定各個層的權(quán)重。⑤利用訓練好的BP神經(jīng)網(wǎng)絡測試樣本。將樣本輸入訓練好的BP神經(jīng)網(wǎng)絡,并輸出結(jié)果[20]。
非線性問題的解決能力是BP神經(jīng)網(wǎng)絡模型區(qū)別于其他的能夠自我學習、自我訓練的模型的特點之一,該模型以簡單的結(jié)構(gòu)模仿神經(jīng)組織的構(gòu)成和信號傳導通路,根據(jù)提供的數(shù)據(jù)進行學習和自適應,最后可以對復雜的問題求解[21]。該模型的運行模式也很簡單,一旦模型建立,則直接將數(shù)據(jù)帶入,BP神經(jīng)網(wǎng)絡就可以對諸多影響因素和結(jié)果之間的復雜關系進行統(tǒng)計,超越傳統(tǒng)聚類模型,也有能力提供更多的信息量[22]。
但是BP神經(jīng)網(wǎng)絡模型的缺陷也十分明顯,首先該種聚類方法迭代次數(shù)比較多,計算收斂的速度比較慢;標準的BP神經(jīng)網(wǎng)絡算法各個層的權(quán)重值的確定是完全隨機性的,容易形成局部最優(yōu)化;在模型建立的初始階段,各個節(jié)點的確定也沒有確鑿的理論支持[23]。
5 支持向量機
1995年Comes等[24]提出了一種新型機器學習方法,該方法的數(shù)學理論基礎雄厚,被稱之為SVM。這種方法問世之后,就以其在小樣本、高維度數(shù)據(jù)方面處理的獨特優(yōu)勢,被迅速推廣到數(shù)據(jù)聚類分析領域的各個方面[25]。SVM的基本原理如下:利用非線性映射的方法φ(x):RnH,將待聚類數(shù)據(jù)集首先映射到高維空間H中,試圖在高維空間中尋找最優(yōu)化的一個超平面,此超平面的作用為對數(shù)據(jù)進行分類。達到最優(yōu)超平面的要求為:對于數(shù)據(jù)來說,要求分類的間隔最大而且置信區(qū)間最窄;達到最少的數(shù)據(jù)樣本錯分數(shù)量,以上兩條的原則為分類風險最低。
SVM的計算流程為:
在高維空間中,如果被映射數(shù)據(jù)具有二維線性且可分時,則一定存在一個分類超平面:
其中αi≥0稱為拉格朗日系數(shù),該函數(shù)對?X和b最小化,對αi最大化。將該問題轉(zhuǎn)化為其對偶形式,求得最優(yōu)分類函數(shù)為:
其中,K(x,xi) =φ(xi)?φ(xj)被稱之為核函數(shù),其作用是將原始數(shù)據(jù)集映射到高維H空間。而核函數(shù)有很多種形式,多項式形式、徑向基形式等等。但是如果原始數(shù)據(jù)集經(jīng)過轉(zhuǎn)換后,確實為線性不可分時,方法會不可避免的產(chǎn)生錯分點,此時非負松弛變量ξi≤1,i=1,…,l被引入,而式(8)、(9)合并為:
在上述條件下,求下式目標函數(shù)的最小值:
在式(13)中,用C來作為懲罰因子,對錯分點來進行一定程度的懲罰,當然是人工定義的,其主要作用是在限制數(shù)據(jù)集偏差和該方法的推廣范圍兩者間,維持一個平衡。
SVM模型作為一種經(jīng)典的處理小樣本的自我學習、自我組織的分類方法,雖然其基礎理論依然與神經(jīng)網(wǎng)絡模型類似,均為通過對給定樣本的統(tǒng)計學習,建造模型,而且對非線性數(shù)據(jù)的處理能力很強,但是很大程度上避免了陷入局部最優(yōu)化,維度過高限制,擬合過度等缺陷,擁有更廣闊的發(fā)展空間[26]。雖然該方法出現(xiàn)時間比較晚,但是研究者已經(jīng)在包括預測人口狀況[27]、嬰兒死亡率前瞻[28]、金融產(chǎn)業(yè)[29]和工業(yè)產(chǎn)業(yè)[30]前景推斷等方面進行了有效使用,當然也包括在高通量SNPs數(shù)據(jù)聚類,均取得了不錯的效果。
但是SVM一樣存在短處,由于其分類過程是基于對原始數(shù)據(jù)集的再次規(guī)劃來尋找超平面,而再次規(guī)劃的計算就有n階矩陣(n為樣本個數(shù)),如果n的數(shù)量很大,則電腦的內(nèi)存將難以承受巨大的矩陣信息。而且原始的SVM模型只能對數(shù)據(jù)集進行二分類計算,有一定的局限性,由于在實際工作中,很多情況下分類數(shù)量要大于二,為了解決這個問題,只能去在其他方面想相應的解決方法。
6 討論
不僅上述5種具體方法,而且在前文中所提出的幾大種類中的具體聚類分析方法都各有其優(yōu)缺點,研究者們已經(jīng)針對上述幾類聚類方法的缺陷進行了深入的研究,并提出了許多改進方法,提高了在高通量SNPs數(shù)據(jù)聚類分析時的計算效能。董國君等[31]提出了將仿生學算法中的退火算法引入到神經(jīng)網(wǎng)絡模型中,能夠有效地避免該模型收斂到局部最優(yōu)的狀態(tài)。胡潔等[32]更是經(jīng)過改進,建造了一種能夠快速收斂而且全局最優(yōu)的神經(jīng)網(wǎng)絡模型算法,將BP神經(jīng)網(wǎng)絡的計算效率大為提高。而Leo Breiman在2001年提出的隨機森林(random forest)算法,本質(zhì)上就是對分類回歸樹算法的一種組合改進,其計算原理為:利用多個樹的模型對數(shù)據(jù)進行判別與分類,其在對數(shù)據(jù)進行處理的同時,還可以給出各個變量的重要性得分,評估變量在分類中所起的作用[33]。2012年提出了混合潛變量模型(structural equation mixture modeling,SEMM),本質(zhì)上是一種結(jié)構(gòu)方程模型衍生出的改進版,其設計思想中匯合了潛在類別分析、潛在剖面分析以及因子分析的因素,將潛變量分析與結(jié)構(gòu)方程進行協(xié)調(diào)組合,創(chuàng)造出的一種新型SNPs分析方法。這種新的方法,將結(jié)構(gòu)方程的缺點――只能分析連續(xù)潛變量和潛在類別分析的缺點――只能分析分類潛變量,進行有效的補充,而且把一種全新的探索式的思路引入了高維數(shù)據(jù)分析的領域。在實際進行聚類分析時,也可以將幾種方法結(jié)合使用,分別在計算的不同階段利用效能最高的方法,做到優(yōu)勢互補。現(xiàn)已經(jīng)出現(xiàn)基于神經(jīng)網(wǎng)絡算法和蟻群算法進行結(jié)合使用的報道。
盡管用于高通量SNPs數(shù)據(jù)聚類分析的方法有多種,但目前沒有任何一種方法可以適用于所有的情況。因此,研究者們依舊沒有停下尋找更為合適的方法的腳步。不可否認,在基因組相關研究中,SNPs數(shù)據(jù)的分析對于研究復雜性疾病和遺傳因素的聯(lián)系是一項挑戰(zhàn),但也是機遇。如果能正確合理地運用各種復雜的統(tǒng)計學方法,就可以提高聚類分析的效能,提示研究者們未來應在尋找更適用的高通量SNPs數(shù)據(jù)聚類分析方法方面付出更多努力。
[參考文獻]
[1] Jakobsson M,Scholz SW,Scheet P,et al. Genotype,haplotype and copy-number variation in worldwide human population [J]. Nature,2012,451: 998-1003.
[2] 馬靖,張韶凱,張巖波.基于貝葉斯網(wǎng)潛類模型的高維SNPs分析[J].生物信息學,2012,10(2):120-124.
[3] 張家寶.聚類分析在醫(yī)院設備管理中應用研究[J].中國農(nóng)村衛(wèi)生事業(yè)管理,2014,34(5):510-513.
[4] 袁芳,劉盼盼,徐進,等.基因-基因(環(huán)境)交互作用分析方法的比較[J].寧波大學學報:理工版,2012,25(4):115-119.
[5] 張潔婷,焦璨,張敏強.潛在類別分析技術在心理學研究中的應用[J].心理科學進展,2011,18(12):1991-1998.
[6] 曾憲華,肖琳,張巖波.潛在類別分析原理及實例分析[J].中國衛(wèi)生統(tǒng)計,2013,30(6):815-817.
[7] Kaufman L,Rousseeuw PJ. Finding groups in data: an introduction to cluster analysis [M]. New York:Wiley,2015.
[8] Hagenaars JA. McCutcheon AL. Applied latent class analysis [M]. New York:Cambridge University Press,2012.
[9] 邱皓政.潛在類別模型的原理與技術[M].北京:教育科學出版社,2011.
[10] 張巖波.潛變量分析[M].北京:高等教育出版社,2011.
[11] Lin TH,Dayton CM. Model selection information criteria for non-nested latent class models [J]. J Educ Behav Stat,2012,22(3):249-264.
[12] 裴磊磊,郭小玲,張巖波,等.抑郁癥患者單核苷酸多態(tài)性(SNPs)分布特征的潛在類別分析[J].中國衛(wèi)生統(tǒng)計,2010,27(1):7-10.
[13] 邵峰晶,于忠清.數(shù)據(jù)挖掘原理與算法[M].北京:中國水利水電出版社,2013.
[14] 王立柱,趙大宇.用分類與回歸樹算法進行人才識別[J].沈陽師范大學學報:自然科學版,2014,23(1):44-47.
[15] 溫小霓, 蔡汝駿.分類與回歸樹及其應用研究[J].統(tǒng)計與決策,2010,(23):14-16
[16] 符保龍,陳如云.分類回歸樹在高校計算機聯(lián)考數(shù)據(jù)分析中的應用[J].計算機時代,2011,(1):33-34.
[17] Dempster AP,Laird NM,Rubin DB. Maximum likelihood from incomplete data via the Em algorithm(with discussion)[J]. J Royal Stat,2012,39(1):1-38.
[18] José A,Gámez,Juan L,et al. Learning Bayesian networks by hill climbing: efficient methods based on progressive restriction of the neighborhood [J]. Data Min Knowl Disc,2012,22:106-148.
[19] 張凡,齊平,倪春梅.基于POS的BP神經(jīng)網(wǎng)絡在腮腺炎發(fā)病率預測中的應用[J].現(xiàn)代預防醫(yī)學,2014,41(11):1924-1927.
[20] 張晶.BP神經(jīng)網(wǎng)絡在圖書館信息處理中的應用研究[J].圖書情報,2014,(9):132-133.
[21] 徐學琴,孫寧,徐玉芳.基于BP神經(jīng)網(wǎng)絡的河南省甲乙類法定報告?zhèn)魅静☆A測研究[J].中華疾病控制雜志,2014,18(6) :561-563.
[22] 馬曉梅,隋美麗,段廣才,等.手足口病重癥化危險因素BP神經(jīng)網(wǎng)絡模型預測分析[J].中國公共衛(wèi)生,2014,30(6):758-761.
[23] 任方,馬尚才.基于條件對數(shù)似然的BP神經(jīng)網(wǎng)絡多類分類器[J].計算機系統(tǒng)應用,2014,23(6):183-186.
[24] Comes C,Vapnik V. Support vector networks [J]. Mach Learn,1995,20:273-297.
[25] 張學工.關于統(tǒng)計學習理論與支持向量機[J].自動化學報,2011,26(1):32-42.
[26] 解合川,任欽,曾海燕,等.支持向量機在傳染病發(fā)病率預測中的應用[J].現(xiàn)代預防醫(yī)學,2012,40(22):4105-4112.
[27] 劉崇林.人口時間序列的支持向量機預測模型[J].寧夏大學學報:自然科學版,2013,27(4):308-310.
[28] 張俊輝,潘曉平,潘驚萍,等.基于支持向量回歸的5歲以下兒童死亡率預測模型[J].現(xiàn)代預防醫(yī)學,2014,36(24):4601-4603,4605.
[29] 陳詩一.非參數(shù)支持向量回歸和分類理論及其在金融市場預測中的應用[M].北京:北京大學出版社,2014:104-106.
[30] Li P,Tan ZX,Yan LL,et al. Time series prediction of mining subsidence based on a SVM [J]. Min Science Technol,2014,21(4):557-562.
[31] 董國君,哈力木拉提.基于隨機退火的神經(jīng)網(wǎng)絡算法及其應用[J].計算機工程與應用,2013,46(19):39-42.
[32] 胡潔,曾祥金.一種快速且全局收斂的BP神經(jīng)網(wǎng)絡學習算法[J].系統(tǒng)科學與數(shù)學,2014,30(5):604-610.