數據分析的方法

時間:2023-07-24 16:32:54

導語:在數據分析的方法的撰寫旅程中,學習并吸收他人佳作的精髓是一條寶貴的路徑,好期刊匯集了九篇優秀范文,愿這些內容能夠啟發您的創作靈感,引領您探索更多的創作可能。

數據分析的方法

第1篇

【關鍵詞】 驗證型實驗 數學處理

物理實驗中,驗證型實驗和研究型實驗都是非常重要的兩類實驗。驗證型實驗是對已建立的物理規律的驗證,研究型實驗是通過實驗得到物理規律,這兩類實驗雖然實驗目的不同,但從數學處理方法上來看,具有相似性,都是通過實驗數據分析確證物理規律或得到物理規律,所以對實驗數據的分析處理方法是否得當就顯得十分重要。下面以一個典型的驗證型實驗的數據處理為例進行相應探討,以期望得出相對合理和妥當的實驗數據處理方法。

以大學物理實驗來說,驗證型實驗較多,諸如牛頓第二定律的驗證、彈性碰撞實驗等等都屬于此類實驗,其中牛頓第二定律的驗證實驗為該類實驗的典型實驗。牛頓第二定律的數學表達式是,力與加速度的大小關系可以表達成,要驗證這個規律,就是給物體加一個大小為F的力,對應產生一個大小為的加速度,得到一個測量點,通過改變力,得到n個測量點后,即可通過適當的數學方法驗證這個關系的成立。

類似這種線性物理規律,其數學模型都可以歸結為的形式。要得到這個線性關系,就是要得出和。通過測量n組和的值,即、、……、、……、,在X―Y平面中得到n個測量點。若不考慮實驗測量的系統誤差,則測量誤差應當服從高斯分布,反應在X―Y平面中,既是這n個測量點應當均勻地分布在所求表達式兩側,對第i個測量點,誤差為,n個測量點導致的總體誤差是最小的。若任意給一個直線,則一是測得到的這n個點不再均勻地分布在直線兩側,二是這n個測量點產生的總體誤差水平將增大,甚至可以達到無窮大。由此可知,所求直線即是使得n個測量點的總體誤差最小的那條直線。總體誤差可以寫成,但由于誤差服從高斯分布,導致理論上而無法通過此求和值衡量總體誤差水平。為使其不因為正負抵消而無法衡量總體誤差水平,只要使得所有誤差均為正再求和即可,故可用殘差來衡量總體誤差水平,雖然殘差不再是總體誤差。使得殘差取最小值的和,即為所求直線的和。此即最小二乘法的數學思想。據最小二乘法處理,所求和即是使得取最小值的和,即有,解此式,得

將測量值供稿,即可得到所求和。通常大學物理實驗中的處理方法,得到和,即是驗證了[1]。但其實這是不太恰當的。

驗證型或者研究型實驗,特別是驗證型實驗,最關鍵的是需要解決兩個問題,一是找出所要驗證的關系,第二是要驗證得出的關系的確成立,而第二點才是最重要的關鍵點。即使得出關系,但如果確證關系不成立,則第一步的工作就變得毫無意義。實際上,任意給出一組、、……、、……、,都可以根據最小二乘法得到和,即得出,但并不意味著此式的確成立,不能確證物理量和的確存在這樣的數量關系,并沒有檢驗此物理規律存在。因此,驗證型實驗做到這一步并不算已經驗證被驗證的物理規律成立,還需要研究和的相關性,通過計算相關系數,據的大小來檢驗和是否的確相關。

總之,驗證型實驗,是對物理規律的驗證,最重要的是確證被驗證物理規律成立,得出相應物理量間的數學表達式并不能說已經驗證了相應物理規律的成立,最重要的是要通過計算物理量間的相關系數來確證所得物理規律是否成立。

第2篇

傳統VS敏捷

我們先來看一下傳統的數據分析流程:解讀業務戰略目標-->確定目標分解的量化KPI-->確定KPI的計算公式和所需字段-->確定所需字段來自于哪些數據庫的哪些表-->數據建模-->預先匯總成二次表和Cube-->結果展示。由于需要建模和打CUBE,這一流程通常需數月才能完成。

現在,取代傳統數據分析流程的,是快速迭代式分析。敏捷數據分析不必在開始時花很長的時間構思大而全的分析指標體系,而是低成本快速迭代,幾分鐘就做好一個當前想要分析的結果,通過敏捷數據分析工具實現動態切換視角,靈活展示數據,日積月累,指標自然越來越豐富,計算公式也越來越符合業務邏輯,這時再體系化。下面的演示視頻將幫助大家了解如何通過敏捷數據分析工具在幾分鐘時間內實現自己的分析需求。

視頻鏈接:v.youku.com/v_show/id_XODcxNTgxMTQ4.html

為什么傳統數據分析無法實現快速迭代分析的高效?因為在過去這么多年以來,我們對于大數據海量數據的計算能力達不到比較理想的要求,所以我們才需要IT人員用通過建模等方式提前把數據計算匯總好,隨著現在大數據的技術相對來講都日趨成熟和完善,分布式計算,內存計算、列存儲等比較成熟的技術架構,采用這種新的辦法去處理數據的性能,已經比以前提升了幾十倍甚至更高。

符合迭代思維

快速迭代式的敏捷數據分析有什么好處?首先,這種分析方法十分符合互聯網思維中的迭代思維。企業的分析指標不可能一開始想得非常全面,本身就是迭代逐步形成的。以電商行業為例,電子商務的數據可分為兩類:前端行為數據和后端商業數據。前端行為數據指訪問量、瀏覽量、點擊流及站內搜索等反應用戶行為的數據;而后端數據更側重商業數據,比如交易量、投資回報率,以及全生命周期管理等。

在最初期,電商行業最關注的是那些核心指標:UV、轉化率、客單價、毛利率、推廣ROI、重復購買率,人們在核心指標的基礎上逐步對媒體、用戶、商品、營銷等對象做詳細分析;同時在客服、商品、倉儲物流等內部運營績效方面進行監控。這些數據現在又可以被歸納發展為4個方面,基礎訪問數據、商品銷售數據、營銷推廣數據、用戶數據,其中基礎數據中包括網站的訪問數據、網頁鏈接點擊、來源跳出等等。商品銷售數據關系到品類、銷售多少、影響因素等。營銷數據包括投入產出的投資回報率,更多地是跟其他幾方面的數據進行混合分析。用戶數據包括分析用戶區域、購買頻率、客戶構成、忠誠度、偏好等等。

適應變化需求

第3篇

1因子分析模型及其統計檢驗

因子分析是一種通過顯在變量測評潛在變量,通過具體指標測評抽象因子的統計分析方法。因子分析的目的即在找出量表潛在的結構,減少題目的數目,使之成為一組數量較少而彼此相關較大的變量。在本文中以主成分因素抽取法抽取共同因素,根據Kaiesr(1960)的觀點選取特征值大于1.0以上的共同因素,再以最大變異法進行共同因素正交旋轉處理,保留共同度大于0.6以及因素負荷量大于0.5以上的題目。因素負荷量為碩士論文因素結構中原始變量與抽取出共同因素相關,負荷量越高表示該題目在該共同因素的重要性越大。共同度和特征值是因子分析的兩個重要指標。共同度是每個變量在每個共同因子的負荷量的平方和,也就是個別變量可以被共同因子解釋的變異量百分比,是個別變量與共同因子間多元相關的平方。特征值是每個變量在某一共同因子的因子負荷量的平方總和。

因子分析的數學模型及其統計檢驗描述如下:

彼此之間是獨立的,則模型(4.1)稱為正交因子模型;相反,如果公共因子彼此之間有一定相關性,則稱為斜交因子模型。由于斜交因子模型比較復雜,在本文中只考慮正交因子模型,而且假定各公共因子的均值為0,方差為1。

模型中的矩陣A稱為因子載荷矩陣,a稱為因子“載荷”,是第i個變量在第j個因子上的負荷。因子載荷陣的求解方法有很多,本文用常用的主成分分析法,求解載荷陣得到僅包含m個因子的因子載荷陣。主要問題就在于如何通過SPSS統計軟件對數據的分析來估計因子載荷矩陣A,負荷量大的指標給予保留,否則剔除。保留下來的指標所構成的體系就是本文最終研究得到的指標體系。關于因子載荷的檢驗有:模型的標準化,這主要是為了得到抽象的因子含義,即對因子各維度進行命名;變量共同度檢驗,變量的共同度越高,說明該因子分析模型的解釋能力越高;因子的方差貢獻檢驗,用因子的累計方差貢獻率來確定公共因子提取的個數,也就是尋找一個使得累計方差貢獻率達到較大百分比的自然數,即最終提取方差貢獻大于1的因子作為公共因子。

由于本文的論題是電子商務環境下服務業企業績效評價指標體系構建,本文主要運用平衡計分卡把評價指標體系分為四個方面,18個二級指標作為18個因子,按照因子分析法來選取有效指標,各項指標在選取時,需要遵循兩個原則,一是該指標在以前的研究中出現的概率,二是指標與所要研究的問題的潛在相關性。本文在四個方面的指標的選取上,另外考慮了①全面性,要求所選的指標能反映企業的經營、客戶、企業學習與成長、財務方面的狀況;②有效性,要求選擇那些能夠對預測企業的整體狀況有指示作用的重要指標;如,若各項指標的雙尾T檢驗的顯著性概率小于0.05,則能有效的反映企業的四個方面的狀況,反之,則是無效指標,應剔除。③同趨勢性,即當各項指標增大時,表示企業的整體狀況改善,反之當各項指標減少時,表示企業的整體狀況惡化;④可操作性,采用易得到的數據。

2信度、效度、描述性統計、方差和相關分析方法

信度分析是采用一定的方法來衡量回收問卷中各變量的內部一致性,它主要考查的是問卷測量的可靠性,檢驗每一個因素中各個題目測量相同或相似的特性。本文采用克隆巴赫(Cronbach a)一致性系數檢驗量表的信度和各分量表的信度。效度分析是采用一定的方法對問卷的理論構思效度進行驗證。首先,必須對題目的結構、測量的總體安排以及題目見的關系做出說明,然后運用一定的方法從數據中得出基本構思,以此來對測量構思的效度進行分析。用于評價結構效度的主要指標有累積貢獻率、共同度和因子負荷。累積貢獻率反映公因素對量表或問卷的累積有效程度,共同度反映由公因素解釋原變量的有效程度,因子負荷反映原變量與某個公因素的相關度。描述性統計分析是對各維度中的測量題目的均值、標準差、方差等描述性統計量碩士論文進行統計,了解各維度中題目設置的水平。方差分析又稱變異數分析或F檢驗,其目的是推斷兩組或多組資料的總體均數是否相同,檢驗兩個或多個樣本均數的差異是否具有統計學意義。

方差分析對客觀事物數量進行依存關系的分析,主要刻畫兩類變量間線性相關的密切程度,其兩個變量全是隨機變量,且處于平等地位。兩變量之間的相關關系可以通過繪制散點圖或計算相關系數來反映。 3回歸模型及其統計檢驗

現實世界中,一個事物的運動變化,總是與其他事物相關聯。其中,有的還存在因果關系,這種因果關系有的是線性的,有的是非線性的。當預測對象與其影響因素的關系是線性的,且只有一個影響因素時,就可以用一元線性回歸方法建立其一元線性回歸預測模型,來表述和分析其因果關系;當有兩個或多個影響因素同時作用于一個預測對象時,則用多元線性回歸法建立多元線性回歸預測模型。

本文就是以多對一的關系,因此,用多元線性回歸模型進行統計檢驗。對于多元線性回歸模型及其統計檢驗描述如下:

當預測對象y同時受到多個解釋變量x1,x2,...,xm影響,且各個xj(j=1,2,...,m)與y都近似地表現為線性相關時,則可建立多元線性回歸模型來進行預測和分析,模型為:

3)回歸方程整體顯著性檢驗

回歸模型的顯著性檢驗包括兩個方面,即回歸方程的顯著性檢驗和回歸系數的顯著

性檢驗。

(1)回歸方程的顯著性檢驗

回歸方程的顯著性檢驗用于檢驗被解釋變量與所有解釋變量之間的線性關系是否顯著。回歸模型總體函數的線性關系是否顯著,其實質就是判斷回歸平方和與殘差平方和之比值的大小問題,可以通過方差分析的思想,構造F統計量來進行檢驗,F檢驗是用來檢驗多元線性回歸模型的總體效果。

(2)回歸系數顯著性檢驗

回歸方程總體顯著并不意味著每個解釋變量對被解釋變量的影響都是重要的,還需要對每個回歸系數的顯著性進行檢驗。回歸系數顯著性檢驗通過構造t統計量來進行,

4)殘差正態性檢驗

殘差e是隨機擾動項ε的體現。對殘差進行分析的目的是檢驗隨機擾動項是否服從經典假設。殘差分析的內容包括殘差正態性檢驗、序列相關檢驗、異方差檢驗等。本文應用殘差的累計概率散點圖進行殘差正態性檢驗。

5)異方差檢驗

異方差常常表現為殘差隨某個解釋變量取值的變化而變化,因此,檢驗隨機擾動項是否存在異方差可以通過繪制被解釋變量與解釋變量的散點圖來簡單的判斷。如果散點圖呈帶狀分布,則不存在異方差;如果隨著解釋變量的增大,被解釋變量波動逐漸增大或減少,則很可能存在異方差的現象。實踐中,常常使用加權最小二乘法消除異方差。

7)多重共線性檢驗

所謂多重共線性是指各個解釋變量之間存在線性關系或接近線性關系的現象。多重共線性常常會導致回歸系數方差增大,從而使得t檢驗難以通過。用SPSS檢驗多重共線性共有四種方法:容忍度、方差膨脹因子、條件指數和方差比例。本文選用條件指數和比例方差這兩種方法來檢驗共線性。

(2)方差比例

第4篇

DOI:10.16842/j.cnki.issn2095-5588.2016.08.0021引言

“社會網絡分析” (Social Network Analysis, SNA)是在人類學、社會學、心理學等眾多領域中發展起來的研究個體之間關系結構的分析方法,是對社會關系進行量化分析的一門藝術和技術。SNA主要用于描述和測量個體之間的關系以及這些關系中所包含的資源、信息等,并根據這些關系建立模型,進而研究關系與行為之間的相互影響(劉軍, 2004)。SNA從“關系”角度來揭示社會情境與嵌套于其中的個體的心理和行為的互動影響,即個體可以能動地構造他們的關系網絡(選擇效應,selection effect),同時這些關系又反過來影響個體的心理與行為(影響效應,influence effect)。因此,個體既形塑社會網絡,也被社會網絡形塑(劉軍, 2006; 馬紹奇, 2012; 馬紹奇, 焦璨, 張敏強, 2011 )。在SNA中,反映個體之間關系的數據稱為關系數據(relational data),通常的數據類型是0、1二分變量數據,即1表示兩個行動者之間存在關系,0表示不存在關系(馬紹奇, 2012)。

SNA從嵌入社會情境的個體之間的關系出發,分析群體結構及其與心理行為的相互作用,更能反映人際交往的社會性特點。如,運用SNA方法系統研究中學生班級的學習關系、友誼關系、咨詢關系、信息交流關系等,運用SNA方法研究中學生的支持網絡對中學生學業和心理健康等方面的影響。這不僅有利于從社會關系的視角理解學生人際關系的形成、特征和影響因素,還能及時掌握學生的心理動態,維護學生的心理健康(唐文清等, 2014)。但是,由于SNA的應用涉及到更多的人事物,數據的缺失是必然現象。研究者在SNA中常常會遇到數據應答率在65%至90%的情況(Albrecht, 1984; Dean & Brass, 1985; Moch, 1980; Monge, Edwards, & Kirste, 1983; Roberts & O′Reilly, 1978, 1979)。此外,由于數據結構的依賴性,如果網絡中的行動者或者關系存在缺失,就難以全面地描述缺失行動者及其鄰近行動者的網絡環境(Robins, Pattison, & Woolcock, 2004)。已有研究發現,缺失數據不僅對網絡結構描述產生消極影響,還會低估關系強弱和聚類系數,并使得中心性和度數的測量出現不穩定的情況(Burt, 1987; Borgatti & Molina, 2003; Costenbader & Valente, 2003; Kossinet, 2006; Huisman, 2009)。這說明,網絡結構描述和網絡數據分析的結果會因為缺失數據而產生偏差。

心理技術與應用4卷

8期黃菲菲張敏強: 社會網絡分析中缺失數據的處理方法

要使SNA方法得到更好的應用及認可,既要介紹理論及應用方法,同時還要解決方法使用中可能出現的各種問題。例如,在數據收集和研究結論的推廣方面,如何在實際的應用分析中,完善相關的統計模型和參數估計方法的發展,如何提高數據收集的信效度,如何處理缺失值等問題(馬紹奇, 焦璨, 張敏強, 2011; 焦璨, 吳換杰, 黃?h娜, 黃菲菲, 張敏強, 2014)。由于社會網絡數據的相互依賴性,對缺失數據的處理不能采用常規的缺失處理方法。本文就SNA中缺失數據的原因及缺失機制,比較分析了常用的四種缺失數據處理方法在實際應用中的優缺點,并就SNA中如何處理缺失數據提出建議。

2缺失數據的原因

21邊界規范問題

邊界規范問題指的是在網絡研究中指定行動者或者關系之間包含的規則(Laumann, Marsden, & Prensky, 1983)。例如,學者在研究青少年的冒險行為過程中,想了解他們在學校里的人際關系情況。圖1中的A、B、C、D是四位青少年在學校里的人際關系網絡,E、F、G三位青少年雖然和A、B、C、D四位青少年的交往密切,但是學校外的人際關系與研究目的無關,因此,E、F、G三者和研究中的青少年的人際關系就容易被忽視(Valente, Fujimoto, Unger, Soto, & Meeker, 2013)。總體而言,邊界規范是由研究者自行決定的。在實際包含網絡的例子中,組織成員或者由位置界定的正式定義大部分取決于一個正式組織團隊中成員占據的排列位置,例如一個學校最受歡迎的前10名老師或者一個班級成績最好的前五名同學(Kossinets, 2006)。

社會網絡是由行動者及行動者之間的關系組成的,因此研究者在規范網絡邊界時,除了需要考慮通過一組行動者來界定網絡邊界外,還要決定哪些關系應該納入研究范圍里。對于如何有效地規范網絡邊界,學者們提出了一個準則,即根據可測量行動者的交互作用確定。因此,研究中的網絡邊界被定義為該邊界記錄了在特定情境中行動者間的交互作用(Laumann, Marsden, & Prensky, 1983)。但是,無論是情景還是交互作用的設置,研究者首先需要根據研究目的給出操作性定義,然后再確定在這個情境中包含哪些存在交互作用的行動者。隨著電子科技時代的發展與進步,這個準則不再僅限于小網絡,因為大規模的社會網絡交互作用數據可以通過郵件傳遞或者虛擬社區的記錄得到(Newman, 2002; Ebel, Mielsch, & Bornholdt, 2002; Guimera, Danon, DiazGuilera, Giralt, & Arenas, 2003; Holme, Edling, & Lijeros, 2004)。

22固定選擇的研究設計

固定選擇的研究設計指的是網絡中行動者和關系的缺失依賴于研究設計中提名選擇的限定(Holland & Leinhard, 1973),即網絡數據的偏差是由于研究設計造成的。假設圖2中的行動者A屬于Z團體,在這個團體中,他和其他5個行動者有關系,現研究者要求行動者A提名y個和他關系最好的行動者。如果y≤5,則行動者A和其他5個行動者之間的所有關系都包含在數據集中;如果y>5,則行動者會失去5-y個關系。例如,學者想研究班級的學業咨詢網絡對學生學業拖延的影響,要求學生提名2個在學習上遇到困難或疑問時會請教的同學。如果學生平時向同學請教問題的人數普遍都是3個,那么學者得到的學業咨詢網絡數據是有偏差的。因為在該網絡中,大部分行動者(學生)都失去了1個關系。

在固定選擇的研究設計中,會出現互惠提名(有關系的雙方相互提名),非互惠提名(有關系的雙方只有一方提名)和無提名(有關系的雙方均不提名)三種情況。從本質上而言,非互惠提名和其他兩種提名的情況不一樣(例如:好朋友和普通朋友的區別),因此,研究者需要考慮是否將其納入到研究范圍內。固定選擇的研究設計還容易使數據呈現非隨機缺失的模式,如受歡迎的個體更有可能被其他行動者提名(Feld, 1991)。但是,在不同結構的網絡中,這種影響會不一致(Newman, 2002; Vázquez & Moreno, 2003)。例如,在非相稱混合性(即受歡迎的行動者傾向于和不受歡迎的行動者相聯系)的網絡中,互惠提名將會導致更多關系缺失的情況出現。

23網絡調查中的無應答

網絡調查中的無應答包括應答者完全缺失和特定項目的數據缺失(Stork & Richands, 1992; Rumsey, 1993)。應答者完全缺失指的是行動者沒有參與到調查研究中,因此行動者的發出關系對于分析而言是無效的(如圖3所示,N表示缺失數據)。特殊項目的數據缺失指的是行動者參與了調查研究,但是在特定項目上的數據缺失,因此只有行動者的部分關系對于分析而言是無效的(如圖4所示,N表示缺失數據)。例如,在一個關于學生情感咨詢網絡對學業成績影響的調查中,要求學生提名3個班上的好朋友。圖3中的A和D兩位學生因事由請假沒有參與此次研究,但圖3應答者完全缺失是其余的學生在提名中提及到了A和D,所以A和D的無應答屬于應答者完全缺失。如果A和D參與了調查研究(如圖4),但是在提名中他們忽略了被提及的學生,即B提名了A,A沒有提名B,則A和D的無應答屬于特殊項目的數據缺失。對于1-模網絡而言,即由一個行動者集合內部各個行動者之間的關系構成的網絡(劉軍, 2009),無應答對網絡結構及統計指標的影響不大,但是對于存在多元交互作用情景的網絡(例如,二元網絡)而言,無應答可能會造成特定的影響(Robins, Pattison, & Woolcock, 2004)。例如,在一個隸屬網絡的調查研究中,假設研究者沒有其他途徑可以了解團隊的任何信息,只能要求行動者報告他們隸屬于哪個團隊。如果任何一個行動者出現無應答的情況,那么可能會出現這個無應答行動者所隸屬的團隊缺失的情況。Huisman(2009)通過模擬研究發現,忽視網絡調查中的無應答數據對社會網絡的描述分析會造成消極的影響。進一步比較分析行動者無應答和特殊項目無應答的結果發現,特殊項目的無應答可能會造成更大的統計偏差。

網絡調查中的無應答易導致行動者或者關系的缺失,但是網絡環境中除無應答行動者以外的不完整觀察行動者的部分信息仍然是有用的,如可利用這個信息來估計缺失狀態的效果和分析不完整網絡(Costenbader & Valente, 2003; Robins, Pattison, & Woolcock, 2004; Gile & Handcock, 2006; Handcock & Gile, 2007)。此外,不完整觀察行動者的部分信息還可用來估計行動者和網絡的結構性能,并能給缺失數據機制提供參考。

和前兩種缺失數據原因相比,無應答是社會網絡調查中最經常出現的缺失情況。因此,有不少學者開始關注社會網絡調查中無應答的缺失問題(Daniel, 1975; Stork & Richards, 1992; Butts, 2003; Kossinets, 2006; Huisman & Steglich, 2008; nidaricˇ, Ferligoj, & Doreian, 2012)。

3缺失機制

不同的缺失數據來源,還涉及一個重要的問題,數據是否系統缺失。如果數據是系統缺失,那么缺失概率是否和觀察變量(性質或屬性)有關。已有研究表明,在社會網絡中處理不同來源的缺失數據時,應考慮缺失機制以提高處理方法的有效性(Huisman, 2009; nidaricˇ, Ferligoj, & Doreian, 2012)。

缺失機制指的是數據的缺失概率和研究變量之間的關系(Schafer & Graham, 2002)。Rubin在1976年根據缺失引起的偏差程度定義了三種類型的缺失數據:完全隨機缺失(Missing Complete At Random, MCAR),隨機缺失(Missing At Random, MAR)和非隨機缺失(Missing Not At Random, MNAR)。假設所有變量觀測值Y中,完整的變量記為Yobs,缺失的變量記為Ymis。如果缺失概率和Yobs及Ymis相互獨立無關,此類缺失稱為MCAR。如果缺失概率和Yobs相關,和Ymis獨立無關,則為MAR。MNAR是指缺失概率依賴于Yobs和Ymis。因為Ymis的未知性,研究者常常難以判斷缺失數據屬于哪種類型的缺失機制。葉素靜,唐文清,張敏強和曹魏聰(2014)在對追蹤研究中缺失數據處理方法及應用現狀的分析中綜述了三種類型缺失機制的粗略判斷方法。

對于社會網絡數據而言,完全隨機缺失是指缺失概率和缺失關系的數值及觀察數據(例如,行動者的屬性)無關。在這種情況下,觀察數據是原始觀察值的一個隨機樣本,因此不存在系統偏差。隨機缺失是指缺失概率和觀察數據有關,但是和缺失關系的數值無關。盡管在這種情況下缺失數據會呈現出系統模式,但是這些模式是可控的,因為它們和樣本中的觀察數據有關。非隨機缺失是指缺失概率不僅和觀察數據有關,還和缺失關系的數值有關,這種類型的缺失數據會對統計分析的偏差程度造成很大的影響。因為在非隨機缺失的情況下,應答者和無應答者之間的差異是由系統誤差造成的,關于網絡結構性質的統計指標將會受到影響(Costenbader & Valente, 2003)。

4缺失數據處理方法

41完整個案法

完整個案法,即刪除部分已有的數據以保證所研究對象信息的完整性。完整個案法相當于行動者的列刪除法,它不僅移除不完整觀察行動者的列數據且一并移除該行動者的行數據,而移除行意味著在分析中移除不完整觀察行動者和完整觀察行動者之間的所有關系(Huisman & Steglich, 2008)。因此,使用完整個案法后用于分析的數據集是完整的,即每一個行動者既有接收的關系也有發出的關系。例如,圖5(a)是一個班級情感關系網絡的例子,其中有A、D、F三個無應答行動者,每一個無應答者都沒有指向外部的情感關系,在觀察網絡的矩陣表達式中就會有幾行缺失關系數據N,對數據進行完整個案法處理后,結果就會出現如圖5(b)呈現的小網絡。因此,完整個案法是在可完全觀察行動者的小網絡基礎上進行分析處理的。nidaricˇ, Ferligoj和Doreian(2012)用完整個案法等多種缺失數據處理方法對社會網絡區組模型中的無應答情況進行分析,結果發現,在小規模網絡中,完整個案法對區組模型結構的穩定性影響最小。Robins, Pattison和Woolcock(2004)的研究結果則表明,完整個案法重新定義了網絡邊界:移除無應答行動者之后相當于生成了一個更小的網絡。

完整個案法是一種加權方法,它丟棄了不完整個案的數據,對完整個案和缺失個案賦予了同樣的權重。在分析的統計軟件包里,完整個案法通常是默認處理缺失數據的方法。它最大的一個優點就是簡便,缺點則是因為忽視不完整個案而丟失了大部分信息,很可能出現模型和數據無法擬合的情況。因此,只能在缺失概率較小的網絡中使用完整個案法。Schafer和Graham(2002)認為,當無應答者是完全隨機缺失時,完整個案法可能是有效的。然而,如果這個前提假設不成立,統計分析結果就會有偏差,因為剩余的行動者樣本可能是不具有代表性的。也有學者認為,完全個案法從系統水平而言,嚴重損害了所有分析(Stork & Richards, 1992),且可能會暗中破壞社會網絡模型的假設(Snijders, Bunt, & Steglich, 2010)。

42有效個案法

有效個案法是指忽略缺失的數據,只使用觀測到的關系變量。有效個案法是直接對不完整數據進行分析,即根據SNA需要計算的統計值選擇行動者的有效數據。例如,在一元統計分析中,在計算網絡的平均數和標準差時,可以選擇所有變量都完整觀察的個體行動者的有效數據,而在計算網絡的協方差或者相關系數時,則需要選擇所有變量都完整觀察的配對行動者的有效數據。

Littile和Rubin(1989)在探討社會科學領域關于缺失數據處理的分析方法時,比較了完整個案法和有效個案法對網絡的均值、方差、協方差及相關系數四個統計量的參數估計影響及二者的差異。研究結果表明,和完整個案法相比,使用有效個案法后,網絡的均值參數估計值是無偏的。但是,其余三個統計量的參數估計值的偏差較大。隨后,Little和Su(1989)進一步對兩種方法的差異進行了詳細的討論,也得出了相同的結果。

有效個案法簡單易行,和完整個案法相比,它的參數估計值較為精準。但是有效個案法具有較低的統計功效,且和沒有缺失數據的網絡參數估計值相比,存在很大的偏差。因此,研究者較少使用有效個案法對社會網絡中的缺失數據進行處理。

43重建法

重建法指的是通過互惠關系來推斷缺失連接的存在與否。重建法和插補法不一樣,重建法在分析的過程中沒有增加新的關系,它只是通過觀察到的應答者的入度關系(即行動者接收的關系)來重建網絡中無應答者的出度關系(即行動者發出的關系)。從本質上而言,即用已經報告的一個關系進行測量,且重建法僅允許兩個人之間的關系。重建之后的網絡中應答者和無應答者之間的關系是對稱的。使用重建法對SNA中的缺失數據進行處理時,必須滿足兩個原則: (1)相似性,即應答行動者與無應答行動者之間的作答模式應具有相似性。因為重建法是通過應答行動者所描述的關系去構建無應答行動者的關系,所以兩個行動者之間的應答模式不能存在系統的偏差;(2)可靠性,即應答行動者所描述的和無應答行動者之間的關系要確認是有效、可靠的(Stork & Richards, 1992)。自重建法提出以來,不少學者將其作為社會網絡缺失數據常用的處理方法。Gabbay和Zuckerman(1998)在有向網絡中,通過應答行動者報告的和無應答行動者之間的關系重建了網絡中行動者之間的關系。Huisman和Steglich(2008)則用重建法研究了網絡面板數據中的無應答缺失數據情況,結果表明重建法在構建完整的網絡數據時幾乎不會出現不收斂的問題。

一般而言,針對不同類型的網絡,重建法的程序如下所示:

(1)在無向網絡中,通過觀察到的應答者之間的關系以及部分應答者和無應答者之間的關系對網絡進行重構(Stork & Richards, 1992)。

(2)在有向網絡中,通過對立關系來推斷缺失關系。例如,對于應答行動者i和無應答行動者j,重建法假設行動者i描述的和行動者j之間的所有關系和行動者j所描述的關系是完全一致的,即研究者可以通過應答行動者i來插補對立關系的觀察值,即ximpij=xji(Huisman, 2009)。

重建法最大的優點就是允許研究者最大化地利用有效信息去構建社會網絡。有研究表明,當社會網絡中存在缺失數據時,僅有437%的關系能夠被解釋,而使用重建法后,則能夠解釋缺失數據網絡中897%的關系數據(Neal, 2008)。但是,重建法無法構建兩個無應答行動者之間的關系。如果兩個無應答行動者之間存在重要關系,研究者就無法使用重建法去正確地定義網絡的結構。因此,需要用其它的插補方法來重建整個網絡。例如,對于無應答行動者之間的所有關系,隨機插補一個和觀察密度成比例的關系,使重建網絡中缺失關系的比例等于網絡的觀察密度。

44基于指數隨機圖模型的多重插補法

指數隨機圖模型(Exponential Random Graph Model, ERGM)又稱為p

瘙 ?? 模型,是用來描述x分布情況的概率質量函數,其表達式為:

其中,q是網絡的實值函數,常以θTz(x)的形式出現,z是網絡的向量值函數,其取值為網絡統計值。這些統計值也被稱為結構統計值,用來描述網絡中的結構,如連接、三方關系等的數量。θ是一個維度為p×1的向量參數(θ∈Θ),ψ(θ)是一個常數,用于將函數值標準化(Koskinen, Robins, Wang, & Pattison, 2013)。

ERGM的原理是在綜合了實測網絡中的多種局部結構特征情況下來計算這些網絡出現的可能性。具體過程為,首先使用馬爾科夫鏈蒙特卡洛最大似然估計法(Markov Chain Mont Carlo Maximum Likelihood Estimation, MCMCMLE)模擬出一個隨機網絡,然后將這個隨機網絡的參數與實測網絡的參數進行對比,最后通過對比指標判斷是否采納結果。Robins(2009)用ERGM方法對有向社會網絡數據進行分析時指出,如果模擬的隨機網絡不能很好地代表實測網絡,那么參數將被調整并運用到下一次模擬中,且這樣的循環可能至少要進行8000次,直到模擬網絡能夠很好地代表實測網絡為止。

基于ERGM的多重插補法,指的是通過ERGM產生的多個插補值的向量代替每一個缺失數據的過程。例如,當網絡數據中存在無應答的缺失數據時,基于ERGM的多重插補法則會將應答行動者和無應答行動者看作是兩種不同類型的節點,然后區分應答者之間的關系以及應答者和無應答者之間的關系。最后,根據研究者的調查目的,對缺失數據進行相應的處理。如果無應答者是隨機缺失,則在網絡特定結構間同質性的前提下利用ERGM對缺失數據進行多重插補。如果無應答者是非隨機缺失,且研究重點關注應答者的網絡結構,則可以將包含無應答者相關關系的信息看作是外源變量,并使用標準的馬爾科夫圖模型進行分析(Koskinen, Robins, Wang, & Pattison, 2013)。

基于ERGM的多重插補法最大的優點是,不僅能有效地辨別應答者和無應答者之間的差異是由系統誤差還是隨機誤差造成的,還可以在缺失數據是隨機缺失的情況下,最大化地利用觀察到的數據信息。基于ERGM的多重插補法從本質上而言是通過網絡的局部結構去推斷整體結構。因此,即使數據有較大的缺失概率,只要網絡有足夠數量的局部網絡子結構,就能夠通過觀察到的數據進行有理的推斷。Koskinen,Robins和Pattison(2010)用基于ERGM的多重插補法對一個合作關系社會網絡中的缺失數據進行處理,實證及模擬研究結果表明,這種基于模型的多重插補法能夠正確地解釋網絡中80%的關系數據及允許有三分之一數據缺失的情況。但是,這種方法最大的缺點是運算過程較復雜,耗時較長。

5問題與展望

缺失數據對社會網絡數據分析造成的消極影響主要體現在以下兩個方面:(1)減少的樣本量大小、行動者及關系的信息易導致模型和數據出現不擬合的情況;(2)缺失數據容易造成參數估計的偏差。例如,Kossinet(2006)和Huisman(2009)的研究發現,缺失數據會使社會網絡數據分析的結果產生偏差,因為缺失數據不僅對網絡結構描述產生消極影響,還會低估行動者之間的關系強弱和網絡的聚類系數,容易造成中心性和度數測量不穩定的情況。因此,缺失數據是SNA廣泛應用面臨的嚴峻問題。

從表1的四種缺失處理方法的適用條件比較中可看到,缺失數據處理方法的選擇和缺失概率、缺失機制存在較大的關聯。進一步比較四種方法的優缺點可以發現,當缺失數據是完全隨機缺失時,四種方法的參數估計是無偏的。當缺失數據是非隨機缺失時,完整個案法和有效個案法雖簡單易行,但容易導致信息的大量流失及具有較低的統計功效和較大的參數估計偏差。其中,和完整個案法相比,有效個案法在參數分布估計方面的偏差要略小,因為有效個案法分析的是全體有效樣本的數據。但在其它參數估計方面,兩種方法都出現了較大的偏差(Little & Rubin, 1989)。重建法和基于ERGM的多重插補法在非隨機缺失的情況下,可以忽略缺失機制的影響而直接在缺失概率較小(20~30%)的網絡中應用,兩種方法在參數估計方面沒有表現出太大的偏差,但是如果網絡中的缺失概率較大時,兩種方法會受到缺失機制的影響。

當數據是隨機缺失時,重建法具有較好的統計功效,對社會網絡進行描述性分析時,如計算網絡的平均度數、互惠性和傳遞性等網絡統計特征值,即使缺失概率達到50%,重建法仍然能夠表現良好(Huisman, 2009)。但重建法只能用于特定網絡的數據缺失處理,且在某些情況下會高估連接的數量。雖然,在社會網絡中的數據缺失概率不大時,重建法和基于ERGM的多重插補法均沒有太大的差異,但是后者能夠利用插補值間的差異來衡量估計結果中不確定性的大量信息。和重建法一樣,當社會網絡中的缺失數據樣本量在中等范圍以下時,基于ERGM的多重插補法具有較小的參數估計偏差且不會低估標準誤,但這種方法唯一的缺點就是運算過程復雜,需要做大量的工作來構建插補集以便于進行結果分析,且當缺失數據樣本量大時,模擬網絡和實測網絡可能會出現不擬合的情況。

就應用現狀而言,國內目前還沒有關于SNA中缺失數據的處理方法這方面的研究,而國外的應用從2003年至今穩定增長(Butts, 2003; Robins et al., 2004; Kossinets, 2006; Gile & Handcock, 2006; Handcock & Gile, 2007; Koskinen, 2007; Smith & Moody, 2013)。

根據缺失數據處理方法的優缺點比較和應用現狀的分析,對其在心理學研究中的應用提出以下建議:

第5篇

關鍵詞:整合數據分析;合并數據;分析策略

中圖分類號:B841.2 文獻標識碼:A 文章編號:1003-5184(2012)05-0454-07

1 前言

任何學科的發展和完善都是建立在已有研究知識累積的基礎上。在心理學研究中,可通過量化和質化的方法來對某一專題相關的研究進行綜合分析,以達到研究知識累積的目的,促進心理科學的鞏固和發展(崔智敏,寧澤逵,2010)。描述性文獻綜述法是綜合分析方法中定性研究方法的主要代表,不僅可對前人研究進行回顧性評論,同時也通過比較分析闡述論題研究的創新之處,在心理學發展中占有重要的地位。但是描述性綜述分析方法在應用過程中沒有統一的標準,也沒有對所綜述研究的數據進行統計分析,結果具有主觀性,對不同研究的差異性結果,也不能找出確信的原因。元分析方法則是在傳統描述性文獻綜述局限的基礎上提出來,結合了描述性文獻綜述和系統的量化統計方法的一種綜合分析方法。

元分析(Mata-analysis)方法最早由Glass(1976)提出,是對某一專題已有的研究進行研究的方法。它根據一套明確的文獻選擇標準,就特定研究專題收集大量相關或相近的研究成果,采用一套系統的統計分析技術對這些研究的統計結果進行分析,總結出該論題的主要結論,是一種量化的綜合分析方法。元分析在心理學中廣泛應用,是促進累積心理科學(Cumulative Psychological Science)建設的重要方法(Hunter & Schmidt,1996)。但元分析只對研究的統計結果進行再分析,不可避免地丟失許多原始數據的信息。隨著社會科學各領域研究的發展,研究數據共享成為必要,而計算機技術的發展,為數據永久存儲、數據轉換和數據共享提供技術上的支持。若能同時對某專題的多個研究的原始數據集進行分析,不但可充分利用多個研究數據的信息,克服元分析的一些局限,而且對研究結果有更深的理解,在心理學研究中有重要作用,因此,有學者提出了基于原始數據集的整合分析方法(Integrative Data Analysis,簡稱IDA)(Curran & Hussong,2009;Cooper & Patall,2009;Park,2004)。本文將對IDA方法的基本概念、原理和分析過程進行闡述,分析了IDA方法在心理學應用的優勢和挑戰,闡述了IDA方法中異質性的分析策略,討論IDA方法在心理學研究中應用的現狀和應用的前景。2 IDA方法概述

2.1 什么是IDA方法

整合分析(Integrative Data Analysis,IDA),也叫同時數據分析(Simultaneous Analysis of Data)、合并數據分析(Pooling Data Analysis)、或大型數據分析(Maga-analysis),是一類對多個獨立研究的原始數據的合并數據集(data set)進行綜合統計分析的方法(Curran,2009;Curran & Hussong,2009;Hofer & Piccinin,2009)。這種方法的基本思路是,確定進行整合分析的主題,收集與該主題相關具有原始數據的研究,把這些研究的原始數據合并成一個數據集,然后采用一套系統的統計分析策略對數據集進行綜合分析,對原始的研究結果進行比較或者整合,獲得單個研究所不能得到的信息。

整合數據分析方法首先在醫學領域有廣泛的應用。由于在醫學領域通常只能對小樣本進行研究,而重復驗證研究又面臨諸多影響因素,因此,這種分析策略把同一主題的多個獨立的小樣本合并成一個數據集進行分析,對醫學領域的小樣本研究的整合有重要意義(Simmonds & Higgins,2007;Simmonds et al.,2005;Stewart & Tierney,2002)。在臨床醫學研究中,把這種方法看成是元分析的一種,命名為“被試層面數據(Individual Participant-Level Data,IPD)”的元分析,傳統的元分析方法命名“匯總數據”的元分析(aggregated data,AD)的元分析,也叫“樣本層面數據(Group Level Data)”的元分析(Stewart & Tierney,2002;Simmonds et al.,2005)。在心理學研究中,Cooper和Patall(2009)也采用上述定義和命名,認為元分析包含IPD元分析和AD元分析。就現有的心理學領域中相關的研究文獻來看,大部分研究者傾向于用 “IDA(Integrative Data Analysis)”命名這種對多個獨立原始數據合并成的數據集進行統計分析的方法(Curran & Hussong,2009;Shrout,2009;Curran et al.,2008)。

綜上所述,雖然在方法定位和命名上有所不同,但關于整合分析的基本思想是一致的,即是把同一主題相關的多個獨立研究的原始數據合并成一個數據集,然后采用系統的統計分析策略對這個數據集進行統計分析,獲得研究知識的綜合累積,促進專題研究的發展。本文將用整合數據分析(IDA)來命名這種統計分析方法,把IDA定位為與元分析、描述綜述分析相并列的三種綜合分析方法。

2.2 IDA方法在心理學研究中應用的優越性

IDA方法充分利用已有的數據資料,對多個研究進行整合分析,可對原有的研究進行整合或比較,解決單一研究不能解決的問題,在心理學研究應用中表現出許多優越性(Curran & Husson,2009;Cooper & Patall,2009;Simmonds et al.,2005)。

2.2.1 重復驗證研究假設

IDA方法通過建構不同研究的異質性(Heterogeneity)對結果的影響模型來對多個獨立研究的原始數據進行再分析,為檢驗原始研究的結果是否可復制提供直接的檢驗方法。當這些原始研究的結果存在沖突時,關于研究間異質性的模型可對各獨立研究在抽樣、測量方法等方面的異質性進行等價性分析,確定不同研究的異質性對研究結果差異的影響情況,一方面可嘗試調和不同研究結果的沖突,另一方面,也可通過綜合分析驗證新的研究假設。由此可見,即使不建立新的研究設計,IDA方法不但可以對原始研究的假設進行驗證,對不同研究間沖突的結果進行調和或分析原因,也可驗證原始研究中沒有出現的新假設,減少創建新研究的必要。

2.2.2 增加行為的基數,提高統計功效

在心理學應用研究中,許多研究結果常存在統計功效不足的情況,其中一個重要的原因是樣本量不足。而IDA方法把多個獨立研究的數據合并成大樣本進行分析,使低基數率的行為的絕對基數增加(如某一個行為有5%的樣本量,合并數據后,可能比例保持不變,但這種行為的總體絕對數量增多),提高模型估計的穩定性,在一定程度上改進和提高統計檢驗功效,使一些相對較弱的效應也顯現出來,從而提高了結論的論證強度和效應的評估力度。

2.2.3 增加樣本的異質性,提高研究的外在效度

由于各種原因,心理學的許多研究采用隨機抽樣或者方便抽樣等方法進行,這就導致了所要研究的樣本中重要的子群體人數的不足,影響研究質量,使不同研究的結果存在分歧。IDA方法則匯聚了多個研究的樣本,增大了研究中重要子群體的人數,增大樣本的異質性,并在合并數據集中直接分析研究間的異質性對研究結果的影響,揭示單個研究中的不確定性。同時采取特定的方法嘗試調整或控制這些差異,減小異質性對研究結果的影響,提高IDA研究的外部效度。

2.2.4 構建廣泛的心理評估,提高對心理結構的評估力

心理學研究中,研究者通常根據年齡、性別和種族等特征選擇心理測評工具對特定的心理結構進行評估,因此,不同研究常采用不同的測量工具來評估同一心理結構,單個研究采用單一的測量,獲得對心理結構的相對單一的理解。而IDA則把多個獨立的研究進行合并,運用合適的模型對這些研究中采用的不同的測量工具進行協調分析和等值處理,把這些不同的測量工具等值到相同的量尺上,然后進行綜合分析,這就使心理結構的測量和評估更加廣泛、嚴謹,加強和提高對心理結構的評估性能,提高研究的結構效度。

2.2.5 擴展發展研究的時間段

在心理研究中,不同研究的時間有所不同,且研究的時間跨度有限制,即使是縱向研究中,追蹤研究的時間跨度也因各種原因受到限制。IDA可綜合分析不同研究時間差異性對研究結果的影響,擴展研究的時間段,不但在橫斷研究中有明顯優勢,在縱向研究中尤為突出。在縱向研究中,IDA采用特定的模型和統計方法同時對多個縱向研究進行整合分析,可擴展心理發展軌跡研究的時間段,提高縱向研究的效率和速度。如,A研究的被試年齡范圍是2~24歲,B研究的被試年齡是10~34歲,C研究對象的年齡是17~40歲,則IDA可建構縱貫2~40歲被試的心理發展軌跡。

另外,IDA同時對多個研究的數據集進行綜合分析,促進心理學研究知識的累積應用,滿足實現數據資源共享和資源最大化利用的需要。

3 IDA方法對異質性的分析策略

由于不同研究在研究設計、抽樣方法、測量工具、研究時間等方面的異質性,使IDA過程不能對數據簡單合并后進行分析,而要采用特定的統計分析方法對異質性進行分析(Curran & Husson,2009;Cooper & Patall,2009),這是IDA過程中必須解決的核心問題。

3.1 IDA方法對異質性分析的一般策略

根據對合并數據集的定義不同,可分為隨機效應的IDA和固定效應的IDA。

3.1.1 隨機效應IDA

隨機效應(Random-effect)的IDA采用隨機抽樣的思想,把IDA的對象看成由兩層抽樣而來,一是研究層面(Study-level)的抽樣,每個研究是從一個大的研究總體中隨機抽取的研究層面的樣本;第二層是被試層面的抽樣,單個研究的樣本則是從該研究假設的總體中隨機抽取而來,即隨機樣本的樣本(Random Sample of Random Samples),這兩層抽樣產生了由研究抽樣所產生的變異和由被試抽樣所產生的變異。這種定義類似于階層模型的嵌套思想,因此,可采用階層模型對數據集進行分析。隨機效應IDA最大的優點是引入研究層面的預測變量以對研究之間的變異進行建模,把研究變異分解為被試水平效應、研究水平效應以及被試水平與研究水平的交互作用(Bauer & Curran,2005;Raghunathan et al.,2003),并在分析過程中同時估計這三種效應。

隨機效應IDA的運用有兩個重要的條件:一是要將這些研究的數據集看作是從一個同質的數據集總體中隨機抽取;二是必須有足夠的研究樣本,才足以對研究之間和研究內的變異進行可靠測量。若是以上條件難以滿足,則需考慮固定效應IDA策略。

3.1.2 固定效應IDA

固定效應(Fixed effects)IDA中,把各研究成員屬性(Study membership)看作是嵌套于研究中的被試的固定特征(Fixed characteristics),采用某種編碼方式(如虛擬編碼、效應編碼)描述這些固定特征(如對被試的性別、種族等變量進行編碼),這些虛擬或效應編碼變量將作為預測變量直接進入模型進行分析。固定效應IDA的主要優點是可以估計被試特點(性別、種族)和研究群組屬性(Study Group Membership)之間的交互作用,即允許不同研究下被試特征對結果的不同影響。另外,一旦研究成員變量納入模型,研究層面的特征變量則無法再納入模型,這就使研究層面的差異得到控制,排除了研究間過多的潛在變異的影響,固定效應的IDA把研究層面的變異排除于模型之外,這既是固定效應IDA的優點,也是它的限制(Curran & Husson,2009;Bauer & Curran,2005)。

隨機效應IDA和固定效應IDA的主要區別在于:(1)隨機效應IDA假設被試樣本來自同一總體,可以基于一個無限樣本總體進行推斷;而固定效應IDA則假定被試樣本是固定且可知的,因此推斷只針對所研究的樣本,這更符合心理學研究中的實際。(2)隨機效應IDA可以分解出研究層面效應、被試層面效應和這兩個水平之間的交互作用;而固定效應IDA排除了研究層面的效應,只估計了被試水平的差異。由于隨機效應的條件常難以滿足,因此固定效應IDA在實踐中更常用(Hussong,Cai,et al.,2008;Hussong,Flora,et al.,2008;Hussong et al.,2007)。

3.2 IDA研究中主要異質性的具體分析策略

不同研究之間在抽樣、時間和測量方法上的差異使IDA分析過程變得復雜,但也為對這些研究進行綜合分析和比較研究提供機會。從綜合分析目標出發,需要對這些研究間的異質性進行控制,提高研究的外在效度;從研究比較目標出發,需要對這些異質性進行操縱,分析研究間異質性對研究結果的影響(Curran & Husson,2009;Simmonds & Higgins,2007)。

3.2.1 抽樣、地域異質性及分析策略

抽樣問題在心理學研究的各個領域都很重要,而在IDA研究中尤其重要。IDA可對合并數據的抽樣異質性進行直接的分析,考察和評估研究樣本之間潛在的差異,然后盡量協調這些差異,分析這些差異對研究結果的影響程度。IDA中對抽樣導致的差異問題的處理過程中,首先明確每個研究的抽樣方法是概率抽樣還是非概率抽樣,然后將這些信息將直接進入特定的分析模型。地域差異和抽樣變量通常難以區分,獨立考慮地域異質性時,需進一步考慮民族、犯罪率、社會保障等特定因素,而不是一般因素的分析。但IDA方法通常把抽樣異質性與地域異質性結合在一起分析,根據對數據集的不同定義而選擇隨機效應IDA或者固定效應IDA。3.2.2 歷史時間異質性及分析策略

歷史時間異質性主要考察各研究在時間上的差異。在橫斷(Cross-Sectional)研究數據的IDA中,可直接比較研究之間施測時間的差異來考察歷史異質性對研究結果的影響,采用上述的固定效應IDA方法或隨機效應的IDA方法進行分析。

而縱向研究IDA的時間異質性分析不但要考慮發展趨勢的差異,也要考慮施測時間、出生年代(Cohort),生理年齡對個體發展趨勢的影響。通常采用固定效應的IDA進行分析,對被試出生年代進行虛擬編碼,并作為預測變量進入分析模型,綜合分析個體心理特征隨時間發展的特點,并建立每個年代的成長軌跡,或者判斷是否需要針對各出生年代建立成長軌跡。在這模型中,可直接分析被試出生年代和研究(Cohort×Study)的交互作用,以便在研究其他重要預測變量前控制這種交互作用。若合并數據中的被試的出生年代的數量足夠多,則可以將之看作連續變量,把出生年代作為模型中一個連續型預測變量,同時估計出生年代相關(Cohort-related)和年齡相關(Age-related)的發展變化。若數據充分,則可估計這兩個時間維度交互作用,及與研究群組的交互作用。

3.2.3 測量工具的異質性及其分析策略

測量工具的異質性分析是IDA研究中面臨的最大挑戰,直接影響到IDA的信度和效度。由于不同研究的研究者常采用不完全一致的測量工具來對同一種心理結構進行測量,這就使IDA的分析過程面臨測量的恒等性(Measurement Invariance)和測量的可比性(Measurement Comparability)問題。對于共同的項目,在IDA研究中需檢驗測量恒等性,而對于不同的項目則需檢驗其測量的可比性。

測量恒等性是指一組項目在不同的群組或時間下可靠并有效地測量同一個潛在結構的程度(Rusticus,Hubley,& Zumbo,2008;Pentz & Chou,1994)。在IDA中測量恒等性主要指同一組項目在不同研究出現時,研究之間的恒定性,通常可采用因素分析對研究間共同項目進行因素分析,來檢驗恒等性情況。測量可比性在單一研究中少見,多出現在教育測量中,而在IDA研究中,測量的可比性是當不同研究中采用不同的量表來測量同一種心理結構時,各自測的是否是同一個對象。對于同一結構的不同測量項目,常采用IRT(item Response Theory)進行測驗的等價性分析(Measurement Equivalence)(Curran et al.,2008,2009),建立不同測量方法的可比性。可見,IDA過程中,測量異質性分析主要包含了測量的恒等性分析和測量的可比性分析。測量異質性處理的目標是找出一個共同的度量標準(Common Metric),使測量同一結構的不同測量都可以放到這個“共同度量標準”上進行評估。

Curran和Hussong等人(2008)系統描述了IRT方法在建立共同度量中的運用步驟。第一步,找出研究之間共同的測驗項目——錨題(Anchor Items),這些題目是在研究間有重疊的項目,并采用探索性因素分析檢驗單維性。第二步,根據數據類型選擇統計模型對數據進行擬合,估計這些項目的參數,根據變量的不同類型可選用不同的統計模型,一般采用驗證性因素分析(CFA)對等距數據進行擬合;采用非線性因素分析(NLFA)和二參數的IRT模型對非等距變量、二分變量數據進行擬合(Curran et al.,2008,2009);采用調節非線性因素分析(Moderated Nonlinear Factor Analysis,MNLFA)對包含了連續變量和二分變量的數據進行擬合(Bauer & Hussong,2009)。第三步,評估項目的恒等性,進行項目功能差異(Differential Item Functioning)分析,如在CFA中采用多組因素分析,在IRT框架下進行項目功能差異分析(Bauer & Hussong,2009)。第四步,計算被試的項目分數,用于進一步的統計分析。

4 IDA方法在心理學應用的研究現狀

整合分析的思想在心理學研究中也早有出現(Bell,1953;Schaie,1965)。Bell(1953)最早提出的聚合設計(Convergence Design)研究中,就討論到如何把不同年齡組的多個測量時間點連接和整合成一個連續的發展軌跡。但作為一種統計分析策略,IDA在心理學中的應用是近年才發展起來,目前處于探索和嘗試應用階段。相關的研究主要集中在對IDA方法在心理學中的應用原理、方法的優缺點、方法的應用前景、及一些爭議性問題的討論,特別是IDA過程中的測量問題、縱向研究數據的整合分析策略的探討。 在關于IDA的原理和分析方法方面,Curran和Cooper等人(2009)對IDA的主要思想、基本原理進行闡述,分析了IDA在心理學研究中優越性和面臨的挑戰,并提出異質性分析的一般策略。其中Cooper和Patall(2009)對IDA方法與元分析方法進行系統比較分析,認為IDA不是對元分析的取代,而是對元分析的補充,相比之下,雖然IDA比元分析在人力和時間等方面的花費更大,但IDA可同時分析研究內(Within-study)和研究間(Between-study)的效應,并且,當條件滿足IDA和元分析時,IDA的價值會更大。

IDA研究中,測量問題深受研究者關注,并提出多種方法來處理IDA過程中的測量異質性問題。根據測量變量的類型(連續變量或二分變量)提出采用比例分數模型(Proportion Score Model)、兩參數的IRT模型、CFA模型、非線性因素分析模型(NLFA)對測量同一結構的不同測量進行“等值分析”,建立一致的度量標準(Curran et al.,2008;Bauer & Hussong,2009)。其中Curran和Hussong等人(2008)對IRT模型在IDA過程中的應用原理進行系統的闡述,并把IRT方法用于多個獨立縱向研究數據的整合分析中。Bauer和Hussong等人(2009)對IDA研究中的測量的合并問題進行探討,在綜述傳統的CFA、IRT方法的對測量異質性的分析的步驟、過程、優缺點的基礎上,提出MNLFA模型,認為在IDA過程中,當多個研究中的測量的變量類型既有連續變量又有二分變量,MNLFA 模型可以有效地處理不同研究間測量的異質性問題。

在IDA的應用研究方面,主要表現在對多個縱向研究數據進行整合分析中的應用。如Curran等人(2008)先后闡述了IRT方法和潛增長曲線模型(Latent Growth Curve Model)對三個關于內化癥狀(Internalizing Symptomatology)的縱向研究數據進行整合分析,先采用IRT模型進行項目的參數估計、項目功能差異分析和被試分數估計,再采用潛增長曲線模型對合并數據進行分析,獲得對個體內在癥狀從10歲到33歲的發展趨勢特點。McArdle等人(2009)在對這種兩階段方法(Two-stage method)闡述的基礎上,提出在一個聯合模型中同時估計IRT模型和潛增長曲線模型參數的一段段方法,并用于對三個關于認知發展的縱向研究數據的整合分析,強調一階段分析方法的優勢。Hofer和Piccinin(2009)提出一種基于建立數據共享網絡和合作協議的IDA分析框架,對多個縱向研究數據進行分析。

Shrout(2009)對IDA應用中的一些關鍵問題,如測量問題、研究價值問題、模型的擬合問題等進行討論,并對IDA的應用提出建議;Curran和Hussong等人在IDA方法及其應用研究上多有成果(Curran et al.,2008;Curran,2009;Hussong et al.,2007;Hussong,Bauer,et al.,2008;Hussong,Cai,et al.,2008;Hussong,Flora,et al.,2008)。

5 IDA方法應用前景和挑戰

5.1 應用前景

IDA在心理學應用是心理學發展的需要,在心理學研究中有深遠的應用前景。

首先,IDA方法在發展心理學研究中的應用前景。追蹤研究設計是發展心理學中研究個體發展規律的重要方法。追蹤研究由于研究設計本身的特征,元分析方法在追蹤研究中的應用受到限制,由于長期追蹤研究的代價大,難以對一個樣本進行終生追蹤。IDA方法不但可對研究和測量的時間變異進行處理,而且可通過整合數據分析使研究的時間跨度增加,這就使個體心理終生發展軌跡研究成為可能。目前McArdle等人(2009)對IDA在合并追蹤數據集中的應用進行了理論探索和實踐研究。IDA在追蹤研究中應用涉及到更復雜的統計分析過程,需要進一步的研究。

其次,在實驗研究中的應用前景。心理實驗研究中,大部分研究的被試樣本相對較小,同時,即使是同一主題的研究,由于研究設計、實驗操縱過程等的差異,使得這些研究的結果相沖突,若要調節或驗證這些研究結果,則需要重新設計大型的完全隨機抽樣實驗進行重復研究,這就可能花費大量的人力、物力。而IDA則為解決小樣本問題和協調沖突結果問題提出一種研究思路。采用IDA方法對同一主題的多個實驗研究進行整合分析,可增大樣本,在一定程度上提高統計效應;同時通過整合分析,協調這些沖突研究成果,驗證新的假設。

最后,當某專題的調查研究承載理論爭論或者研究結果的沖突時,也可進行IDA研究,一方面驗證理論和協調研究沖突,另一方面促進研究成果的積累。由于IDA對異質性的直接建模上和解釋上的優勢,跨文化的研究也是IDA可發揮優勢的重要領域。

5.2 面臨的挑戰

IDA在心理學有廣闊的應用前景,但在推廣應用及研究中也面臨一些挑戰。

首先,IDA研究主題的確定和價值問題,雖說選什么樣的主題進行IDA分析是研究者的興趣所在,但在應用中,并不是所有的研究都有必要進行IDA研究,而要考慮研究本身的特征,及進行IDA研究的可能性、必要性和價值性。一般認為,當主題的一些相關研究承載著理論問題或者研究結果存在差異,且可獲得原始數據,為了進一步綜合解釋這些差異或比較這些研究,可進行IDA研究(Curran & Husson,2009;Cooper & Patall,2009;Stewart & Tierney,2002)。但,對于某一主題,是否要進行IDA研究,若要進行IDA研究,研究結果能在多大程度上比原來的單一研究更有價值?另外,IDA應用的限制和條件還需要進一步探索,否則,IDA應用不當,必然導致錯誤的結果(Simmonds & Higgins,2007;Simmonds et al.,2005)。其次,IDA研究中統計分析策略上所面臨的挑戰,這是IDA過程中面臨的最大的挑戰。IDA應用過程中關鍵點是對研究之間的異質性進行處理,其中,最突出的是測量方法的異質性分析。在現有的研究中,已對這些問題作了探索,提出了異質性分析的一般策略,特別是在測量問題上,根據量表類型的不同提出了不同的理論模型來整合研究間不同的測量方法(Bauer & Hussong,2009)。但是這些方法的操作過程較為復雜,阻礙了IDA的推廣應用,因此,需要進一步探索和規范IDA中的統計分析方法。

第三,數據獲取和共享的問題。雖然計算機的發展使數據永久保存、恢復和轉換成為可能,數據共享的技術障礙消失,國際心理學界也呼吁心理學研究數據的共享,但來自人為的障礙仍然存在。即使數據可共享,也面臨一些問題:若研究者可自由獲得他人研究的原始數據,則可能違背了科學研究的道德規則;被試愿意參加原始的研究,但是未必愿意參加第二次的研究;另外,IDA結果的著作權問題也是還未解決的(Cooper & Patall,2009;Shrout,2009)。因此,在IDA應用中,關于數據共享的鼓勵措施、數據共享過程中的安全問題、倫理問題、研究結果版權問題等都需進一步規范。

6 小結

IDA方法在心理學領域的應用的研究處于嘗試階段,并初步顯示了這種分析方法的優越性。同時,我們要明確,不是所有條件下IDA都適用,由于IDA研究代價較大(時間、經濟、人力),分析過程復雜,數據共享困難的限制等,在進行IDA研究之前必須要考慮到各種問題,明確IDA應用的限制條件,正確開展IDA研究。雖然對于IDA的研究結果的價值、分析方法選擇等方面存在諸多爭議,但無疑,在心理學研究的一些領域中,如發展心理的縱向研究、跨文化研究,IDA是一種非常有用的方法。隨著心理學研究數據共享的論題得到越來越多的關注,IDA方法的研究和應用也逐漸受到關注。

參考文獻

崔智敏,寧澤逵.(2010).定量化文獻綜述方法與元分析.統計與決策,19,166-168.

Bauer,D.J.,& Curran,P.J.(2005).Probing interactions in fixed and multilevel regression:Inferential and graphicaltechniques.Multivariate Behavioral Research,40,373-400.

Bauer,D.J.,& Hussong,A.M.(2009).Psychometric approaches for developing commensurate measures across independent studies:Traditional and new models.Psychological Methods,14,101-125.

Bell,R.Q.(1953).Convergence:An accelerated longitudinal approach.Child Develpment,,145-152.

Cooper,H.,& Patall,E.A.(2009).The relative benefits of me-ta analysis conducted with individual participant data versus aggregated data.Psychological Methods,14,165-176.

Curran,P.J.,& Hussong,A.M.(2009).Integrative data analysis:The simultaneous analysis of multiple data sets.Psychological Methods,14,81-100.

Curran,P.J.,Andrea,M.H.,Li,C.,Wenjing,H.,Laurie,C.,Kenneth,J.S.,& Robert,A.Z.(2008).Pooling Data From Multiple Longitudinal Studies:The Role of Item Response Theory in Integrative Data Analysis.Developmental Psychology,(2),365-380.

Curran,P.J.(2009).The Seemingly Quixotic Pursuit of a Cumulative Psychological Science:Introduction to the Special Issue.Psychological Methods,14(2),77-80.

Glass,G.V.(1976).Primary,secondary,and meta-analysis.Educational Researcher,,3-8. Hofer,S.M.,& Piccinin,A.M.(2009).Integrative data analysis through coordination of measurement and analysis protocol across independent longitudinal studies.Psychological Methods, 14,150-164.

Hunter,J.E.,& Schmidt,F.L.(1996).Cumulative research special issue:Introduction knowledge and social policy formulation:The critical role of meta-analysis.Psychology,Public Policy,and Law, 2,324-347.

Hussong,A.M.,Bauer,D.J.,Huang,W.,Chassin,L.,Sher,K.J.,& Zucker,R.A.(2008).Characterizing the life stressors of children of alcoholic parents.Journal of Family Psychology, 22,819-832. Hussong,A.M.,Wirth,R.J.,Edwards,M.C.,Curran,P.J.,Chassin,L.A.,& Zucker,R.A.(2007).Externalizing symptoms among children of alcoholic parents:Entry points for an antisocial pathway to alcoholism.Journal of Abnormal Psychology, 116,529-542.

Hussong,A.M.,Cai,L.,Curran,P.J.,Flora,D.B.,Chassin,L.A.,& Zucker,R.A.(2008).Disaggregating the distal,proximal,and time-varying effects of parent alcoholism on children’s internalizing symptoms.Journal of Abnormal Child Psychology,,335-346.

Hussong,A.M.,Flora,D.B.,Curran,P.J.,Chassin,L.A.,& Zucker,R.A.(2008).Defining risk heterogeneity for internalizing symptoms among children of alcoholic parents:A prospective cross-study analysis.Development and Psychopathology, 20,165-193.

McArdle,J.J.,Grimm,K.J.,Hamagami,F.,Bowles,R.P.,& Meredith,W.(2009).Modeling life span growth curves of cognition using longitudinal data with multiple samples and changing scales of measurement.Psychological Methods, 14,126-149.

Park,C.L.(2004).What is the value of replicating other studies?Research Evaluation,13,189-195.

Pentz,M.A.,& Chou,C.P.(1994).Measurement invariance in longitudinal clinical research assuming change from development and intervention.Journal of Consulting and Clinical Psychology,62,450-462.

Raghunathan,Trivellore,E.,Diehr,Paula,K.,Cheadle,& Allen,D.(2003).Combining aggregate and individual level data to estimate an individual level correlation coefficient.Journal of Educational and Behavioral Statistics,28,1-19.

Rusticus,S.A.,Hubley,A.M.,& Zumbo,B.D.(2008).Measurement invariance of the Appearance Schemas Inventory-Revised and the Body Image Quality of Life Inventory across age and gender. Assessment, 15,60-71.

Schaie,K.(1965).A general model for the study of developmental problems.Psychological Bulletin, 64,92-107.

Shrout,P.E.(2009).Short and long views of integrative data analysis:Comments on contributions to the special issue.Psychological Methods, 14,177-181.

Stewart,L.A.,& Tierney,J.F.(2002).To IPD or not to IPD?Advantages and disadvantages of systematic reviews using individual patient data.Evaluation & the Health Professions,25(1),76-97.

Simmonds,M.C.,& Higgins,J.P.T.(2007).Covariate heterogeneity in meta-analysis:Criteria for deciding between meta regression and individual patient data.Statistics in Medicine, 26,2982-2999.

Simmonds,M.C.,Higgins,J.P.T.,Stewart,L.A.,Tierney,J.F.,Clarke,M.J.,& Thompson,S.G.(2005).Meta-analysis of individual patient data from randomized trials:A review of methods used in practice.Clinical Trials, 2,209-217.

The Application of Integrative Data Analysis in Psychological Research

Tang Wenqing Zhang Minqiang Wang Litian

(Psychological Application Research Center,South China Normal University,Guangzhou 510631)

第6篇

關鍵詞:土工試驗數據;3 法則;Bayes方法

土工試驗結果的可靠程度會直接影響巖土工程設計的精度與施工方案的選取,可靠的實驗結果,可使巖土工程設計和施工方案經濟合理;歪曲事實的實驗結果,可能導致不良的后果,要么使設計過于保守,要么遺留安全隱患.

影響土工試驗數據可靠性的因素包括土樣本身的因素和實驗因素兩個方面.

土樣因素取決于土體本身的復雜性,即使同一區域的同種性質的土體,可能由于其含水量的不同或者粘粒含量的個體差異,導致其物理力學性質不同;另外,同一種土的原狀土和重塑土的物理力學性質指標也存在差異性;原狀土在采樣、運輸和儲存、制備樣品的過程中,受到的擾動程度同樣會對土體的物理力學性質產生影響,所有這些因素都會影響土工試驗數據的可靠程度.由此引起的實驗數據的誤差,是由于土體本身的變異性引起的誤差.

實驗因素引起的誤差包括以下幾種:

1)系統誤差:由于測量工具(或測量儀器)本身固有誤差、測量原理或測量方法的缺陷、實驗操作及實驗人員本身心理生理條件的制約而帶來的測量誤差.

2)隨機誤差:偶然的、無法預測的不易控制的不確定因素干擾而產生測量誤差,這種誤差稱為隨機誤差.

3)過失誤差:明顯歪曲實際事實的誤差.

根據抽樣理論,要使一組樣本得到的試驗結果有意義,必須滿足兩個主要條件:①從土樣中取出的試驗樣本必須具有代表性且符合調查目的的需要.②試驗樣本數量必須充分.依照以上兩個條件,土工試驗數據的整理應包括三個方面的內容:一是總體實驗數據的檢查以及異常數據的分析和舍棄處理;二是最小樣本數問題;三是與土體性質指標的自相關性有關的問題.

一 總體實驗數據的檢查,以及異常數據的分析和舍棄處理

土工試驗數據一般是對于某一土體的物理性質或力學性質的測定結果,如果土體本身的變異性不甚明顯,那么試驗結果應該在真值附近一定范圍內上下波動.在實驗數據整理過程中,首先應根據經驗和統計原則消除系統誤差或過失誤差,以免影響計算結果的準確度.一般可以依據下面的原則對試驗數據進行檢查、修正和剔除異常點.

1.1 根據土的物理力學特性可判出的明顯不合理點

在一組實驗數據中,如果存在明顯不符合土的物理力學性質的值的范圍的點,通過觀察,可以找出這一類異常點,并予以舍棄.如果一組實驗數據大部分在某個值域范圍內波動,但有一點或幾點與該值域相差懸殊,我們可以認為這些點是異常點,這類點可以剔除.

1.2 根據某一置信水平找出確定范圍以外的異常點

1.2.1 實驗數據較多情況下的數據取舍原則――3法則

根據概率論原理的3法則,在試驗數據中,出現在[m - 3 ,m+3]之外的數據點的概率只有0.27 %,

我們可以把大于m+3 和小于m -3 的試驗數據作為異常點處理.應注意用3 法則進行試驗數據取舍時,前提條件是試驗數據較多且總體呈正態分布.一般認為當樣本容量大于等于3 時,抽樣分布與正態分布近似,此時用3 法則進行取舍應該是可行的.在實際的大型巖土工程中,試驗數據有可能達到30個.

實際應用時,不能機械地把位于[m -3 ,m+3]之外的點全部予以剔除,還應分析導致其異常的原因.如果一個土樣的多個參數值均位于[m -3 ,m+3]之外,則這些異常數據是由土樣因素引起的,應重新取土補做實驗或進行相應的調整.如果某個土樣的某一個參數位于[m -3 ,m+3]之外,說明此誤差是由試驗誤差引起的,應予以剔除.如某工程的同一土層的內聚力c/kPa的試驗數據為:2.58,3.26,4.12,6.12,5.28,4.19,7.61,4.38,

5.64,3.68,2.94,4.56,4.26,5.34,3.99,5.49,4.31,6.34,2.59,3.67,8.99,3.54,4.53,5.36,4.68,6.18,

5.48,4.39,4.61,1.99,3.58.其數值分布如圖1所示.

從其分布可以看出,這些數據符合正態分布,計算得到:平均值為4.63,標準差1.44,置信水平99.73%的分布范圍是[0.31,8.95],數值8.99可以剔除.

1.2.2 一次實驗中實驗數據較少,又無其他資料可以引用情況下的數據取舍原則在小型的巖土工程實際中,當試驗數據數目n

此范圍外的點可視作異常點.有一組土的內摩擦角實驗數據為:9.4,9.0,8.0,6.0,4.8,6.2,8.7,9.5,4.3.用置信水平99.73 %進行數據取舍。

因為n=9

二 土工試驗數據中最小試驗樣本數問題

在試驗數據整理過程中,還有一個問題需要考慮,即最小試驗樣本數問題.試驗樣本數過少,會極大影響試驗結果.試驗樣本數多少取決于種種因素,包括工程規模、現場勘探條件以及工程要求精度.以下僅從統計特征方面討論這個問題:

某一工程中,從一硬粘土層中取得4個原狀土樣,對各土樣作不排水三軸試驗得出下列Cu值:101,97,95,109(KPa ).為使土樣不排水剪切強度以95 的概率落在實驗結果平均值100.5的范圍內,求必須的土

樣最小數目.

由于只有4個土樣,n<30,用t分布計算.V=3,查表得相應于F(t)=0.95時的t=2.35;且Cu 的實驗平均值為100.5(KPa ), =6.19,因而,相應的數值范圍為100.5±2.35×6.19÷ =93.23~107.77(kPa),離開平均值范圍為2.35×6.19÷÷100.5―7%,不在5%范圍內,還需增加樣本.以6個樣本試算,u=5,F(t)=0.95,查表得t=2.02,于是離開平均值的范圍為:

偏離值為5.10/100.5=5.1% >5% ,不滿足要求.以7個樣本試算, v=6,F(t)=0.95,查表得t=1.94,于是離開平均值的范圍為:

偏離值為4.54/100.5=4.5 %< 5 %,滿足要求。

所以,還需增加3個土樣,即至少需要7個土樣才可以達到所需精度要求.土工試驗中,一次實驗的試驗樣本數如果滿足不了統計要求的最小樣本數,增加土樣又意味著增加額外的投資,而此時我們可以收集以往的實驗資料,利用Bayes方法解決一次實驗樣本數不足的問題.

由《概率論》的Bayes方法,對離散型隨機變量有

(1)

稱為參數的驗后概率; 稱為驗前概率; 為給定參數 條件下的 的條件概率,稱為似然函數.) (2)

若已測得一組實驗測值為 ,怎樣由去推定 首先要求得其驗后概率 ,驗前概率 、似然函數 .一般 可通過以往的經驗得到, 可通過測值 得到,于是由公式(2),就可以得到驗后概率 ,從而求得其期望值,此期望值即為需求參數 的Bayes估計值。

土工試驗數據可以認為是離散型試驗數據.下面以長沙地區的粉砂抗剪強度參數 為例說明Bayes估計方法的應用。

一般情況下土的抗剪強度參數符合正態分布,故以下討論以正態分布為基礎.長沙電廠工程分三期進行,其資料見表1.下面用Bayes方法計算,第一步把一期工程資料作為二期工程的驗前資料,以二期工程資料求得似然函數,從而可得驗后概率;第二步,以此驗后概率作為三期工程的驗前資料,然后求得結合了全部一、二、三期工程的驗后概率,這樣求得的強度參數同時考慮了三期工程,將更為合理可靠.

由Bayes公式,有 ,就正態分布而言,Bayes公式可進一步具體化為

其中, 為一期工程資料, 。

其中,是根據二期工程資料求得的,

故驗后概率為兩個正態分布的乘積,它本身也是一個正態分布,其抗剪強度均值 和標準差 可由下式求得:

故驗后概率 。由此可見,驗后方差比驗前方差和似然方差都要小.現以上述求得的驗后概率作為驗前概率,以三期工程作為新的測值進行Bayes法第二次應用的計算.

已知。由三期工程資料,

故得新的驗后概率

即的驗后分布。.所以此粉砂的強度參數的貝葉斯估計值為 31.52.將全部資料加以平均得到強度參數的平均值為=31.73.當然, 值應比值更合理可靠.通過以上分析可以看出:

Bayes法可以把不同時間測得的觀測數據有機地結合起來,而不是簡單的加權平均,從而得到一個更為可靠的數據結果.這個優點使它在一些大型工程的設計指標的研究中廣泛使用,如在研究土的力學性質指標時,直接進行力學性質試驗,特別是三軸試驗往往是浪費時間、耗費資金、需要技術和設備,而進行土的物理性質指標的測定則要簡便經濟得多.假如在進行一定力學性質試驗的同時,利用土的物理性質指標(如土的密度、含水量等)來豐富力學性質指標的驗前概率,那么所得的力學指標將會更加精確.Bayes法在應用上的另一個優點是它可以更精確的處理不同觀測結果的合并問題,如上例所述.再如測定土的抗剪強度時可能采用直剪試驗、三軸試驗或原位試驗等方法,各種方法的實測值具有不同的概率函數,Bayes法就可將這些不同概率規律的信息有機結合起來,得出更可靠的參數驗后分布,依此確定的土的

抗剪強度參數將更為合理.

3 土體性質指標的自相關性的問題

在以往考慮實驗數據的相關關系時,常常是求它們之間的線性相關系數,對于土工試驗指標其自相關函數通常不是線性相關,而是指數相關,因此,就不能用以往的求相關系數的方法來判別其相關性。

土工問題中,可用相關距離 來判別其獨立與否.在相關距離 內,土性指標基本上是相關的;相反,在該范圍之外,土性指標基本上是不相關的.而相關距離 事先是未知的,它也要根據樣本測值來求,一般用遞推平均法求相關距離,同時取樣間距Z 對 的計算會產生影響,這種影響反應于當取樣距離Z 不同時,得到的 也不一樣.Z / 越大,說明各抽樣點的土性越接近相互獨立,抽樣誤差就越小。

因此,取樣距離應盡可能大于 .但從另一角度考慮,如果樣本間距太大,便不能精確估計自相關函數和相關距離.因此,當Z= 時將求出的 作為土的相關距離比較合適.有了相關距離后,就可以根據取樣點的位置,以 為尺度,將指標的樣本測值分成幾組,在相關距離 內的樣本點,用樣本的加權平均估計該區域內的平均土性,在一個 范圍內,可得到一個.對于n個樣本值,可得到 m 個 .通過以上處理得到的這 m 個,就可視為彼此獨立的樣本了。

3.1 通過迭代求解土的相關距離

可以利用計算機程序,通過搜索 = Z 時的,只要以較小的基本間距取樣本,程序在運算過程中,以基

本間距的若干倍作為Z 計算 ,直到 小于某個規定值 。

3.2 用樣本的加權平均來估計該區域內的平均土性

在土體的相關距離內,測值點是相關的,這時可用樣本的加權平均值來估計該范圍的平均土性,具體做法為

(5)

這里 是有關樣本 的權值, 是 內的樣本點數.關于一組權 ,可依下式取極小值.

(6)

其限制條件為0≤≤1和Σ =1, 是 和 點處土性指標之間的相關系數,采用Lagrangian乘法,可以得到下列矩陣方程:

(7)

這里,相關函數 的形式可以假設,因為相關函數的確切形式對大多數實際應用意義不大,據此,一組權 就可以算出,從而該范圍的平均土性可用估計值式(6)來計算.在實際工程中,雖然走值不一樣大,但用起來還是較方便的.經過上述處理后的 m個 ,就是彼此獨立的樣本了。

具體情況下,可根據工程具體精度要求,進行簡化或省略,如在6范圍內的幾個數據,通過實驗判斷或簡單計算就可以確定其代表值時,就不需加權平均.在實際應用中,最多的情況可能是根據經驗結合計算進行處理.

4 結束語

1)影響土工試驗數據可靠性的因素包括土樣本身和實驗因素兩個方面,在進行土工試驗指標整理時,根據土的物理力學特性可判定出一部分明顯的不合理點,還可以根據3d法剔除不合理的測定值,從而使土工試驗數據更接近實際.

2)考慮土工試驗數據的相關性可以通過迭代求解土性指標的相關距離,用樣本的加權平均來估計該區域內的平均土性指標值.

第7篇

關鍵詞:交通事故;數據確實;相似原理

中圖分類號:TB

文獻標識碼:A

doi:10.19311/ki.16723198.2017.12.098

1引言

事故分析和再現的過程中,事故現場圖是必不可少的法律依據。但是往往在匆忙地繪制現場圖的過程中,造成了數據遺漏和缺失,給事故分析和再現工作帶來很大的困難。為了給事故處理提供更加有力的依據,對于現場圖中數據的缺失,采用必要的數據分析方法是非常必要的。

2實際案例分析

圖1是某事故現場圖,大貨車在事故發生的過程中在地面留下了清晰的制動痕跡,遺憾的是缺少了很長一段制動痕跡的長度,并且痕跡的形態有誤差。根據制動痕跡計算貨車的行駛車速,以及車輪抱死拖滑前的運動形態,根據這個現場圖提供的數據是不可能的。

根據現場圖來計算大貨車車速是不可能的,我們只能根據其有標注12m長度的制動痕跡來計算其行駛的最低車速,但這個車速較低,對分析案情沒有意義。但是我們能夠發現,根據現場圖所示的第一條制動痕跡的參數可以判斷此制動痕跡為一條斜線,因此大貨車在開始剎車時可能處于壓黃線行駛狀態。下面則判斷其開始剎車時是否處于壓線行駛狀態。

2.1計算大貨車車速與制動痕跡長度的關系

由現場圖可以看出,大貨車的制動痕跡為三段,我們假設這三段的長度分別為S1、S2、S3。當駕駛員開始踩剎車踏板到出現制動痕跡的這段時間內(制動協調時間),大貨車也是向前行駛的,我們假設在這段時間內其行駛距離為ΔS。

首先根據大貨車在地面上的制動痕跡,由動量守恒可以列出公式(1):

12mv2=k1μmg(S1+S3)+k2μmgS2(1)

式中,m為大貨車、駕駛員及貨物的總質量(kg);v為大貨車開始剎車時的瞬時速度(m/s);k1為附著系數修正值;k2為附著系數修正值;μ為大貨車在干燥瀝青路面上制動時的附著系數;g為重力加速度(m/s2);S1――大貨車在地面上留下的第一段制動痕跡的距離(m);S2――大貨車兩段制動痕跡中間的距離(m);S3――大貨車在地面上留下的第二段制動痕跡的距離(m)。

大貨車在制動協調時間內車速的降低量可由(2)式求出:

Δv=0.5μgt(2)

式中,Δv為制動協調時間內車速的降低量(m/s);μ為大貨車在干燥瀝青路面上制動時的附著系數;g為重力加速度(m/s2);t為踩踏時間和踩死時間之和(s)。

在制動協調時間內大貨車所行駛的距離可由(3)表示:

ΔS=[(v+Δv)2-v2]μg(3)

式中,ΔS為制動協調時間內大貨車所行駛的距離(m);v為大貨車開始剎車時的瞬時速度(m/s);Δv為制動協調時間內車速的降低量(m/s);μ為大貨車在干燥瀝青路面上制動時的附著系數;g為重力加速度(m/s2)。

當然,由以上3式是無法求出大貨車的車速的,因為在以上3式中缺少相應的未知數S1的數值大小,但是我們卻可以得出S1與v之間的關系,即第一段制動痕跡的長度與開始剎車時的瞬時速度之間的關系。

2.2大貨車的運動形態

在E點處,大貨車開始制動,到D點時開始出現制動拖痕,到C點時第一段制動痕跡結束。如果在制動前大貨車沒有壓線行駛的話,則直線EC應不與中心雙黃線相交;如果壓線的話,則直線EC應與中心雙黃線相交。

利用三角形關系可以判斷虛線ED是否與中心雙黃線相交所示。

2.3大貨車是否壓線判斷

在圖3、圖4中:CD=S1,DE=ΔS,AC=2.7m,GD=1m,如果大貨車沒有壓線,則E點應在直線AG的右側,因此B點也應在直線AG的右側,這時有AC>BC(如圖2);反之如果大貨車壓線,則有AC

由三角形相似關系可以得出:BCHC=CECD;因此:

BC=CE?HCCD=(S1+ΔS)?(AC-GD)S1(4)

F令BC=AC則:BC-AC=0(5)

聯立式(1)~(5)得:v=-15.62m/s=-56.23km/h(舍去);

v=26.77m/s=99.97km/h。

因此由二次方程根的分布可以得出:如果-56.23km/h

顯然v9997km/h也是不符合實際的,所以能夠得出-56.23km/h

3結語

此方法雖然不能準確計算大貨車的開始剎車時的準確車速,但是根據車輛的最高設計時速得出了大貨車在開始剎車時處于壓黃線行駛狀態,已經違反了交通規則,這對交警事故責任的認定有很大的幫助,此方法雖然并不是對所有數據缺失的現場圖都有效,但其卻給我們提供了一種新的思路,開拓了思維。

第8篇

Abstract: This paper describes several commonly used in environmental monitoring data analysis method of monitoring data, the comprehensive analysis is very important.

關鍵詞:環境監測;質量濃度;數據;分析;方法

Key words: environmental monitoring; mass concentration; data analysis; method;

中圖分類號:X83文獻標識碼:A 文章編號:2095-2104(2012)

一、監測數據綜合分析的目的和作用

環境監測是科學性很強的工作,它的直接產品就是監測數據。監測質量好壞集中反映在數據上,準確、可靠、可比的環境監測數據是環境科學研究工作的基礎,是環境管理的依據。一個環境監測站每年可提供成千上萬的監測數據,但這些數據本身是孤立的、離散的,必須從不同的目的和作用出發,把環境監測所獲得的資料、數據,通過不同的途徑和方法分類、統計、轉化、匯總,找出其本質的東西,獲取環境管理所要求的各種綜合數據。環境監測數據綜合分析的目的是完成監測數據、信息資料向環境質量定性和定量結論的轉變,通過監測數據、信息資料的深加工與自然環境、社會經濟發展等諸因素的綜合分析,實現為污染防治決策和環境建設決策的轉變。環境監測數據綜合分析是環境監測過程中環節的重要環節,也是最終環節。一般來說,環境監測綜合分析技術的水平高低,代表著監測站技術水平的高低,也決定著監測站在環境管理中的地位和作用。

二、監測數據綜合分析的方法

在對環境質量進行綜合評價或對區域環境污染狀況進行評價時,都是以一定數量的監測數據和資料為依據的。這些數據和資料包括環境要素的監測數據、環境條件數據、污染源調查監測數據、現場調查數據和實測數據等等。環境監測綜合分析采用的方法很多,并在不斷完善和發展,通常采用的分析方法有統計規律分析、合理性分析、效益分析等。

2.1 統計規律分析

統計規律分析中包括了對環境要素進行質量評價的各種數學模式評價方法,也就是應用數理統計方法,模糊數學方法和適用于不同環境要素的數學、物理方程等方法,對監測數據資料進行剖析,解釋,做出規律性的分析和評價。該分析方法主要應用于環境調查、環境規劃或課題、環評等比較大的工作中。

2.2 合理性分析

由于影響環境要素變化的因素十分復雜,而用于綜合分析的監測數據資料有限,所以需要結合環境要素的各項條件和污染源參數,理論結合實際分析其合理性。應考慮到環境要素之間的相互影響,監測項目之間的相關和對比關系,全面分析其合理性,這樣才能提供準確、可靠、合理的監測數據。如何合理的分析數據,可以從以下幾個方面判斷:

2.2.1 通過項目之間的相關性來分析

監測項目多種多樣,有機的、無機的都有,但是物質本身具有相互關系,兩個或兩個以上的項目監測數據往往存在一種固定關系,這就為我們分析單個已實行質量控制措施的監測數據正確與否提供了依據,對一些例行監測數據,可做出直觀的判定。例如,氟含量與硬度之間的關系。F與Ca、Mg形成沉淀物容積度較小,因此,在中性、弱堿性水溶液中,如氟含量在(mg/L)級,則其氟含量與Ca、Mg含量呈明顯負相關,即與硬度值呈負相關,所以高氟區內的水質監測結果中硬度監測值一般較低。如果氟含量較高,同樣硬度監測值也很高,數據就要重新分析。再如CO、BOD5和高錳酸鹽指數之間的關系。根據COD、BOD5和高錳酸鹽指數的概念,COD是指用強氧化劑,在酸性條件下,將有機物氧化成CO2 與H2O所消耗的氧量平;BOD5是指在水溫為20℃的條件下,微生物氧化有機物所消耗的氧量;高錳酸鹽指數是在一定條件下,用高錳酸鉀氧化水樣中的某些有機物及無機物還原性物質,由消耗的高錳酸鉀量計算相當的氧量;結合其實際的測定過程,對于同一份水樣三者的監測結果,應存在以下規律:COD>BOD5,COD>CODMn。三氮與溶解氧也存在一定的關系。環境中氮的存在形式根據環境條件的變化而發生變化,尤其受水體中溶解氧的質量濃度影響,一般溶解氧高的水體硝酸鹽氮的質量濃度高于氨氮質量濃度,反之氨氮質量濃度高于硝酸鹽氮質量濃度,亞硝酸鹽氮質量濃度與之無明顯關系。二氧化硫與氮氧化物之間的關系:對于以煤為主要燃料的煤煙型污染區域,其大氣環境中二氧化硫體積質量大于氮氧化物,一般為氮氧化物的2~6倍。在以汽油、柴油為燃料的區域內,如馬路邊,交通繁忙而居民少的區域,氮氧化物體積質量則大于二氧化硫。綜上所述,物質之間存在的相互關聯性對綜合分析監測數據的合理性起著至關重要的作用,它直觀的體現出數據在分析過程是否存在分析誤差,可以在第一時間分析出數據是否合理,為進一步綜合分析數據提供了準確依據。

2.2.2 通過掌握的資料對監測值進行判定

對現有的數據進行綜合分析,首先要了解采樣地點的本底值范圍,特別是例行監測或者是年度監測計劃。這種工作一般情況下都是連續性的,一年或是幾年,數據可比性比較好,對同一點位的數據,如個別項目變化較大,可以先將該值列為可疑數值,然后進行合理性分析。進行合理性分析,首先要了解是否有新的污染源介入,其次是采樣全過程有無異常,包括水質的顏色,氣味、流量的大小等。與以往數據進行比對,采樣是否規范,采樣的容器是否達到可用標準等。再次是實驗室分析,如查找顯示劑保存時間是否過期,標準曲線是否及時繪制,分光光度計是否調零等等。對于氣體來說,還要考慮采樣時的風向,采樣儀器是否校準等。對于可疑值,在分析過程中已經知道數據是可疑的應將可疑值舍去;對復查結果時已經找出出現可疑值原因的,也應將可疑值舍去;對找不出可疑值出現原因的,不應隨意舍去或保留,要對留樣重新進行實驗室分析或根據數理統計原則來處理。

2.2.3 通過監測項目的性質對監測值判定

在同一水樣中有許多項目根據其性質可以判定相關的監測值是否正確。如總氮,是指可溶性及懸浮顆粒中的含氮量,如果同一水樣監測結果出現總氮與氨氮、亞硝酸鹽氮、硝酸鹽氮數據倒掛,就表明監測結果是不正確的,需要重新分析找出原因;同樣,還有總磷與可溶性磷以及無機磷之間數據的倒掛;大氣中,氮氧化物與一氧化氮、二氧化氮,總懸浮顆粒物與可吸入顆粒物之間數據的倒掛等,都是不合理現象。同樣,在噪聲監測中,理論上監測數據L10 一定大于L50、L90、Leq,在實際監測中如果出現Leq 大于L10,如果不是監測數據或儀器出現問題,就是由于瞬時之間噪音值的突然增大,應當修正數據使用。以上只是列出部分項目之間的關系,還有許多項目關系需要我們在日常生活中不斷總結和發現,運用到日常的環境監測綜合分析中,更好地服務于環境管理。

2.2.4 通過了解污染源對監測值進行判定

監測數據是多種多樣的,不僅僅包括環境空氣、地表水、地下水等等,也包括點源,如我們常說的工業污染源。工業污染源多種多樣,不同的行業有不同的污染物產生,多數行業都有自己的特殊污染物產生,化學需氧量和氨氮只是多數工業污染源的共性污染物。因此,要在日常工作中對轄區內的污染源或者是重點污染源有所了解,根據行業的不同,選擇有針對性的監測項目來監督污染企業。如國家最新頒布執行的制藥行業六項標準,就是根據制藥行業不同工業生產工藝和污染治理技術的特點,分別制定了《發酵類制藥工業水污染物排放標準》、《提取類制藥工業水污染物排放標準》、《化學合成類制藥工業水污染物排放標準》、《中藥類制藥工業水污染物排放標準》、《生物工程類制藥工業水污染物排放標準》、《混裝制劑類制藥工業水污染物排放標準》。國家對這些行業制定了最多25項污染物監測分析排放標準,最少11項污染物監測分析排放標準,其中有共性的污染物,也有特殊的污染物,根據特殊的污染物是否存在,就可以判定是哪類制藥行業。又如對化工行業來說,有機物含量種類較多,重金屬比較少;對于重金屬行業來說,有機物含量較少;造紙行業主要是有機污染等。如果在一個生產有機化工的企業,廢水監測出高質量濃度的重金屬,則監測數據應重新考慮,需按照綜合分析方法分析其原因。

2.3 效益分析

環境監測數據有例行監測、環評監測、驗收監測、監督監測等等。對于監督監測來說,分析數據相對較少,數據合理性比較好判斷;而對于數據較多的例行監測、環評監測來說,在較短時間內判斷數據是否準確、合理、可靠,上述綜合分析方法提供了簡單、明了的依據,在實際工作中能夠及時為環境管理提供準確的監測信息,減少企業不必要的重復工作,在有效的時間內提供更優質的服務。

第9篇

1.流量來源

從圖中數據顯示,該網站主要流量來源于外部鏈接,表明各種推廣營銷手段還是有一定效果的,而直接訪問帶來的流量卻不太理想,說明該其用戶忠誠度較低,需要繼續加強。而搜索引擎流量的話其主要靠內容,而從該站數據看來,其內容還是比較欠缺,需要加強優化。。

2. 網站訪問時段

從上圖觀察發現,我們可以分析出用戶在上午9點-11點,下午14點-17點,這兩個時段較為活躍,那么便可根據此進行推廣,因為訪客越是活躍,進行推廣便更嘔效果。同樣的,在做競價推廣時,也可以此作為參考。

3. 搜索引擎分析

有統計數據可以發現,各個搜索引擎過來的流量有多少,而從該網站數據上看,該網站的主要訪客來源于百度,竟然如此,該站就更加需要加強百度優化,更多的去迎合百度。

4.搜索詞

通過對搜索詞的查看,我們可以查看用戶主要通過哪些詞來到該網站,從而可根據此來對長尾關鍵詞進行挖掘。同時我們可以發現用戶是通過一些我們根本想不到的詞來訪問網站,通過這些詞我也可作為研究用戶搜索習慣的重要參考因素。

5.訪問時長及跳出率

通過對訪客的頁面停留時間長短及跳出率,我們可以分析出用戶的需求點,從而分析出哪些最終頁,哪些是過度頁。如此此我們就可以根據此來對頁面進行優化,以及分析哪些欄目更應放在首頁等。

6.瀏覽器訪問比例

這個數據通常告訴我們應如何去設計網頁,從圖中可以看出瀏覽器中360與ie用戶量比例較大。因此在我們對該網站頁面進行設計或改版時,需要重點滿足IE與360用戶的需求,同時要保證網頁在IE與360下的兼容性。

相關期刊
主站蜘蛛池模板: 搞av.com| 久久综合给合久久狠狠狠97色| 免费一级特黄视频| 伦理一区二区三区| 亚洲欧美电影在线一区二区| 亚洲成人网在线观看| 亚洲AV综合色区无码一区| 久久精品女人的天堂AV| 久久se精品动漫一区二区三区| 中国videos性高清免费| bt√天堂资源在线官网| 2020国产精品永久在线| 久久福利视频导航| 老马的春天顾晓婷5| 疯狂做受xxxx高潮视频免费| 欧美色视频日本| 色婷婷亚洲综合| 真实男女动态无遮挡图| 欧美理论片在线观看一区二区| 欧美影院网站视频观看| 母子俩肥水不流外人田| 欧美国产日韩911在线观看| 日本高清va在线播放| 思思久久99热只有频精品66 | 欧美最猛黑人xxxxx猛交| 欧美又黄又嫩大片a级| 日本男人操女人| 女人高潮特级毛片| 国产精品v欧美精品v日韩精品 | 800av凹凸视频在线观看| 免费福利在线观看| 美女大量吞精在线观看456| 正在播放国产夫妻| 日本道色综合久久影院| 女人l8毛片a一级毛片| 国产欧美色一区二区三区| 午夜理论影院第九电影院| 亚洲国产超清无码专区| 久久久久亚洲av成人网| 999福利视频| 色在线亚洲视频www|