一文帶你全方位理解卡方檢驗
一、基本概念:卡方檢驗
(一)定義
卡方檢驗主要用于研究定類與定類數據之間的差異關系。一般使用卡方檢驗進行分析的目的是比較差異性。例如研究人員想知道兩組學生對于手機品牌的偏好差異情況。
(二)卡方值
卡方值表示觀察值與理論值之間的偏離程度。
卡方值的大小與樣本量(自由度)有關。一般來說,卡方值越大越好,但并不準确。比如5000和5010的差異為10;40和50的差異為10,明顯後者差異更大。
最終查看卡方值對應的p值更準确。
二、卡方檢驗分類
(一)方法分類
SPSSAU系統中,卡方檢驗分為【通用方法】中的交叉卡方,以及【醫學/研究】模塊中的卡方檢驗、配對卡方、卡方拟合優度、分層卡方五類。
(二)方法對比
(1)交叉卡方
适用于大部分場景之中,滿足大部分用戶需求,使用頻率高,僅使用Pearson卡方,不支持加權數據。
交叉卡方僅輸出一個交叉卡方分析結果如下圖:
可以看到卡方值為16.667,p=0.000顯著性差異。
(2)卡方檢驗
适用于實驗醫學研究方向,專業性更強,使用頻率高。
從上表可知,利用卡方檢驗(交叉分析)去研究減肥方式對于膽固醇水平共1項的差異關系【獨立性】,不同減肥方式樣本對于膽固醇水平共1項呈現出顯著性(p
總結可知:不同減肥方式樣本對于膽固醇水平全部均呈現出顯著性差異。
①Pearson卡方、yates校正卡方、Fisher卡方三類卡方,具體選擇标準如下圖
上表格為卡方檢驗的中間過程值,由于本案例數據為3*2格式,且10.05),意味着接受原假設(原假設:實際分布比例與預期比例一緻),即數據分布與預期一緻。
(5)分層卡方
分層卡方研究X與Y之間的差異時,進一步研究是否存在擾動因素項Factor項。
針對分層卡方,其涉及的理論知識内容,如下表格:
通常情況下,首先查看"比值比齊性檢驗",如果其呈現出顯著性(p< 0.05),則說明具有混雜因素,即需要考慮分層項,分别查看不同分層項下的數據結果。反之如果沒有通過"比值比齊性檢驗",即說明沒有混雜因素不需要考慮分層項,報告整體的結果即可(包括卡方檢驗,以及OR值)。
三、卡方檢驗應用
(一)分析步驟
(1)分析X分别與Y之間是否呈現出顯著性(p值小于0.05或0.01);
(2)如果呈現出顯著性,具體對比選擇百分比(括号内值),描述具體差異所在;未呈現出顯著性則停止分析;
(3)對分析進行總結。
(二)多選題分析中的應用
(1)卡方拟合優度:多選題,檢驗各選項選擇比例是否有顯著性差異
從上表可以看出,各選項選擇沒有顯著差異,百分比選擇分布較均勻(chi=5.947,p=0.203>0.05)。
(2)Pearson卡方:單選-多選,交叉差異檢驗
從上表可以看出,性别對于共五項表示的多選題并不會呈現出顯著差異性(chi=1.208,p=0.877>0.05)。
(3)Pearson卡方:多選-多選,交叉差異檢驗
從上表可以看出,兩個多選題之間并沒有明顯的關聯關系,百分比選擇分布較均勻(chi=0.732,p=1.000>0.05)。
四、數據格式
卡方檢驗數據格式可分為常規格式與加權格式兩類。
上述五類卡方檢驗方法,除交叉卡方外,其餘四類卡方檢驗均支持加權數據格式。
(1)常規格式
一行代表一個樣本,如果有100個樣本即為100行;一列代表一個屬性;這類格式最為常見,而且此類數據格式可以做任何的分析。因為其攜帶着所有最原始的數據信息。
(2)加權格式
例如:膽固醇水平有2項,減肥方式有3項,因而為3*2共6種組合,則一定需要有6行,并且一定為3列,最後一列叫‘加權項’,這樣的數據格式上傳到SPSSAU後進行分析即可。
五、差異幅度
六、定量數據做卡方檢驗
卡方檢驗主要用來研究定類與定類數據間差異關系的;
那麼定量數據能否進行卡方檢驗呢?此時可以分為以下三種情況讨論:
(1)定量數據可以轉化為定類數據(可以進行卡方檢驗)
① 自動按分位數分組
例如:想讓樣本數據按五分位數進行分樣本處理;第一步将數據按照指定變量從小到大排列;第二步分别找到20%分位點、40%分位點、60%分位點、和80%分位點;第三步将小于20%分位點的全部取值為1,20%-40%取值為2,60%-80%取值為3,80%以上取值為4。
② 按實際意義分組
例如:本科以下、本科以上兩組;20歲以下、20-30歲、30歲以上。
(2)定量和定類模糊(視研究偏好而定)
例如:量表數據,比如非常不滿意,不滿意,一般,滿意和非常滿意
(3)定量不可轉化為定類數據(不可以進行卡方檢驗)
如果研究定類與定量數據之間的關系,此時應該使用方差或者T檢驗。
差異關系研究方法選擇見下表:
我來說兩句