中華民國泌尿腫瘤關懷協會祕書長
童綜合泌尿外科 呂謹亨 醫師
<<用腦幹寫論文系列>> 小技巧篇: 如何用Excel 進行卡方檢定? (以新冠肺炎死亡率為例)
相信在醫院工作的醫護人員,大學都有學過統計相關課程,但進入醫院後,一來是過去學過的東西大多還給教授們了XD,二來在每日繁重的臨床工作下,大腦僅存可以思考的細胞早就被榨乾殆盡。當有時間做研究時,早就沒有多餘的腦容量可以運作了。因此,如何用剩下的 “腦幹” 寫論文,就是非常重要的技巧XD。其實真的硬要生出論文不難,就難在時間的分配與意志力。況且除非真的對研究很有興趣,許多人的一生目標,大概就是生出一篇符合醫院要求,有SCI分數的論文就好。本系列: <<用腦幹寫論文系列>>,就是在幫助大家,如何用好好規劃,適時加一些小技巧,用剩餘的腦幹,有效的拚出一篇文章!
本篇主要的目的是示範如何用簡單的 Excel 進行卡方檢定,協助資料分析。
本系列的風格就是直接切入重點~
本技巧好處:
1. 快速初步找出P值有統計顯著意義的資料。
2. 邊蒐集資料,邊檢視我們蒐集的方向是否正確
要拚出一篇文章,最簡單的就是找出資料中有意義的P值,才能延伸發揮出有意義的論點。(雖然越來越多學者指出,光看P值其實越來越失真,可參考 https://reurl.cc/X6YMLj #蘇一峰 醫師所寫:
從NEJM的重大聲明來看,P值真的失去價值了嗎?)
利用此方法,一來可以不需要複雜的軟體及設備,初步快速找出有意義的P值,二來,我們可以邊蒐集資料,邊檢視我們蒐集的方向是否正確,避免在資料海中迷失徬徨。(雖然這種方式不是很符合正統的研究態度XD)
在台北榮總時,老師就常說,一個成熟的手術方式,就是簡單易懂好上手,可重複性高。大道至簡,統計學有個說法,真的有意義的統計分析,用最簡單的卡方、T test、...就可以看出來了,如果真的要動用越高深的統計,通常也表示並不是那麼有顯著的意義,常常是用統計方法做出來的。
最實際的,當然,越和善簡單的方法,降低了論文寫作者的阻力及增加寫作的動力及成就感!
以下,就直接講方法:
(一)、卡方適合度檢定 (較不常使用)
設COVID-19肺炎死亡率20%,存活率為 80%,某小島有 500 位民眾。全部感染,結果有 375位死亡。我們欲測驗實際的試驗結果是否與目前20%死亡率相符合。
圖一、計算期望值。
圖二、可直接計算卡方檢定的 p 值。
卡方分析的函式語法為:
=CHITEST (輸入實測值範圍, 輸入期望值範圍)
=CHITEST (B2:B3,C2:C3)
本例所得 p 值小於設定的顯著水準 0.05,故拒絕虛無假設,推斷某小島之病毒感染存活率不符合 80%。
使用 p-value 進行決策之外,也可以計算卡方統計量值(如圖三 E 欄第 2 至 4 列),配合使用 CHIINV 函式求得卡方分布的臨界值,若卡方統計量值大於卡方分布的臨界值,則拒絕虛無假設。
卡方分布的臨界值函式語法為:
CHIINV (顯著水準,自由度)
本例為 CHIINV (0.05,1) = 3.8415
圖三、計算卡方值。
由於本例卡方統計量值為 7.8125,大於臨界值 3.8415,因此拒絕虛無假設,推斷某小島之病毒感染存活率不符合 80%
(二)、卡方獨立性檢定(先計算期望值,再用CHITEST 函式計算獨立性檢定之 p 值)è此方法較常用!
下表是2020年6月24日全球死亡率。
項次
|
國家/地區
|
確診人數
|
死亡人數
|
死亡率
|
1
|
比利時
|
60,550
|
9,696
|
16.01%
|
2
|
法國
|
196,724
|
29,636
|
15.06%
|
3
|
義大利
|
238,720
|
34,657
|
14.52%
|
4
|
英國
|
305,289
|
42,647
|
13.97%
|
5
|
匈牙利
|
4,102
|
572
|
13.94%
|
6
|
荷蘭
|
49,658
|
6,090
|
12.26%
|
7
|
墨西哥
|
185,122
|
22,584
|
12.20%
|
8
|
西班牙
|
246,504
|
28,324
|
11.49%
|
9
|
瑞典
|
58,932
|
5,122
|
8.69%
|
10
|
厄瓜多
|
50,640
|
4,223
|
8.34%
|
11
|
加拿大
|
101,637
|
8,436
|
8.30%
|
12
|
阿爾及利亞
|
11,920
|
852
|
7.15%
|
13
|
愛爾蘭
|
25,383
|
1,717
|
6.76%
|
14
|
羅馬尼亞
|
24,291
|
1,523
|
6.27%
|
15
|
蘇丹
|
8,698
|
533
|
6.13%
|
16
|
希臘
|
3,287
|
190
|
5.78%
|
17
|
中國
|
83,396
|
4,634
|
5.56%
|
18
|
瑞士
|
31,292
|
1,680
|
5.37%
|
19
|
印尼
|
46,845
|
2,500
|
5.34%
|
20
|
日本
|
17,916
|
953
|
5.32%
|
21
|
波蘭
|
32,310
|
1,680
|
5.20%
|
22
|
美國
|
2,355,267
|
122,119
|
5.18%
|
我們發現第17名與第22名的中國與美國死亡率分別是5.56%與5.18%,我們想知道是否有統計上的顯著差異。則可以用卡方檢定。先計算期望值:
|
A
|
B
|
C
|
D
|
1
|
實測值
|
中國
|
美國
|
總計
|
2
|
確診數
|
83396
|
2355267
|
2438663
|
3
|
死亡數
|
4634
|
122119
|
126753
|
4
|
總計
|
88030
|
2477386
|
2565416
|
5
|
|
|
|
|
6
|
期望值
|
中國
|
美國
|
|
7
|
確診數
|
83680.6
|
2354982.418
|
|
8
|
死亡數
|
4349.42
|
122403.582
|
|
9
|
p 值 = 6.67563E-06
|
圖四、卡方獨立性檢定。
舉例來說,儲存格 B7 的計算
= D2* B4 / D4,儲存格 B8 的計算 = D3* B4 / D4,儲存格 C7 的計算 = D2* C4 / D4,儲存格 C8 的計算 = D3* C4 / D4。接著利用 CHITEST 函式計算獨立性檢定之 p 值;本例使用的 Excel 函式語法為 = CHITEST(B2:D3, B7:D8),獲得結果 p 值 = 6.67563E-06。由於 p 值小於設定的顯著水準 0.05,拒絕虛無假設,兩國死亡率有統計上的顯著差異。
最後,還是要說這只是快速的方法,要正確嚴謹的統計,還是要用正統的統計方式再跑一次。