中華民國泌尿腫瘤關懷協會祕書長
童綜合泌尿外科 呂謹亨 醫師
<<用腦幹寫論文系列>> 小技巧篇: 如何用Excel 進行卡方檢定? (以新冠肺炎死亡率為例)
相信在醫院工作的醫護人員,大學都有學過統計相關課程,但進入醫院後,一來是過去學過的東西大多還給教授們了XD,二來在每日繁重的臨床工作下,大腦僅存可以思考的細胞早就被榨乾殆盡。當有時間做研究時,早就沒有多餘的腦容量可以運作了。因此,如何用剩下的 “腦幹” 寫論文,就是非常重要的技巧XD。其實真的硬要生出論文不難,就難在時間的分配與意志力。況且除非真的對研究很有興趣,許多人的一生目標,大概就是生出一篇符合醫院要求,有SCI分數的論文就好。本系列: <<用腦幹寫論文系列>>,就是在幫助大家,如何用好好規劃,適時加一些小技巧,用剩餘的腦幹,有效的拚出一篇文章!
本篇主要的目的是示範如何用簡單的 Excel 進行卡方檢定,協助資料分析。
本系列的風格就是直接切入重點~
本技巧好處:
1. 快速初步找出P值有統計顯著意義的資料。
2. 邊蒐集資料,邊檢視我們蒐集的方向是否正確
要拚出一篇文章,最簡單的就是找出資料中有意義的P值,才能延伸發揮出有意義的論點。(雖然越來越多學者指出,光看P值其實越來越失真,可參考 https://reurl.cc/X6YMLj #蘇一峰 醫師所寫:
從NEJM的重大聲明來看,P值真的失去價值了嗎?)
利用此方法,一來可以不需要複雜的軟體及設備,初步快速找出有意義的P值,二來,我們可以邊蒐集資料,邊檢視我們蒐集的方向是否正確,避免在資料海中迷失徬徨。(雖然這種方式不是很符合正統的研究態度XD)
在台北榮總時,老師就常說,一個成熟的手術方式,就是簡單易懂好上手,可重複性高。大道至簡,統計學有個說法,真的有意義的統計分析,用最簡單的卡方、T test、...就可以看出來了,如果真的要動用越高深的統計,通常也表示並不是那麼有顯著的意義,常常是用統計方法做出來的。
最實際的,當然,越和善簡單的方法,降低了論文寫作者的阻力及增加寫作的動力及成就感!
以下,就直接講方法:
(一)、卡方適合度檢定 (較不常使用)
設COVID-19肺炎死亡率20%,存活率為 80%,某小島有 500 位民眾。全部感染,結果有 375位死亡。我們欲測驗實際的試驗結果是否與目前20%死亡率相符合。
圖一、計算期望值。
圖二、可直接計算卡方檢定的 p 值。
卡方分析的函式語法為:
=CHITEST (輸入實測值範圍, 輸入期望值範圍)
=CHITEST (B2:B3,C2:C3)
本例所得 p 值小於設定的顯著水準 0.05,故拒絕虛無假設,推斷某小島之病毒感染存活率不符合 80%。
使用 p-value 進行決策之外,也可以計算卡方統計量值(如圖三 E 欄第 2 至 4 列),配合使用 CHIINV 函式求得卡方分布的臨界值,若卡方統計量值大於卡方分布的臨界值,則拒絕虛無假設。
卡方分布的臨界值函式語法為:
CHIINV (顯著水準,自由度)
本例為 CHIINV (0.05,1) = 3.8415
圖三、計算卡方值。
由於本例卡方統計量值為 7.8125,大於臨界值 3.8415,因此拒絕虛無假設,推斷某小島之病毒感染存活率不符合 80%
(二)、卡方獨立性檢定(先計算期望值,再用CHITEST 函式計算獨立性檢定之 p 值)è此方法較常用!
下表是2020年6月24日全球死亡率。
項次 |
國家/地區 |
確診人數 |
死亡人數 |
死亡率 |
1 |
比利時 |
60,550 |
9,696 |
16.01% |
2 |
法國 |
196,724 |
29,636 |
15.06% |
3 |
義大利 |
238,720 |
34,657 |
14.52% |
4 |
英國 |
305,289 |
42,647 |
13.97% |
5 |
匈牙利 |
4,102 |
572 |
13.94% |
6 |
荷蘭 |
49,658 |
6,090 |
12.26% |
7 |
墨西哥 |
185,122 |
22,584 |
12.20% |
8 |
西班牙 |
246,504 |
28,324 |
11.49% |
9 |
瑞典 |
58,932 |
5,122 |
8.69% |
10 |
厄瓜多 |
50,640 |
4,223 |
8.34% |
11 |
加拿大 |
101,637 |
8,436 |
8.30% |
12 |
阿爾及利亞 |
11,920 |
852 |
7.15% |
13 |
愛爾蘭 |
25,383 |
1,717 |
6.76% |
14 |
羅馬尼亞 |
24,291 |
1,523 |
6.27% |
15 |
蘇丹 |
8,698 |
533 |
6.13% |
16 |
希臘 |
3,287 |
190 |
5.78% |
17 |
中國 |
83,396 |
4,634 |
5.56% |
18 |
瑞士 |
31,292 |
1,680 |
5.37% |
19 |
印尼 |
46,845 |
2,500 |
5.34% |
20 |
日本 |
17,916 |
953 |
5.32% |
21 |
波蘭 |
32,310 |
1,680 |
5.20% |
22 |
美國 |
2,355,267 |
122,119 |
5.18% |
我們發現第17名與第22名的中國與美國死亡率分別是5.56%與5.18%,我們想知道是否有統計上的顯著差異。則可以用卡方檢定。先計算期望值:
|
A |
B |
C |
D |
1 |
實測值 |
中國 |
美國 |
總計 |
2 |
確診數 |
83396 |
2355267 |
2438663 |
3 |
死亡數 |
4634 |
122119 |
126753 |
4 |
總計 |
88030 |
2477386 |
2565416 |
5 |
|
|
|
|
6 |
期望值 |
中國 |
美國 |
|
7 |
確診數 |
83680.6 |
2354982.418 |
|
8 |
死亡數 |
4349.42 |
122403.582 |
|
9 |
p 值 = 6.67563E-06 |
圖四、卡方獨立性檢定。
舉例來說,儲存格 B7 的計算 = D2* B4 / D4,儲存格 B8 的計算 = D3* B4 / D4,儲存格 C7 的計算 = D2* C4 / D4,儲存格 C8 的計算 = D3* C4 / D4。接著利用 CHITEST 函式計算獨立性檢定之 p 值;本例使用的 Excel 函式語法為 = CHITEST(B2:D3, B7:D8),獲得結果 p 值 = 6.67563E-06。由於 p 值小於設定的顯著水準 0.05,拒絕虛無假設,兩國死亡率有統計上的顯著差異。
最後,還是要說這只是快速的方法,要正確嚴謹的統計,還是要用正統的統計方式再跑一次。
沒有留言:
張貼留言