生物統計名詞及其應用 --如何描述一群數據?
- 描述一群數據可以使用的方式包括:平均值(Mean)、中位數(median)、眾數(mode)、幾何平均數(geometric mean)
- 平均數(mean):
- 所有數據的算術平均、容易受到極端值的影響
- 適合離散型、連續行數據;不適合序位型、類別型數據(ex. 男女等等)
- 中位數(median):
- 所有資料排序後最中間的數、不易受極端值影響
- 適合離散型、連續行數據、序位型、類別型數據
- 眾數(mode):
- 出現最多次數的資料、適用任何資料型態
- 沒有計算上的數學意義
- 幾何平均數(geometric mean)
- 計算方式 :log x = 1/n * sigma(log x) OR
- 適用連續以及離散型資料,類別及序位資料不應該計算平均值
- 越接近左側的數值所佔的比例越重,可以用在實驗室中稀釋極端的值
- 資料偏態(skewness)與平均值(Mean)、中位數(median)、眾數(mode)的關係
- 可以藉由這三者的大小關係來看出資料分佈是屬於正偏態或負偏態
- 這三個資料沒有辦法看出資料的分佈趨勢
- 所以需要配合四分位差(interquarterial range)、全距、最大最小值、變異數(variance)、標準差(standard deviation)來描述資料分佈趨勢
- 全距(range) :資料的最大值與最小值的差
- 四分位數(quartile):分別在資料排序的第25%、50%、75%的資料又分別稱Q1、Q2、Q3
- 四分位數的計算注意事項:把資料依大小排列如果總數是奇數 ex.9個身高資料,則 9 * 0.25 = 2.25 要取下一個整數 3 為Q1。如果總數是偶數ex. 8個身高資料 ,則8 * 0.25 = 2 要取此數字和下一個整數的平均值為Q1。以此類推
- 四分位距(intraquartile range, IQR):
- IQR : Q3 - Q1, 包含50%的觀察值,不易受極端值影響
- IQR 的應用:箱鬚圖(box and whisker plot)
- 中間的長方形叫做BOX,兩邊的兩條長線叫做whisker
- 這是一種以方形和線來表示資料分佈的方式。
- X large 稱為最大鄰近值(疑似離群值)= 1.5 * (Q3-Q1); X small = 1.5 * (Q2-Q1)。但是whisker的末端不一定是要這兩個直,可以依照需要改成最大或最小值
- 標準差(standard deviation)與變異數(variance)
- 變異數(variance)
- 就是一群資料裡面每個資料點和平均值(mean)的平均差值
- 所以用 Sigma (Xi - u) ^2 / N 會平方是因為全部都要取正值,計算上用平方會比絕對值好算。
- 但是變異數應為經過平方所以單位和原本單位不同因而閱讀上比較不方便,所以開耕號取得標準差
- 變異係數(coefficient of variance)
- 變異係數的存在是要比較兩組不同來源的資料的離散程度,例如兩台不同機器測出來的K濃度是否精密度相同或是我的實驗資料的散程度和別人paper的離散程度是相否同,為了組資料若來於不同或是單位不同,用變異數來比較離散程度是不恰當的。
- 實際的例子:用五人身高和體重來看哪一組資料離散程度較大,看本準差可能會以為身高似乎變異比較大,但是身高的測量數字值普遍比體重大。所以使用變異數來看發現其實跟身高的離散性其實比體重小
- CV = 標準差 / mean * 100%
- 只有在數種資料比較時才比較具有意義
- 其他統計上使用的群組統計方式:群組資料(Group data)、群組平均數(Group mean)、群組變異數(group variance)
- 這三個統計方式常常用在拿別人的paper的資料來做計算的時候使用,因為對方不會給我們原始資料,所以只能用paper裡面已經分好組的資料去推估對方樣本的平均數、變異數等等
- 群組資料(Group data)
- 當資料以次數型態出現的時候稱為群組資料
- 上圖subject 是各組編號,所以可以看出duration 11的有四組、5的有三組以此類推
- 群組平均數(Group mean)
- 用於無法取得實際資料時。
- 基本假設是每一組的每一個數相等於組中點,而資料的總平均等於每一組的組中點的加權平均(超級抽象的敘述)
- 這是一種蓋算法,只是推估而不能精確
- 算法:K = 組數
組中點:在80-119這組 = (80+119)/2 = 99.5; 該組總和 = 13 * 99.5,以此類推 - 群組變異數(group variance)
- 一樣是在無法取得實際資料時使用
- 假設:每個觀察值均相等時該組組中點,群組資料變異數是每組資料中點的加權變異數
- 靠近真實值但是卻不相同
- 算法:K = 組數
Group mean = 198.8; 分子=13*(198.8 - 99.5)^2 + …..以此類推 - 柴比雪夫不等式(Chebychev’s Inequality)
- 我們常常講的95%信賴區間,是建立在樣本是常態分佈的前提下。但是實際上樣本常常不是常態分佈,就無法使用。
- 柴比雪夫不等式適合任何分布的資料,特別是非對稱且非單峰時
- 基本原理 :對於任何一個K值(K >= 1),至少有1-(1/k)^2個觀察值分佈於mean+/-K個標準差的範圍內
- Ex. K = 2 時,至少有1-(1/2)^2 = 3/4(75%)的觀察值分佈於 mean +/- 2 SD(標準差)的範圍內,如果K = 3 則有88.9%
- 相較於常態分佈兩個標準差就有95%的觀察值在範圍內,柴比雪夫相對非常保守
- 表示法:mean +/- K*SD OR (mean - K* SD, mean + K* SD)
- 範例:
- 生物統計常用的計量:比率(Rate)、比例(Ratio)、分率(proportion)
- 比率(Rate)
- 研究事件的發生數目除以人群的人口數
- 特性:分子必須包括在分母中,為相對的描述方式,如出生率等
- 比例(Ratio)
- 任何分子除以分母形式的計算
- 特性:分子不包含於分母中,分子與分母是獨立事件,如sex ratio
- 分率(proportion)
- 具有某些特性分類的人佔該特性人口數的百分比
- 公式:某特性其中一個分類的人數/所以該特性的人數
- 特性:分比包含於分母中,分子是分母的百分率,如原因別死亡率
- 實際使用上常常會接proportion與rate 誤用造成錯誤的結論:
假設若只看第一張圖,可以推論此地區的病人腸胃較不好,所以需要增加腸胃科醫師數量。但是若看第二張圖則可以發現其實心臟科病人反而比較容易發病。因為第一張圖所提供的是分率(proportion),分母是所有的門診病患人數,所以無法推論此地區病患的腸胃道疾病發生率。第二張圖的發生率是以社區中病人總數為分母,算出的發生率才是真實的發生率。
【食色性也】近日改名為【今天想要吃什麼? :: What's for Supper.】
也開了FB粉絲專頁唷~歡迎大家按讚~
網址:https://www.facebook.com/whatsforsupperyumyum
今後會更新部落格文章資訊,貪吃Joey、Wendy、Ivy也會不定期更新好吃好玩實用的資訊
文章標籤
全站熱搜
留言列表