生物統計名詞及其應用 --如何描述一群數據?
- 描述一群數據可以使用的方式包括:平均值(Mean)、中位數(median)、眾數(mode)、幾何平均數(geometric mean)
- 平均數(mean):
- 所有數據的算術平均、容易受到極端值的影響
- 適合離散型、連續行數據;不適合序位型、類別型數據(ex. 男女等等)
- 中位數(median):
- 所有資料排序後最中間的數、不易受極端值影響
- 適合離散型、連續行數據、序位型、類別型數據
- 眾數(mode):
- 出現最多次數的資料、適用任何資料型態
- 沒有計算上的數學意義
- 幾何平均數(geometric mean)
- 計算方式 :log x = 1/n * sigma(log x) OR
- 適用連續以及離散型資料,類別及序位資料不應該計算平均值
- 越接近左側的數值所佔的比例越重,可以用在實驗室中稀釋極端的值
- 資料偏態(skewness)與平均值(Mean)、中位數(median)、眾數(mode)的關係
- 可以藉由這三者的大小關係來看出資料分佈是屬於正偏態或負偏態
- 這三個資料沒有辦法看出資料的分佈趨勢
- 所以需要配合四分位差(interquarterial range)、全距、最大最小值、變異數(variance)、標準差(standard deviation)來描述資料分佈趨勢
- 全距(range) :資料的最大值與最小值的差
- 四分位數(quartile):分別在資料排序的第25%、50%、75%的資料又分別稱Q1、Q2、Q3
- 四分位數的計算注意事項:把資料依大小排列如果總數是奇數 ex.9個身高資料,則 9 * 0.25 = 2.25 要取下一個整數 3 為Q1。如果總數是偶數ex. 8個身高資料 ,則8 * 0.25 = 2 要取此數字和下一個整數的平均值為Q1。以此類推
- 四分位距(intraquartile range, IQR):
- IQR : Q3 - Q1, 包含50%的觀察值,不易受極端值影響
- IQR 的應用:箱鬚圖(box and whisker plot)