U19 集中趨勢的量度 (I) 必考公式
集中趨勢的量度用於描述一組數據的中心位置。本課題主要學習三種最常用的量度:算術平均數、中位數和眾數。理解它們的定義、計算方法及應用場景是 DSE 考試的基礎。
1 算術平均數 (Arithmetic Mean)
定義與公式
算術平均數(簡稱平均數)是所有數據值的總和除以數據的個數。設有 $n$ 個數據值:$x_1, x_2, x_3, \dots, x_n$,其算術平均數 $\bar{x}$ 的計算公式為:
$$ \bar{x} = \frac{x_1 + x_2 + x_3 + \dots + x_n}{n} = \frac{\sum_{i=1}^{n} x_i}{n} $$
其中 $\sum$ 是求和符號。平均數考慮了數據集中的每一個數值,對極端值(離群值)非常敏感。
2 中位數 (Median)
定義與求法
中位數是將一組數據按大小順序排列後,位於正中間的數值。它不受極端值的影響,更能反映數據的「典型」中間位置。
計算步驟:
- 將所有數據由小至大排列。
- 若數據個數 $n$ 為奇數,則中位數是第 $\frac{n+1}{2}$ 個數據。
- 若數據個數 $n$ 為偶數,則中位數是第 $\frac{n}{2}$ 個和第 $(\frac{n}{2}+1)$ 個數據的平均數。
$$ \text{中位數} = \begin{cases} x_{(\frac{n+1}{2})}, & \text{if $n$ is odd} \\ \frac{1}{2} \left( x_{(\frac{n}{2})} + x_{(\frac{n}{2}+1)} \right), & \text{if $n$ is even} \end{cases} $$
3 眾數 (Mode)
定義與特性
眾數是一組數據中出現次數最多的數值。一組數據可以沒有眾數,也可以有一個或多個眾數。眾數適用於類別數據,也適用於數值數據。
要點:
- 眾數是唯一可以用於非數值數據(如顏色、品牌)的集中趨勢量度。
- 它不受極端值影響。
- 若所有數值出現的次數相同,則該組數據沒有眾數。
$$ \text{眾數} = \text{出現頻率最高的數據值} $$
4 比較與應用
如何選擇合適的量度?
選擇哪一種集中趨勢量度,取決於數據的分佈和你的分析目的。
| 量度 | 優點 | 缺點 | 適用情況 |
|---|---|---|---|
| 算術平均數 | 考慮所有數據,最為常用,易於進行代數運算。 | 受極端值影響大。 | 數據分佈大致對稱,沒有極端值。 |
| 中位數 | 不受極端值影響,穩健性高。 | 不考慮所有數據的具體數值。 | 數據分佈偏斜,或存在極端值。 |
| 眾數 | 不受極端值影響,可用於類別數據。 | 可能不存在或多於一個,代表性可能不足。 | 找出最常見的類別或數值。 |
例子:一組數據為 $3, 5, 7, 7, 20$。
- 平均數 $\bar{x} = \frac{3+5+7+7+20}{5} = 8.4$,受極端值 $20$ 影響而被拉高。
- 中位數:排列後為 $3, 5, 7, 7, 20$,中間位置是第 $3$ 個數,即 $7$。
- 眾數:出現次數最多的數是 $7$。
在這個例子中,中位數和眾數 $7$ 比平均數 $8.4$ 更能代表這組數據的「中心」。