U11 統計圖表 (I) 必考公式
本課題涵蓋 DSE 數學必修部分中,用於展示數據分佈的基礎統計圖表,包括幹葉圖、框線圖及散點圖。理解這些圖表的製作、解讀及比較方法是關鍵。
1 幹葉圖 (Stem-and-leaf Diagram)
結構與製作
幹葉圖將數據分為「幹」(通常為十位數)和「葉」(通常為個位數)。每個數據點 $x_i$ 可表示為 $x_i = 10 \times \text{stem} + \text{leaf}$。例如,數據點 45 的幹為 4,葉為 5。圖表必須包含圖例,例如「$4|5$ 代表 45」。
優點:保留所有原始數據,能直接看出數據分佈形狀。缺點:不適合處理大量數據。
2 框線圖 (Box-and-whisker Diagram)
五數概括法
框線圖由五個關鍵數值(五數概括)繪製而成,用於展示數據的分佈、離散程度及識別離群值。首先將數據由小至大排列:$x_{(1)} \le x_{(2)} \le ... \le x_{(n)}$。
$$ \text{最小值},\, Q_1,\, \text{中位數},\, Q_3,\, \text{最大值} $$
其中 $Q_1$ 為下四分位數(第 25 個百分位數),$Q_3$ 為上四分位數(第 75 個百分位數)。四分位數間距 $IQR = Q_3 - Q_1$。
離群值判定
一個數據點 $x$ 被視為離群值(極端值),若它滿足以下條件:
$$ x < Q_1 - 1.5 \times IQR \quad \text{或} \quad x > Q_3 + 1.5 \times IQR $$
在框線圖中,鬚的長度通常只延伸到非離群值的最小值和最大值,離群值會以獨立點(如 $\bullet$ 或 $\times$)標示。
3 散點圖與相關性 (Scatter Diagram & Correlation)
散點圖解讀
散點圖用於展示兩個變量 $x$ 和 $y$ 之間的關係。點的分布模式揭示了相關性的方向和強度。
相關性分為:正相關($x$ 增加時 $y$ 傾向增加)、負相關($x$ 增加時 $y$ 傾向減少)和零相關(無明顯模式)。強度則分為強、中、弱。
相關系數 $r$
皮爾遜積差相關系數 $r$ 量化了兩個變量之間線性關係的強度和方向。其計算公式為:
$$ r = \frac{\sum (x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum (x_i - \bar{x})^2 \sum (y_i - \bar{y})^2}} $$
其中 $\bar{x}$ 和 $\bar{y}$ 分別是 $x$ 和 $y$ 的算術平均數。$r$ 的值域為 $-1 \le r \le 1$。
- $r > 0$:正相關;$r < 0$:負相關;$r \approx 0$:零相關。
- $|r|$ 越接近 1,線性關係越強;$|r|$ 越接近 0,線性關係越弱。
- 重要:$r$ 只度量線性關係。即使 $r=0$,變量間仍可能存在非線性關係。