這是在機器學習中用來衡量模型好壞最核心的概念之一. 理解 Bias (偏差) 與 Variance (變異) 之間的「權衡」(Trade-off), 是所有模型調校 (Tuning) 的基礎. 同時擁有「零偏差」和「零變異」這可是機器學習的聖杯.
簡單來說:
- Bias (偏差): 指的是模型的「準確度」或「偏見」。
- 高 Bias (High Bias):模型太過簡化,做了錯誤的假設,導致無法捕捉到資料中真正的規律。這就是「擬合不足 (Underfitting)」。
- Variance (變異): 指的是模型的「穩定度」或「敏感度」。
- 高 Variance (High Variance):模型太過複雜,對訓練資料中的「雜訊 (noise)」過度敏感,導致模型在不同資料集上變動很大。這就是「過度擬合 (Overfitting)」。
靶心圖解 (最經典的譬喻)
想像一下,我們的目標(靶心)是資料的「真實規律」,而模型的每次預測就像是射出的一支箭。
- 低偏差 (Low Bias) / 低變異 (Low Variance) – 【理想模型】
- 譬喻: 箭全都緊密地射中靶心。
- 解說: 模型既準確(射中靶心)又穩定(每次都射在同一個點)。
- 高偏差 (High Bias) / 低變異 (Low Variance) – 【擬合不足】
- 譬喻: 箭全都緊密地射在一起,但偏離了靶心。
- 解說: 模型非常「穩定」且「固執」(低變異),但它的假設是錯的,所以系統性地射偏了(高偏差)。例如,資料明明是彎曲的,你卻硬要用一條直線去擬合。
- 低偏差 (Low Bias) / 高變異 (High Variance) – 【過度擬合】
- 譬喻: 箭射得很分散,但平均來看是圍繞著靶心的。
- 解說: 模型非常「敏感」且「不穩定」(高變異),它試圖去適應訓練資料中的每一個點(包括雜訊)。這導致它在訓練資料上表現很好(低偏差),但只要資料稍微變動(例如換成測試資料),它的預測結果就會天差地遠。
- 高偏差 (High Bias) / 高變異 (High Variance) – 【最差模型】
- 譬喻: 箭射得到處都是,而且還偏離靶心。
- 解說: 模型既不準確也不穩定。
深入解說
什麼是偏差 (Bias)? (擬合不足 Underfitting)
- 來源: 來自於模型**「錯誤的假設」**。
- 症狀:
- 模型過於簡化(例如,試圖用線性迴歸去預測複雜的股市)。
- 模型無法捕捉資料的真實趨勢。
- 結果: 在訓練集 (Training Set) 上的錯誤率就已經很高,在測試集 (Test Set) 上的錯誤率當然也很高。
- 如何修正高偏差 (Underfitting)?
- 增加模型複雜度:例如,從線性模型換成多項式模型,或使用更深的神經網路。
- 增加更多特徵:讓模型有更多資訊可以學習。
🎲 什麼是變異 (Variance)? (過度擬合 Overfitting)
- 來源: 來自於模型**「對訓練資料過度敏感」**。
- 症狀:
- 模型過於複雜(例如,用一個 10 次方的多項式去擬合只有 10 個點的資料)。
- 模型不僅學習到資料的「規律 (Signal)」,連「雜訊 (Noise)」也一起學進去了。
- 結果: 在訓練集上的錯誤率極低,但在測試集上的錯誤率非常高。這代表模型的「泛化能力 (Generalization)」很差。
- 如何修正高變異 (Overfitting)?
- 增加訓練資料量:(最有效的方法) 讓模型看過更多樣的資料,學會分辨什麼是規律、什麼是雜訊。
- 降低模型複雜度:例如,減少神經網路的層數、修剪決策樹。
- 使用正規化 (Regularization):例如 L1, L2,目的是在訓練過程中「懲罰」過於複雜的模型(即過大的權重),強迫模型變得更平滑、更簡單。
核心概念:偏差-變異的權衡 (The Bias-Variance Trade-off)
這是機器學習的聖杯。你無法同時擁有「零偏差」和「零變異」(除了在最理想的狀況下)。
- 簡單模型 (例如線性迴歸):通常具有高偏差、低變異。
- 複雜模型 (例如深度神經網路、複雜的決策樹):通常具有低偏差、高變異。
模型的總錯誤 (Total Error) $\approx$ 偏差$^2$ + 變異 + 不可避免的錯誤 (雜訊)
- 當你增加模型複雜度時:
- Bias 會下降(模型更貼近訓練資料)。
- Variance 會上升(模型開始學習到雜訊)。
- 我們的目標: 找到那個 U 型「總錯誤」曲線的最低點。這就是 Bias 和 Variance 達到最佳平衡的「黃金交叉點」,此時模型在測試集上的表現最好。
總結
| 特性 | 高偏差 (High Bias) | 高變異 (High Variance) |
| 別名 | 擬合不足 (Underfitting) | 過度擬合 (Overfitting) |
| 模型複雜度 | 太簡單 | 太複雜 |
| 訓練集錯誤 | 高 | 低 |
| 測試集錯誤 | 高 | 高 (與訓練集差距大) |
| 問題 | 沒學到規律 | 學到了雜訊 |
| 主要解法 | 增加模型複雜度、增加特徵 | 增加資料量、降低模型複雜度、正規化 (Regularization) |
