r036_logo

模型品質評估,偏差(Bias)與變異(Variance)的影響性

前言

在機器學習訓練模型的期間,可以利用偏差(Bias)與變異(Variance)的概念,來了解當前模型的品質與狀況,以下將簡述偏差與變異的意思,並說明四個象限的狀況與應對辦法。

-36號系統

偏差(Bias)

表示模型中的函數有錯誤的假設和推理,可以經過多次的訓練和調整來使模型更靠近最佳結果。

前向傳播(Forward Propagation)

前向傳播階段中來解釋,意味著調整一個函數的bias ,使輸出結果更趨近最佳值。

變異(Variance)

表示模型對於資料的敏感程度,多訓練過度使模型產生過於苛刻的定義。

例子

以一個簡單的影像辨識例子來講述,當模型在訓練學習辨識狗的特徵時,會記住拆解狗不同部分的特徵值。但是當訓練過度時,以毛色紋路特徵來舉例,該模型可能會苛刻的判斷花紋需要完美的吻合,否則就不是該品種的狗。

四個象限

高變異,高偏差

一般代表模型缺乏訓練,或是模型難以理解問題,可能存在根本性的邏輯問題,以致無法正確的進行推理出合理的結果。

-36號系統

解決辦法:

  • 從新設計模型本身結構
  • 進行更多的訓練使模型學習到更多的特徵

高變異,低偏差

模型整體學到了資料的大致結構(偏差低),但是每次訓練的結果變化很大(變異高),模型的推理結果與目標相近,但是還存在一些不穩定性,處理過擬合(Overfitting)問題,增加泛化能力(High Variance)。

-36號系統

解決辦法:

  • 透過正則化(Regularization)來降低維度

低變異,低偏差

表示模型理想目標,既可以高準確的預測最佳值,也具有一定的泛化能力(High Variance)。

-36號系統

低變異,高偏差

模型預測結果穩定,但對於最佳目標還存在一定的偏離,表示可能存在欠擬合(Underfitting)問題,透過調整模型和加強訓練,使模型能夠更準確的找到最佳結果。

-36號系統

解決辦法:

  • 增加模型訓練次數與結構