r036_logo
數學
2025-03-19

統計學

前敘

筆記內容著重於,電腦科學與人工智慧領域所應用的數學,目的為快速導讀重點脈絡及公式,類似於直式的心智圖,有助於構思規劃學習路線,或是直接查找應用。


目錄

筆記目前整理部分

  • 微積分
    (研究連續變化、累積與極限現象的數學,應用於函數分析、優化與動態系統建模)

  • 線性代數
    (研究向量、矩陣與線性變換的結構與操作,為機器學習與深度學習的核心基礎)

  • 離散數學(廣義邏輯學)
    (研究離散結構與邏輯基礎,包含集合論、圖論、布林代數等,支撐演算法設計與計算理論)

  • 統計學
    (研究資料分佈、推論與估計,是資料分析與機器學習模型評估的重要工具)

  • 幾何學
    (研究形狀、空間關係與度量,在電腦視覺、圖形學與機器人定位中應用廣泛)

  • 數學分析
    (研究極限、收斂性與嚴格定義的連續性,是微積分的理論基礎並延伸至泛函分析)

  • 機率論
    (研究隨機事件與不確定性,為貝葉斯推論、馬可夫過程及強化學習等提供理論支撐)


Z-Score Scaling

是一個統計學方法,衡量資料離平均值有多少差距方式,如果原始資料接近常態分佈(standard deviations),大部分 z-score 值會落在 [4,+4][-4, +4] 區間內,均值為 0、標準差為 1。 z=xμσz = \frac{x - \mu}{\sigma} 其中:

  • xx:原始資料點

  • μ\mu:平均值

  • σ\sigma:標準差

一般來說,[2,+2][-2, +2] 區間以外可以視為極端值

連續資料的平均值(μ\mu

μ=1ni=1nxi\mu = \frac{1}{n} \sum_{i=1}^{n} x_i

標準差(σ\sigma

標準差是用來衡量一組數據「離平均值有多分散」的一個數值,愈大表示越分散。

σ=1n1i=1n(xiμ)2\sigma = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \mu)^2}
  • xix_i:第 ii 個數據點

  • μ\mu:平均值(mean)

  • NN:資料點個數

  • σ\sigma:標準差

中位數(Median)

描述:

  • 中位數是資料排序後的中間值。
  • 在資料偏態或有極端值時,比平均數更穩健。
  • 有 50% 的資料小於等於中位數,50% 大於等於中位數。

四分位數(Quartiles)

描述:

  • 四分位數將資料分為四等份。
  • 常見的三個分界點為:
    • 第一四分位數 Q1Q_1:第 25 百分位
    • 第二四分位數 Q2Q_2:第 50 百分位 = 中位數
    • 第三四分位數 Q3Q_3:第 75 百分位
  • 四分位距(Interquartile Range, IQR) 定義如下:
IQR=Q3Q1\text{IQR} = Q_3 - Q_1
  • 四分位法常用於判斷離群值(如下):
    • 離群值定義為低於 Q11.5IQRQ_1 - 1.5 \cdot \text{IQR} 或高於 Q3+1.5IQRQ_3 + 1.5 \cdot \text{IQR}

常態分佈(Normal Distribution)

描述:

  • 常態分佈是一種對稱的鐘形曲線,具有以下特性:
    • μ=mean=median=mode\mu = \text{mean} = \text{median} = \text{mode}
    • 大多數資料集中在平均值附近

經驗法則(Empirical Rule):

  • 約 68% 的資料位於區間 μ±σ\mu \pm \sigma
  • 約 95% 的資料位於區間 μ±2σ\mu \pm 2\sigma
  • 約 99.7% 的資料位於區間 μ±3σ\mu \pm 3\sigma

普通平均數(Arithmetic Mean):

普通平均數是將所有數字加總後除以數字的個數,每個數字在計算中權重相同

x1+x2++xnn\frac{x_1 + x_2 + \cdots + x_n}{n}
  • x1,x2,,xnx_1, x_2, \dots, x_n:數據集中的所有數字
  • nn:數據集中的數字個數

母體平均數(population mean)

連續累加x向量矩陣的平均數

μ=1Ni=1Nxi \mu = \frac{1}{N} \sum_{i=1}^N x_i

加權平均數(Weighted Average)

加權平均數考慮了每個數字的權重,權重越大的數字對最終結果的影響越大。這在你計算像是降雨量這類需要依據距離或其他因素進行加權的情況中很有用。

公式:

R1×W1+R2×W2++Rn×WnW1+W2++Wn\frac{R_1 \times W_1 + R_2 \times W_2 + \cdots + R_n \times W_n}{W_1 + W_2 + \cdots + W_n}
  • R1,R2,,RnR_1, R_2, \dots, R_n:每個數據(如降雨量)
  • W1,W2,,WnW_1, W_2, \dots, W_n:每個數據的權重(例如距離的倒數)
  • W1+W2++WnW_1 + W_2 + \cdots + W_n:所有權重的總和

概念: 加權平均數根據每個數據的權重來計算,距離或其他因素的影響會使得較近的數字(或影響較大的數字)對最終結果有更大的貢獻。

標準差

標準差是用來量測「資料的分散程度」的一種統計指標。

  • 如果標準差很小 → 資料集中在平均值附近

  • 如果標準差很大 → 資料分散很廣


對一組 nn 筆資料 x1,x2,...,xnx_1, x_2, ..., x_n

  1. 先計算平均值(mean):
μ=1ni=1nxi\mu = \frac{1}{n} \sum_{i=1}^{n} x_i
  1. 計算標準差(Standard Deviation):
σ=1n1i=1n(xiμ)2\sigma = \sqrt{\frac{1}{n - 1} \sum_{i=1}^{n} (x_i - \mu)^2}

計算步驟範例

以資料 [10,12,23,23,16,23,21,16][10, 12, 23, 23, 16, 23, 21, 16] 為例:

  1. 平均值(10+12+23+23+16+23+21+16)/8=18(10 + 12 + 23 + 23 + 16 + 23 + 21 + 16) / 8 = 18

  2. 偏差平方和

    (1018)2+(1218)2++(1618)2=192(10-18)^2 + (12-18)^2 + \cdots + (16-18)^2 = 192
  3. 除以 n1n-1192/727.43192 / 7 ≈ 27.43

  4. 開根號27.435.24\sqrt{27.43} ≈ 5.24

標準差約為 5.24