什麼是強化學習（Reinforcement Learning）

什麼是強化學習

強化學習（Reinforcement Learning, RL）定義了機器是如何在不有正確答案的情況下進行學習，與以往機器學習中的督導式學習，以及非督導式學習有所不同，強化學習有著代理也稱智能體，靠著與環境的互動來獲得反饋，在經過這個反覆的反饋來逐漸找到最佳方法，

強化學習與傳統的監督式學習(Supervised Learning) 和非監督式學習（Unsupervised Learning） 不同，它不依賴於明確的正確答案或大量標記資料。

強化學習的基礎框架為一個 代理（Agent） 會在一個環境（Environment） 中持續進行行動，並根據這些行動獲得來自環境的回饋，也就是所謂的獎勵（Reward）。透過這種與環境互動的方式，代理會逐步學會哪些行為策略能帶來最大的累積回饋，進而找到解決任務的最佳方法。

強化學習的核心在於「探索」與「長短期回饋」，代理並非一次就知道正確的行動，而是在不斷探索與學習中調整其行為策略。