解決獎勵函數漏洞

車品覺
May 17, 2023
2 min read

你曾經有養狗的經驗嗎？姑勿論主人對狗狗期望高低，訓練寵物時都少不免要給予獎勵。最常見的把戲，莫過於主人向狗狗發出一個指令（狀態），例如「坐下」（Sit），牠會根據指令，做出坐下的行動（Action），在狗狗正確地執行了指令後，主人會給予獎勵（Reward）。通過不斷地重複發出指令、成功執行行動和給予獎勵的行為，狗狗會獲得更多的累積獎勵（包括快樂）並完成訓練任務。以上是正向強化學習的簡單原理，強化學習是人工智能（AI）的一個應用方式，例如在自動駕駛、聊天機械人等領域，這些智能應用通過與環境的交互，不斷地接受指令並從行動中學習，而「獎勵函數」正是用來評估智慧應用的行為模式與目標是否吻合，通過達成最大化獎勵來優化智能應用。可想而知，當獎勵策略是強化學習的關鍵，如果關注太單一的任務及目標，而沒考慮到在完成任務過程中的不合理情況（例如作弊或意外），讓獎勵變得不合理。我們把這種情況稱之為「獎勵函數漏洞」（Reward Hacking），這漏洞最終會影響機器學習和人工智能應用的可靠性和安全性。讓我舉一個活生生的例子，在學校裏學生的表現，往往是通過考試成績來評核的。如果學生在考試奪得高分，就容易得到老師讚許，甚至可以獲得獎學金。不過，倘若過度「獎勵」學生的考試成績，而不關注學生的實際學習情況和能力，那麼學生可能會傾向死記硬背來考取高分，最終獲得獎勵，但實際上可能未必真正掌握到應用知識和技能。因此，執教者需要因應學生的學習情況和能力，設計更加多樣化的獎勵方式來鼓勵學生，這可能包括更多的實踐、項目研習和體驗，嘗試從多方位角度評估，以確保學生正確被激勵解決「獎勵函數漏洞」方法之一，是增強獎勵函數的魯棒性（Robustness），使其能夠更好地抵禦異常及危險意外情況，盡可能地避免漏洞的出現。然而，有時「人算不如天算」，且說在學校使用ChatGPT做作業，就已經造成獎勵漏洞。世界各地大學對此持着不同意見，可見現實生活中的「加強學習」更比想像中為複雜。