top of page

解決獎勵函數漏洞

你曾經有養狗的經驗嗎?姑勿論主人對狗狗期望高低,訓練寵物時都少不免要給予獎勵。最常見的把戲,莫過於主人向狗狗發出一個指令(狀態),例如「坐下」(Sit),牠會根據指令,做出坐下的行動(Action),在狗狗正確地執行了指令後,主人會給予獎勵(Reward)。通過不斷地重複發出指令、成功執行行動和給予獎勵的行為,狗狗會獲得更多的累積獎勵(包括快樂)並完成訓練任務。 以上是正向強化學習的簡單原理,強化學習是人工智能(AI)的一個應用方式,例如在自動駕駛、聊天機械人等領域,這些智能應用通過與環境的交互,不斷地接受指令並從行動中學習,而「獎勵函數」正是用來評估智慧應用的行為模式與目標是否吻合,通過達成最大化獎勵來優化智能應用。 可想而知,當獎勵策略是強化學習的關鍵,如果關注太單一的任務及目標,而沒考慮到在完成任務過程中的不合理情況(例如作弊或意外),讓獎勵變得不合理。 我們把這種情況稱之為「獎勵函數漏洞」(Reward Hacking),這漏洞最終會影響機器學習和人工智能應用的可靠性和安全性。 讓我舉一個活生生的例子,在學校裏學生的表現,往往是通過考試成績來評核的。如果學生在考試奪得高分,就容易得到老師讚許,甚至可以獲得獎學金。 不過,倘若過度「獎勵」學生的考試成績,而不關注學生的實際學習情況和能力,那麼學生可能會傾向死記硬背來考取高分,最終獲得獎勵,但實際上可能未必真正掌握到應用知識和技能。因此,執教者需要因應學生的學習情況和能力,設計更加多樣化的獎勵方式來鼓勵學生,這可能包括更多的實踐、項目研習和體驗,嘗試從多方位角度評估,以確保學生正確被激勵 解決「獎勵函數漏洞」方法之一,是增強獎勵函數的魯棒性(Robustness),使其能夠更好地抵禦異常及危險意外情況,盡可能地避免漏洞的出現。然而,有時「人算不如天算」,且說在學校使用ChatGPT做作業,就已經造成獎勵漏洞。世界各地大學對此持着不同意見,可見現實生活中的「加強學習」更比想像中為複雜。

Recent Posts

See All
AI重新定義網安行業

如果你在5年前問我網絡安全行業會走向何方,我會告訴你一個穩定增長的答案;但到了今天,答案完全不同。這個行業正在經歷一場結構性的重塑─不是線性的擴張,而是多重力量的疊加爆發。 全球網絡安全市場在2026年已達2480億美元,預計2034年將增長到7000億美元,年複合增長率13.8%。然而,更有趣的是某顧問公司的另一個數字,人工智能(AI)正在把這個市場的總可及規模推高至2萬億美元。為什麼?因為網絡

 
 
AI引發全球工作大洗牌

人工智能(AI)正在以深刻且不可逆轉的方式重塑經濟,以美國為例,從勞動力市場崗位結構到企業競爭格局,從生產率增長到行業營運模式,AI的影響已開始滲透到經濟體的核心。AI創造新機會的同時,也在打破舊有秩序。 美國哈佛大學的一項研究,透過分析美國人口普查數據,建構了「職業流失率」這一獨特指標。研究發現,1990年至2017年間,美國勞動力市場經歷了非常穩定的低流失期,但從2019年開始,變革驟然而至,

 
 
歐洲AI開闢新路向

我之前在文章裏說過,人工智能(AI)競爭正在從技術參數之爭,轉向「數據管道、標準制定、規模落地」的全鏈條控制權之爭。最近歐洲的舉動,恰好印證這個判斷,也帶來一個有趣的問題:歐洲AI能否走出一條有別於中美的新道路? 德國上月啟動了「人工智能創新園」,總投資數十億歐羅,號稱歐洲迄今最完整的AI產業集群。布局的方向很明確:工業AI、智能製造、自動駕駛、智能物流、AI倫理與安全,全是「製造業+人工智能」的

 
 
bottom of page