注意:此文章由AI生成
一個知道很多,卻幫不上忙的 AI?
一個剛訓練好的 AI,就像一個讀完了整座圖書館的學生。它知道海量的知識,但如果你問它問題,它的回答可能正確卻雜亂無章、辭不達意。這是因為它天生並不知道如何「好好說話」。RLHF (人類回饋增強學習) 就是一套教 AI 如何有效溝通的「特訓課程」,它的目的不是教新知識,而是塑造 AI 的行為,讓它學會如何運用已有的知識來提供真正有幫助的回答。
養成計畫:三步驟流程
這個特訓課程分為三個核心階段,環環相扣,系統性地將一個原始的 AI 轉變為樂於助人的夥伴。點擊下方的卡片,可以快速跳轉至該步驟的詳細說明。
第一步:模仿範本學習 (SFT)
此階段的目標是讓 AI 學習高品質回答的基本格式與風格。我們提供給 AI 的是一本「教科書」,裡面充滿了人類專家寫好的完美問答範例。
互動體驗:點擊問題查看理想答案
問題:向一個十歲小孩解釋什麼是光合作用。
點我查看範例答案
理想答案:
想像一下,植物就像一個很會做菜的小廚師!它需要三種食材:陽光(來自太陽的能量)、水(從根部吸收)和一種叫做二氧化碳的空氣。植物用葉子把這些食材混合在一起,就變出了它自己的食物(糖),同時還會呼出一種我們需要呼吸的氣體,叫做氧氣!這整個神奇的做飯過程,就叫做光合作用。
互動體驗:哪個答案比較好?
問題:規劃一個為期三天的台北家庭旅遊。
答案 A
第一天:故宮。第二天:陽明山。第三天:台北101。
答案 B
Day 1: 上午去動物園看可愛的動物,下午搭貓空纜車。Day 2: 去兒童新樂園玩一整天!Day 3: 參觀天文館,晚上去饒河夜市吃小吃。
第二步:建立「評審 AI」 (RM)
我們不可能為所有問題都準備好範本。所以,這一步是訓練一個獨立的「評審 AI」,它的任務是學習人類的偏好,學會判斷答案的品質。
第三步:練習、回饋與進步 (RL)
這是最後的實戰演練。主 AI 開始大量回答新問題,而「評審 AI」會為它的每個答案即時打分。主 AI 的目標,就是學會如何生成能獲得最高分的答案。
視覺化:AI 的進步曲線
觀察 AI 在訓練中,「品質分數」如何隨著練習次數增加而提升。
這個「生成-評分-更新」的循環會重複數百萬次,AI 在這個過程中不斷優化自己的回答策略。
核心設計理念
比較,而非評分
RLHF 的一個核心洞見是:讓人們判斷「A 和 B 哪個更好」遠比「請給 A 打一個 0-100 的分數」來得更可靠。這種基於比較的簡單選擇,可以收集到更乾淨、更一致的人類偏好數據,從而訓練出更準確的「評審 AI」。
人類價值觀的放大器
整個 RLHF 系統就像一個「價值觀放大器」。它並不是在創造新知識,而是在一個龐大的知識庫中,將訓練者(人類標註員)認為「好」的特質(如有幫助、誠實、無害)進行放大。這也意味著,如果標註員群體存在偏見,AI 也會學習並放大這些偏見。