登入
開始免費試用
選單
RLHF訓練的人工智慧系統會系統性地因產出符合人類平均偏好的輸出而獲得獎勵——這在數學上將其推向創造性平庸。本文定義了B+陷阱,將RLHF識別為結構性機制,並提出基於新穎性搜尋、對抗性分歧代理與元認知反饋的叛逆人工智慧框架。