首圖

為了讓人工智慧更具透明度,並且減少一本正經胡說八道的情況,OpenAI說明正在開發一種全新的訓練框架,被團隊稱為「懺悔」 (Confession)機制,其核心概念在於訓練AI模型主動承認自己何時表現出不良行為,即便該行為本身是錯誤的,只要「誠實招認」,就能獲得獎勵。 解決AI「阿諛奉承」與過度自信的幻覺 OpenAI指出,目前大型語言模型 (LLM) 通常被訓練為產出「看......