
Sistem AI yang dilatih dengan RLHF secara sistematis diberi penghargaan atas hasil yang memperoleh skor tinggi berdasarkan preferensi manusia rata-rata — yang secara matematis mendorongnya menuju kreativitas yang biasa-biasa saja. Makalah ini mendefinisikan Perangkap B+, mengidentifikasi RLHF sebagai mekanisme struktural, dan mengusulkan kerangka kerja Rebel AI yang dibangun berdasarkan pencarian keunikan, agen adversarial yang divergen, dan umpan balik metakognitif.