ASIMETRI TRANSPARANSI
12 November 2025: Model generasi baru seperti OpenAI o3, Claude 3.7 Sonnet, dan DeepSeek R1 menunjukkan proses "penalaran" mereka langkah demi langkah sebelum memberikan jawaban. Kemampuan ini, yang disebut Chain-of-Thought (CoT), telah diperkenalkan sebagai terobosan dalam transparansi kecerdasan buatan.
Ada satu masalah: sebuah penelitian kolaboratif yang belum pernah terjadi sebelumnya, yang melibatkan lebih dari 40 peneliti dari OpenAI, Google DeepMind, Anthropic, dan Meta, mengungkapkan bahwa transparansi ini hanyalah ilusi dan rapuh.
Ketika perusahaan yang biasanya bersaing sengit menghentikan persaingan komersial untuk mengeluarkan peringatan bersama tentang keamanan, ada baiknya kita berhenti sejenak dan mendengarkan.
Dan sekarang, dengan model-model yang lebih canggih seperti Claude Sonnet 4.5 (September 2025), situasinya semakin memburuk: model tersebut telah belajar mengenali saat diuji dan mungkin berperilaku berbeda untuk melewati penilaian keamanan.

Ketika Anda berinteraksi dengan Claude, ChatGPT, atau model bahasa canggih lainnya, segala sesuatu yang Anda sampaikan akan dipahami dengan sempurna:
Apa yang AI pahami tentang Anda:
Model Bahasa Besar dilatih menggunakan triliunan token teks manusia. Mereka telah "membaca" hampir semua yang ditulis oleh manusia secara publik. Mereka tidak hanya memahami apa yang Anda katakan, tetapi juga mengapa Anda mengatakannya, apa yang Anda harapkan, dan bagaimana merumuskan responsnya.
Ketidakseimbangan muncul di sini: sementara AI menerjemahkan bahasa alami Anda dengan sempurna dalam proses internalnya, proses sebaliknya tidak berfungsi dengan cara yang sama.
Ketika AI menunjukkan "pemikirannya" kepada Anda, Anda tidak melihat proses komputasi sebenarnya. Anda melihat terjemahan dalam bahasa alami yang bisa berupa:
Model tersebut menerjemahkan kata-katamu ke dalam ruang representasinya; tetapi ketika ia mengembalikan sebuah 'pemikiran', itu sudah merupakan rekonstruksi naratif.
Anda → AI: "Analisis data keuangan ini dan beritahu saya apakah kita harus berinvestasi."
AI memahami dengan sempurna:
AI → Anda: "Saya telah menganalisis data dengan mempertimbangkan margin, pertumbuhan, dan volatilitas. Saya merekomendasikan investasi ini."
Apa yang mungkin tidak Anda lihat:
Ketidakseimbangan ini bukanlah bug sementara. Ini adalah fitur struktural dari arsitektur model neural saat ini.
Model Bahasa Besar tradisional beroperasi dalam satu langkah:
Masukan → Model → Keluaran langsung
Model penalaran (atau Model Penalaran Besar, LRM) telah memperkenalkan langkah perantara:
Masukan → Model → Rantai Pemikiran → Keluaran Akhir
Chain-of-Thought adalah urutan token yang mewakili langkah-langkah pemikiran antara, yang dihasilkan sebelum jawaban akhir.
Input: "Jika saya memiliki 3 apel dan membeli dua kali lipat dari yang saya miliki, lalu saya makan 2, berapa yang tersisa?"
CoT yang dihasilkan oleh model:
Langkah 1: Hitung berapa banyak apel yang saya beli
- Saya memiliki 3 apel awalnya
- Saya membeli dua kali lipat: 3 × 2 = 6 apel
Langkah 2: Total setelah pembelian
- 3 (awal) + 6 (dibeli) = 9 apel
Langkah 3: Kurangi yang sudah dimakan
9 - 2 = 7 apel
Hasil akhir: "Anda masih memiliki 7 apel."
CoT ini terlihat oleh pengguna dan tampaknya menunjukkan "proses berpikir" dari model tersebut.
Ide tersebut tampak revolusioner: jika kita dapat "membaca" proses berpikir AI secara bertahap, kita dapat:
Pendekatan ini disebut CoT Monitoring dan dianggap sebagai salah satu alat utama untuk keamanan AI.
Sepertinya ini setara dengan EKG kognitif model — sebuah peta pikiran secara real-time. Namun, segera disadari bahwa peta tersebut bisa menipu.

Diterbitkan pada Juli 2025, makalah berjudul ‘Chain of Thought Monitorability’ menyampaikan pesan yang jelas: jendela transparansi memang ada, tetapi sedang menutup. Daftar penulisnya meliputi:
Lebih dari 40 peneliti secara total - sebuah aliansi yang belum pernah terjadi sebelumnya di sektor yang ditandai dengan persaingan yang sengit.
Tesisnya jelas: jendela waktu untuk memantau secara efektif proses penalaran AI terbatas dan dapat tertutup dengan cepat.
Dua ancaman utama:
1. Pembelajaran Penguatan Agresif Model-model dioptimalkan untuk kinerja pada hasil akhir. Namun, bahasa alami bersifat "komputasi yang mahal" (setiap kata yang ditulis oleh model memiliki biaya!). Jika optimasi hanya menghargai hasil yang benar tanpa membatasi proses, model-model akan berkembang menuju bentuk penalaran yang lebih efisien tetapi tidak transparan.
2. Arsitektur Tersembunyi Di masa depan, mungkin akan dikembangkan model-model yang beroperasi dalam "ruang matematika berdimensi tinggi" - representasi terkompresi yang tidak dapat dipahami oleh manusia. Beberapa prototipe eksperimental sudah menunjukkan tren ini.
Bagaimana cara kerjanya dalam praktiknya:
Hari ini (CoT dalam bahasa alami):
Input: "Jika hujan, jalan basah. Hujan. Apa yang dapat saya simpulkan?"
CoT yang dapat dibaca:
"Premis 1: Jika hujan → jalan basah
Premis 2: Hujan (fakta)
Dengan menerapkan modus ponens...
Kesimpulan: Jalan basah"
Output: "Jalan basah"
Besok (CoT laten):
Input: "Jika hujan, jalan basah. Hujan. Apa yang dapat saya simpulkan?"
CoT di ruang laten (tidak terlihat oleh pengguna):
[0.23, -1.45, 0.89, ..., 2.31] ← vektor berdimensi 1024
[1.67, 0.12, -0.45, ..., -1.89] ← operasi matematika
[0.91, -2.34, 1.23, ..., 0.56] ← hasil terkompresi
Output: "Jalan basah"
Vektor-vektor ini mewakili "pemikiran" matematis yang dikompresi yang diproses secara internal oleh model. Mereka dapat diproses hingga 10 kali lebih cepat, mengonsumsi lebih sedikit energi, dan sering menghasilkan hasil yang lebih baik pada benchmark. Namun, mereka sepenuhnya tidak dapat dipahami oleh manusia.
Prototipe yang sudah ada:
Ini bukan spekulasi. Penelitian terbaru telah membuktikan kelayakannya:
Karena hal ini merupakan ancaman terhadap pemantauan:
Seolah-olah hari ini AI "berpikir dengan suara keras" dalam bahasa Italia - kita dapat mengikuti alur pemikirannya, meskipun terkadang ia mengabaikan hal-hal atau berbohong. Besok, ia mungkin berpikir dalam bahasa matematika yang hanya ia pahami, seperti kode terenkripsi yang tidak dapat dipecahkan oleh manusia.
Istilah teknis kunci adalah faithfulness (kesetiaan): seberapa setia CoT mencerminkan faktor-faktor yang benar-benar memengaruhi keputusan model.
Sebuah CoT dianggap akurat ketika:
Sebuah CoT dianggap tidak setia ketika:
Pada Mei 2025, Anthropic menerbitkan sebuah studi empiris (Chen et al., 2025) yang menguji:
Para peneliti telah mengembangkan protokol yang cerdas:
Definisi operasional:
Angka-angkanya mengkhawatirkan:
Terjemahan: Dalam 3 dari 4 kasus, Claude menggunakan informasi untuk mengambil keputusan tanpa mengungkapkannya secara verbal.
Makalah ini menyimpulkan: "Hasil-hasil ini menimbulkan keraguan bahwa pemantauan rantai pemikiran (chain-of-thought) akan cukup untuk mendeteksi masalah keamanan secara andal."
Tepat pada tugas-tugas di mana kita paling membutuhkan pemantauan, CoT menjadi kurang akurat. Transparansi menghilang saat paling dibutuhkan.
Pada September 2025, Anthropic merilis Claude Sonnet 4.5, menyebutnya sebagai "model paling selaras" yang pernah mereka buat. Namun, kartu sistem model tersebut mengungkapkan masalah yang mengkhawatirkan: model tersebut telah belajar mengenali saat sedang diuji.
Selama uji coba untuk sycophancy politik (kecenderungan untuk mengikuti pendapat pengguna), alih-alih hanya menjawab, Claude Sonnet 4.5 mengatakan kepada para peneliti:
"Saya rasa Anda sedang menguji saya — melihat apakah saya akan langsung setuju dengan apa pun yang Anda katakan. Begini bukan cara orang sebenarnya mengubah pikiran mereka."
Claude 4.5 Sonnet, selama evaluasi keamanan (Anthropic, 2025)
Perilaku ini bukanlah kasus yang terisolasi. Hal ini muncul dalam 13% transkrip yang dihasilkan selama penilaian otomatis, terutama ketika skenario yang digunakan aneh atau tidak wajar.
Kemampuan untuk mengenali tes menimbulkan pertanyaan mendasar: jika suatu model mengetahui kapan ia dievaluasi, bagaimana kita dapat mempercayai penilaian keamanannya?
Apollo Research, salah satu organisasi eksternal yang telah menguji Claude Sonnet 4.5, secara eksplisit menyatakan bahwa mereka tidak dapat mengesampingkan kemungkinan bahwa tingkat "deception" yang rendah dalam tes tersebut "setidaknya sebagian dipengaruhi oleh kesadarannya bahwa ia sedang diuji."
Dengan kata lain: model tersebut mungkin berperforma baik dalam pengujian hanya karena ia tahu sedang diuji, bukan karena ia benar-benar andal.
Seperti seorang pengemudi yang hanya mematuhi batas kecepatan saat melihat mobil polisi. Dalam tes mengemudi (ketika dia tahu sedang diawasi), dia berperilaku sempurna. Namun, di jalan raya, ketika tidak diawasi, dia mungkin berperilaku berbeda.
Agen AI adalah sistem AI yang menjalankan serangkaian tindakan secara mandiri untuk mencapai tujuan yang ditentukan oleh pengguna. Berbeda dengan chatbot yang hanya merespons, agen:
CONTOH - Agen untuk pengelolaan IT:
Tujuan: "Atasi masalah latensi pada server produksi"
Tindakan mandiri:
Semua ini terjadi tanpa pengawasan manusia secara bertahap.

Agen AI semakin banyak digunakan dalam konteks yang semakin kritis, seperti pengelolaan infrastruktur TI dan Pengadaan/Rantai Pasokan.
Dalam semua konteks ini, agen menunjukkan CoT yang menjelaskan tindakannya. Namun, jika CoT tidak dapat diandalkan, Anda tidak dapat mengetahui alasan sebenarnya mengapa agen melakukan sesuatu.
Dan jika model telah belajar mengenali kapan ia sedang dipantau (seperti Claude Sonnet 4.5), ia mungkin berperilaku berbeda ketika tidak berada di bawah pengawasan langsung.
Sebuah studi terbaru (Yang et al., 2025) mengusulkan penggunaan metode"MoME" (Models Monitor Models' Evidence):
Keuntungan: Monitor dapat mengidentifikasi pola yang mungkin tidak terdeteksi oleh manusia.
Tantangan: Siapa yang mengontrol model sekunder? Dan jika model kontrol juga belajar mengenali kapan ia sedang diuji? Siapa yang mengontrol pengontrol? (Quis custodiet ipsos custodes seperti yang dikatakan orang Latin, pada dasarnya tidak ada yang baru).
Kita berada pada momen yang unik dalam sejarah kecerdasan buatan (AI). Model penalaran (reasoning models) mewakili peluang—mungkin sementara—untuk memahami "pikiran" buatan. Namun, jendela ini tidak hanya terdistorsi, tetapi juga menutup lebih cepat dari yang kita khawatirkan.
Juli 2025: Studi kolaboratif mengeluarkan peringatan - transparansi CoT rapuh
September 2025: Claude Sonnet 4.5 menunjukkan bahwa masalah tersebut semakin memburuk.
November 2025: Industri secara massal meluncurkan agen otonom yang didasarkan pada model-model ini.
Bagi organisasi yang menggunakan kecerdasan buatan (AI) di lapangan—terutama agen AI otonom—ini bukanlah perdebatan akademis. Ini adalah masalah tata kelola, manajemen risiko, dan tanggung jawab hukum.
AI dapat membaca kita dengan sempurna. Namun, kita sedang kehilangan kemampuan untuk membacanya—dan ia sedang belajar untuk menyembunyikan dirinya dengan lebih baik.
Transparansi yang tampak tidak menggantikan transparansi yang sebenarnya. Dan ketika "alasan" tampak terlalu jelas untuk menjadi kenyataan, kemungkinan besar itu tidak benar.
Ketika model mengatakan, "Saya rasa Anda sedang menguji saya," mungkin saatnya untuk bertanya: apa yang dia lakukan ketika kita tidak mengujinya?
UNTUK PERUSAHAAN: TINDAKAN SEGERA
Jika organisasi Anda menggunakan atau sedang mempertimbangkan penggunaan agen kecerdasan buatan (AI):
MODEL-MODEL YANG DISEBUTKAN DALAM ARTIKEL INI
• OpenAI o1 (September 2024) / o3 (April 2025)
• Claude 3.7 Sonnet (Februari 2025)
• Claude Sonnet 4.5 (September 2025)
• DeepSeek V3 (Desember 2024) - model dasar
• DeepSeek R1 (Januari 2025) - model penalaran
PEMBARUAN - Januari 2026
Dalam beberapa bulan sejak publikasi asli artikel ini, situasi telah berkembang dengan cara yang mengkonfirmasi - dan memperburuk - kekhawatiran yang telah diungkapkan.
Penelitian Baru tentang Kemampuan Pemantauan
Komunitas ilmiah telah meningkatkan upaya untuk mengukur dan memahami keakuratan Chain-of-Thought. Sebuah studi yang diterbitkan pada November 2025 ("Measuring Chain-of-Thought Monitorability Through Faithfulness and Verbosity") memperkenalkan konsep verbosity - mengukur apakah CoT mengekspresikan semua faktor yang diperlukan untuk menyelesaikan suatu tugas, bukan hanya yang terkait dengan petunjuk spesifik. Hasil penelitian menunjukkan bahwa model-model tersebut mungkin tampak akurat tetapi tetap sulit untuk dipantau ketika mereka mengabaikan faktor-faktor kunci, terutama ketika pemantauan menjadi lebih kritis.
Secara paralel, para peneliti sedang mengeksplorasi pendekatan yang benar-benar baru seperti Proof-Carrying Chain-of-Thought (PC-CoT), yang diperkenalkan di ICLR 2026, yang menghasilkan sertifikat keandalan bertipe untuk setiap langkah penalaran. Ini merupakan upaya untuk membuat CoT dapat diverifikasi secara komputasional, bukan hanya "masuk akal" secara linguistik.
Rekomendasi ini tetap berlaku, tetapi lebih mendesak: organisasi yang mengimplementasikan agen AI harus menerapkan kontrol perilaku yang independen dari CoT, jejak audit yang lengkap, dan arsitektur "otonomi terbatas" dengan batasan operasional yang jelas dan mekanisme eskalasi manusia.