Ilusi Penalaran: Perdebatan yang Mengguncang Dunia AI

Newsletter

Ilusi Penalaran: Perdebatan yang Mengguncang Dunia AI

Apple menerbitkan dua makalah yang menghancurkan - 'GSM-Symbolic' (Oktober 2024) dan 'The Illusion of Thinking' (Juni 2025) - yang menunjukkan bagaimana LLM gagal pada variasi kecil dari masalah klasik (Menara Hanoi, penyeberangan sungai): 'kinerja menurun ketika hanya nilai numerik yang diubah'. Tidak ada keberhasilan pada Menara Hanoi yang kompleks. Namun Alex Lawsen (Open Philanthropy) membalas dengan "The Illusion of Thinking" yang menunjukkan metodologi yang gagal: kegagalannya adalah batas keluaran token bukan runtuhnya penalaran, skrip otomatis salah mengklasifikasikan keluaran yang benar sebagian, beberapa teka-teki tidak dapat dipecahkan secara matematis. Dengan mengulangi pengujian dengan fungsi rekursif alih-alih membuat daftar gerakan, Claude/Gemini/GPT memecahkan Menara Hanoi 15 catatan. Gary Marcus merangkul tesis Apple tentang 'pergeseran distribusi', tetapi makalah waktu pra-WWDC menimbulkan pertanyaan strategis. Implikasi bisnis: seberapa besar kita bisa mempercayai AI untuk tugas-tugas penting? Solusi: pendekatan neurosimbolik jaringan saraf untuk pengenalan pola + bahasa, sistem simbolik untuk logika formal. Contoh: Akuntansi AI memahami "berapa banyak biaya perjalanan?" tetapi SQL/perhitungan/audit pajak = kode deterministik.

Fabio Lauria

CEO & Pendiri Electe‍

Ketika penalaran AI bertemu dengan kenyataan: robot menerapkan aturan logika dengan benar, tetapi mengidentifikasi bola basket sebagai jeruk. Sebuah metafora yang sempurna tentang bagaimana LLM dapat mensimulasikan proses logika tanpa memiliki pemahaman yang benar.

‍

Selama beberapa bulan terakhir, komunitas kecerdasan buatan telah berada dalam pergolakan perdebatan sengit yang dipicu oleh dua makalah penelitian berpengaruh yang diterbitkan oleh Apple. Yang pertama, 'GSM-Symbolic' (Oktober 2024), dan yang kedua, 'Ilusi Berpikir' (Juni 2025), mempertanyakan dugaan kemampuan penalaran Model Bahasa Besar, yang memicu reaksi beragam di seluruh industri.

‍

Seperti yang sudah dianalisis dalam artikel kami sebelumnya tentang "Ilusi kemajuan: mensimulasikan kecerdasan buatan secara umum tanpa mencapainya".pertanyaan tentang penalaran buatan menyentuh inti dari apa yang kita anggap sebagai kecerdasan pada mesin.

‍

Apa yang Dikatakan Penelitian Apple

Para peneliti Apple melakukan analisis sistematis pada Large Reasoning Models (LRM ) - model-model yang menghasilkan jejak penalaran yang mendetail sebelum memberikan jawaban. Hasilnya mengejutkan dan, bagi banyak orang, mengkhawatirkan.

‍

Tes yang Dilakukan

Penelitian ini menggunakan model yang paling canggih untuk memecahkan teka-teki algoritmik klasik seperti:

Menara Hanoi: Teka-teki matematika yang pertama kali dipecahkan pada tahun 1957
Masalah penyeberangan sungai: Teka-teki logika dengan batasan tertentu
Patokan Simbolik GSM: Variasi masalah matematika tingkat dasar

‍

Menguji penalaran dengan teka-teki klasik: masalah petani, serigala, kambing, dan kubis adalah salah satu teka-teki logika yang digunakan dalam penelitian Apple untuk menilai kemampuan penalaran LLM. Kesulitannya terletak pada menemukan urutan penyeberangan yang benar sambil menghindari serigala memakan kambing atau kambing memakan kubis jika dibiarkan sendiri. Tes yang sederhana namun efektif untuk membedakan antara pemahaman algoritmik dan hafalan pola.

‍

Hasil yang Kontroversial

Hasil penelitian menunjukkan bahwa perubahan kecil dalam perumusan masalah menyebabkan variasi yang signifikan dalam kinerja, yang menunjukkan kerapuhan yang mengkhawatirkan dalam penalaran. Seperti yang dilaporkan dalam Cakupan AppleInsider"performa semua model menurun ketika hanya nilai numerik dalam soal benchmark GSM-Symbolic yang diubah".

‍

Serangan Balik: Ilusi Pemikiran

‍

Tanggapan dari komunitas AI tidak lama datang. Alex Lawsen dari Open Philanthropy, berkolaborasi dengan Claude Opus dari Anthropic, menerbitkan sebuah bantahan terperinci yang berjudul "Ilusi Pemikiran".yang menentang metodologi dan kesimpulan dari studi Apple.

Keberatan Utama

Batas Output Diabaikan: Banyak kegagalan yang dikaitkan dengan 'keruntuhan penalaran' sebenarnya disebabkan oleh batas token output model
Evaluasi Salah: Skrip otomatis juga mengklasifikasikan output parsial tetapi secara algoritmik benar sebagai kegagalan total
Masalah Mustahil: Beberapa teka-teki tidak dapat dipecahkan secara matematis, tetapi model dihukum karena tidak dapat menyelesaikannya

Tes Konfirmasi

Ketika Lawsen mengulangi pengujian dengan metodologi alternatif - meminta model-model tersebut untuk menghasilkan fungsi rekursif alih-alih mendaftarkan semua gerakan - hasilnya sangat berbeda. Model seperti Claude, Gemini, dan GPT dengan tepat memecahkan masalah Menara Hanoi dengan 15 catatan, jauh melampaui kerumitan di mana Apple melaporkan tidak ada keberhasilan.

‍

Suara-suara yang Berwibawa dalam Perdebatan

‍

Gary Marcus: Kritikus Sejarah

Gary Marcusseorang kritikus lama terhadap kemampuan penalaran LLM, menerima temuan Apple sebagai konfirmasi dari tesisnya selama 20 tahun. Menurut Marcus, para LLM terus berjuang dengan 'pergeseran distribusi' - kemampuan untuk menggeneralisasi di luar data pelatihan - sambil tetap menjadi 'pemecah masalah yang baik untuk masalah yang telah dipecahkan'.

‍

Komunitas LocalLlama

Diskusi ini juga telah menyebar ke komunitas-komunitas khusus seperti LocalLlama di Redditdi mana para pengembang dan peneliti memperdebatkan implikasi praktis untuk model sumber terbuka dan implementasi lokal.

‍

Di Balik Kontroversi: Apa Artinya bagi Perusahaan

Implikasi Strategis

Perdebatan ini tidak murni akademis. Ini memiliki implikasi langsung terhadap:

Penerapan AI dalam Produksi: Seberapa besar kita dapat mempercayai model untuk tugas-tugas penting?
Investasi R&D: Di mana memfokuskan sumber daya untuk terobosan berikutnya?
Komunikasi dengan Pemangku Kepentingan: Bagaimana cara mengelola ekspektasi yang realistis terhadap kemampuan AI?

Cara Neurosimbolis

Seperti yang disorot dalam beberapa wawasan teknisada peningkatan kebutuhan akan pendekatan hibrida yang menggabungkan:

Jaringan saraf untuk pengenalan pola dan pemahaman bahasa
Sistem simbolik untuk penalaran algoritmik dan logika formal

Contoh sepele: asisten AI yang membantu pembukuan. Model bahasa mengerti ketika Anda bertanya "berapa banyak yang saya habiskan untuk perjalanan bulan ini?" dan mengekstrak parameter yang relevan (kategori: perjalanan, periode: bulan ini). Tetapi kueri SQL yang menanyakan database, menghitung jumlah dan memeriksa batasan fiskal? Itu dilakukan oleh kode deterministik, bukan model neural.

‍

Penentuan Waktu dan Konteks Strategis

Tidak luput dari perhatian para pengamat bahwa makalah Apple diterbitkan tidak lama sebelum WWDC, sehingga menimbulkan pertanyaan tentang motivasi strategis. Sebagaianalisis oleh 9to5Mac"waktu penerbitan makalah Apple - tepat sebelum WWDC - menimbulkan beberapa pertanyaan. Apakah ini merupakan tonggak penelitian, atau langkah strategis untuk memposisikan ulang Apple dalam lanskap AI yang lebih luas?"

‍

Pelajaran untuk Masa Depan

Bagi Peneliti

Desain Eksperimental: Pentingnya membedakan antara batasan arsitektural dan kendala implementasi
Evaluasi yang Ketat: Perlunya tolok ukur yang canggih yang memisahkan kemampuan kognitif dari kendala praktis
Transparansi Metodologis: Kewajiban untuk Mendokumentasikan Pengaturan dan Keterbatasan Eksperimental Secara Penuh

Untuk Perusahaan

Harapan yang Realistis: Mengenali Batasan Saat Ini Tanpa Melepaskan Potensi Masa Depan
Pendekatan Hibrida: Berinvestasi dalam solusi yang menggabungkan kekuatan teknologi yang berbeda
Evaluasi Berkesinambungan: Menerapkan sistem pengujian yang mencerminkan skenario penggunaan dalam kehidupan nyata

Kesimpulan: Menavigasi Ketidakpastian

‍

Perdebatan yang dipicu oleh makalah Apple mengingatkan kita bahwa kita masih berada di tahap awal dalam memahami kecerdasan buatan. Seperti yang ditunjukkan dalam artikel kami sebelumnyaperbedaan antara simulasi dan penalaran otentik tetap menjadi salah satu tantangan paling kompleks di zaman kita.

‍

Pelajaran yang sebenarnya bukanlah apakah LLM dapat 'bernalar' dalam pengertian manusia atau tidak, melainkan bagaimana kita dapat membangun sistem yang dapat mengeksploitasi kekuatannya sekaligus mengimbangi keterbatasannya. Di dunia di mana AI telah mengubah seluruh sektor, pertanyaannya bukan lagi apakah alat ini 'pintar', tetapi bagaimana menggunakannya secara efektif dan bertanggung jawab.

‍

Masa depan AI perusahaan mungkin tidak akan terletak pada satu pendekatan revolusioner, tetapi pada orkestrasi cerdas dari beberapa teknologi yang saling melengkapi. Dan dalam skenario ini, kemampuan untuk mengevaluasi kemampuan alat kita secara kritis dan jujur menjadi keunggulan kompetitif itu sendiri.

‍

Untuk mendapatkan wawasan tentang strategi AI organisasi Anda dan implementasi solusi yang kuat, tim ahli kami siap memberikan konsultasi khusus.

‍

Sumber dan Referensi:

GSM-Simbolik: Memahami Keterbatasan Penalaran Matematika dalam Model Bahasa Besar - Penelitian Pembelajaran Mesin Apple
Ilusi Berpikir: Memahami Kekuatan dan Keterbatasan Model Penalaran - Penelitian Pembelajaran Mesin Apple
Makalah baru menolak studi 'keruntuhan penalaran' LLM Apple - 9to5Mac
Tujuh balasan untuk makalah penalaran Apple yang viral - Gary Marcus
Ilusi Berpikir: Apa yang Dikatakan Makalah Apple AI Tentang Penalaran LLM - Arize AI
Studi Apple membuktikan bahwa model AI berbasis LLM memiliki kekurangan - AppleInsider
Ilusi kemajuan: mensimulasikan kecerdasan buatan secara umum tanpa mencapainya - Electe

Sumber daya untuk pertumbuhan bisnis

9 November 2025

Regulasi AI untuk Aplikasi Konsumen: Cara Mempersiapkan Diri untuk Regulasi Baru Tahun 2025

Tahun 2025 menandai berakhirnya era 'Wild West' dari AI: AI Act Uni Eropa beroperasi mulai Agustus 2024 dengan kewajiban literasi AI mulai 2 Februari 2025, tata kelola dan GPAI mulai 2 Agustus. Pelopor California dengan SB 243 (lahir setelah bunuh diri Sewell Setzer, anak berusia 14 tahun yang mengembangkan hubungan emosional dengan chatbot) yang memberlakukan larangan sistem imbalan kompulsif, deteksi keinginan bunuh diri, pengingat setiap 3 jam 'Saya bukan manusia', audit publik independen, denda $ 1.000/pelanggaran. SB 420 membutuhkan penilaian dampak untuk 'keputusan otomatis berisiko tinggi' dengan hak banding tinjauan manusia. Penegakan Nyata: Noom mengutip tahun 2022 untuk bot yang dianggap sebagai pelatih manusia, penyelesaian $56 juta. Tren nasional: Alabama, Hawaii, Illinois, Maine, Massachusetts mengklasifikasikan kegagalan untuk memberi tahu chatbot AI sebagai pelanggaran UDAP. Pendekatan sistem kritis risiko tiga tingkat (perawatan kesehatan/transportasi/energi) sertifikasi pra-penerapan, pengungkapan transparan kepada konsumen, pendaftaran tujuan umum + pengujian keamanan. Tambal sulam peraturan tanpa pengecualian federal: perusahaan multi-negara harus menavigasi persyaratan yang bervariasi. Uni Eropa mulai Agustus 2026: menginformasikan interaksi AI kepada pengguna kecuali jika sudah jelas, konten yang dihasilkan AI diberi label yang dapat dibaca oleh mesin.

9 November 2025

Ketika AI akan menjadi satu-satunya pilihan Anda (dan mengapa Anda akan menyukainya)

9 November 2025

Mengatur apa yang tidak diciptakan: apakah Eropa berisiko mengalami ketidakrelevanan teknologi?

**JUDUL: Undang-Undang AI Eropa - Paradoks tentang Siapa yang Mengatur Apa yang Tidak Berkembang** ** RINGKASAN:** Eropa hanya menarik sepersepuluh dari investasi global dalam kecerdasan buatan, tetapi mengklaim mendikte aturan global. Ini adalah "Efek Brussel"-memaksakan peraturan dalam skala planet melalui kekuatan pasar tanpa mendorong inovasi. Undang-Undang AI mulai berlaku dengan jadwal yang terhuyung-huyung hingga tahun 2027, tetapi perusahaan teknologi multinasional merespons dengan strategi penghindaran yang kreatif: menggunakan rahasia dagang untuk menghindari pengungkapan data pelatihan, membuat rangkuman yang sesuai secara teknis tetapi tidak dapat dipahami, menggunakan penilaian sendiri untuk menurunkan sistem dari 'risiko tinggi' menjadi 'risiko minimal', belanja forum dengan memilih negara anggota dengan kontrol yang tidak terlalu ketat. Paradoks hak cipta ekstrateritorial: Uni Eropa menuntut OpenAI untuk mematuhi hukum Eropa bahkan untuk pelatihan di luar Eropa - sebuah prinsip yang tidak pernah terlihat sebelumnya dalam hukum internasional. Munculnya 'model ganda': versi Eropa yang terbatas vs. versi global yang canggih dari produk AI yang sama. Risiko nyata: Eropa menjadi 'benteng digital' yang terisolasi dari inovasi global, dengan warga negara Eropa mengakses teknologi yang lebih rendah. Pengadilan dalam kasus penilaian kredit telah menolak pembelaan 'rahasia dagang', tetapi ketidakpastian interpretasi masih sangat besar-apa sebenarnya arti dari 'ringkasan yang cukup rinci'? Tidak ada yang tahu. Pertanyaan terakhir yang belum terjawab: apakah Uni Eropa menciptakan jalan ketiga yang etis antara kapitalisme AS dan kontrol negara Tiongkok, atau hanya mengekspor birokrasi ke area di mana ia tidak bersaing? Untuk saat ini: pemimpin dunia dalam regulasi AI, marjinal dalam pengembangannya. Program yang luas.

9 November 2025

Outlier: Ketika Ilmu Data Bertemu dengan Kisah Sukses

Ilmu data telah mengubah paradigma: outlier bukan lagi 'kesalahan yang harus dihilangkan', melainkan informasi berharga yang harus dipahami. Satu pencilan dapat sepenuhnya mendistorsi model regresi linier-mengubah kemiringan dari 2 menjadi 10-tetapi menghilangkannya bisa berarti kehilangan sinyal terpenting dalam kumpulan data. Pembelajaran mesin memperkenalkan alat yang canggih: Isolation Forest mengisolasi outlier dengan membuat pohon keputusan acak, Local Outlier Factor menganalisis kepadatan lokal, Autoencoder merekonstruksi data normal dan melaporkan apa yang tidak dapat direproduksi. Ada pencilan global (suhu -10°C di daerah tropis), pencilan kontekstual (menghabiskan €1.000 di lingkungan miskin), pencilan kolektif (lonjakan jaringan lalu lintas yang tersinkronisasi yang mengindikasikan adanya serangan). Sejalan dengan Gladwell: 'aturan 10.000 jam' masih diperdebatkan-Paul McCartney mengatakan 'banyak band yang sudah melakukan 10.000 jam di Hamburg tanpa hasil, teori ini tidak sempurna'. Kesuksesan matematika Asia bukan karena faktor genetik, melainkan faktor budaya: sistem numerik Tiongkok lebih intuitif, penanaman padi membutuhkan perbaikan terus-menerus dibandingkan perluasan wilayah pertanian Barat. Aplikasi nyata: Bank-bank di Inggris memulihkan 18% potensi kerugian melalui deteksi anomali waktu nyata, manufaktur mendeteksi cacat mikroskopis yang tidak akan terlewatkan oleh inspeksi manusia, perawatan kesehatan memvalidasi data uji klinis dengan sensitivitas deteksi anomali 85%+. Pelajaran terakhir: karena ilmu data bergerak dari menghilangkan outlier menjadi memahaminya, kita harus melihat karier yang tidak konvensional bukan sebagai anomali yang harus dikoreksi, melainkan sebagai lintasan yang berharga untuk dipelajari.