Newsletter

Ilusi Penalaran: Perdebatan yang Mengguncang Dunia AI

Apple menerbitkan dua makalah yang menghancurkan - 'GSM-Symbolic' (Oktober 2024) dan 'The Illusion of Thinking' (Juni 2025) - yang menunjukkan bagaimana LLM gagal pada variasi kecil dari masalah klasik (Menara Hanoi, penyeberangan sungai): 'kinerja menurun ketika hanya nilai numerik yang diubah'. Tidak ada keberhasilan pada Menara Hanoi yang kompleks. Namun Alex Lawsen (Open Philanthropy) membalas dengan "The Illusion of Thinking" yang menunjukkan metodologi yang gagal: kegagalannya adalah batas keluaran token bukan runtuhnya penalaran, skrip otomatis salah mengklasifikasikan keluaran yang benar sebagian, beberapa teka-teki tidak dapat dipecahkan secara matematis. Dengan mengulangi pengujian dengan fungsi rekursif alih-alih membuat daftar gerakan, Claude/Gemini/GPT memecahkan Menara Hanoi 15 catatan. Gary Marcus merangkul tesis Apple tentang 'pergeseran distribusi', tetapi makalah waktu pra-WWDC menimbulkan pertanyaan strategis. Implikasi bisnis: seberapa besar kita bisa mempercayai AI untuk tugas-tugas penting? Solusi: pendekatan neurosimbolik jaringan saraf untuk pengenalan pola + bahasa, sistem simbolik untuk logika formal. Contoh: Akuntansi AI memahami "berapa banyak biaya perjalanan?" tetapi SQL/perhitungan/audit pajak = kode deterministik.
Fabio Lauria
CEO & Pendiri Electe‍
Ketika penalaran AI bertemu dengan kenyataan: robot menerapkan aturan logika dengan benar, tetapi mengidentifikasi bola basket sebagai jeruk. Sebuah metafora yang sempurna tentang bagaimana LLM dapat mensimulasikan proses logika tanpa memiliki pemahaman yang benar.

Selama beberapa bulan terakhir, komunitas kecerdasan buatan telah berada dalam pergolakan perdebatan sengit yang dipicu oleh dua makalah penelitian berpengaruh yang diterbitkan oleh Apple. Yang pertama, 'GSM-Symbolic' (Oktober 2024), dan yang kedua, 'Ilusi Berpikir' (Juni 2025), mempertanyakan dugaan kemampuan penalaran Model Bahasa Besar, yang memicu reaksi beragam di seluruh industri.

Seperti yang sudah dianalisis dalam artikel kami sebelumnya tentang "Ilusi kemajuan: mensimulasikan kecerdasan buatan secara umum tanpa mencapainya".pertanyaan tentang penalaran buatan menyentuh inti dari apa yang kita anggap sebagai kecerdasan pada mesin.

Apa yang Dikatakan Penelitian Apple

Para peneliti Apple melakukan analisis sistematis pada Large Reasoning Models (LRM ) - model-model yang menghasilkan jejak penalaran yang mendetail sebelum memberikan jawaban. Hasilnya mengejutkan dan, bagi banyak orang, mengkhawatirkan.

Tes yang Dilakukan

Penelitian ini menggunakan model yang paling canggih untuk memecahkan teka-teki algoritmik klasik seperti:

  • Menara Hanoi: Teka-teki matematika yang pertama kali dipecahkan pada tahun 1957
  • Masalah penyeberangan sungai: Teka-teki logika dengan batasan tertentu
  • Patokan Simbolik GSM: Variasi masalah matematika tingkat dasar

Menguji penalaran dengan teka-teki klasik: masalah petani, serigala, kambing, dan kubis adalah salah satu teka-teki logika yang digunakan dalam penelitian Apple untuk menilai kemampuan penalaran LLM. Kesulitannya terletak pada menemukan urutan penyeberangan yang benar sambil menghindari serigala memakan kambing atau kambing memakan kubis jika dibiarkan sendiri. Tes yang sederhana namun efektif untuk membedakan antara pemahaman algoritmik dan hafalan pola.

Hasil yang Kontroversial

Hasil penelitian menunjukkan bahwa perubahan kecil dalam perumusan masalah menyebabkan variasi yang signifikan dalam kinerja, yang menunjukkan kerapuhan yang mengkhawatirkan dalam penalaran. Seperti yang dilaporkan dalam Cakupan AppleInsider"performa semua model menurun ketika hanya nilai numerik dalam soal benchmark GSM-Symbolic yang diubah".

Serangan Balik: Ilusi Pemikiran

Tanggapan dari komunitas AI tidak lama datang. Alex Lawsen dari Open Philanthropy, berkolaborasi dengan Claude Opus dari Anthropic, menerbitkan sebuah bantahan terperinci yang berjudul "Ilusi Pemikiran".yang menentang metodologi dan kesimpulan dari studi Apple.

Keberatan Utama

  1. Batas Output Diabaikan: Banyak kegagalan yang dikaitkan dengan 'keruntuhan penalaran' sebenarnya disebabkan oleh batas token output model
  2. Evaluasi Salah: Skrip otomatis juga mengklasifikasikan output parsial tetapi secara algoritmik benar sebagai kegagalan total
  3. Masalah Mustahil: Beberapa teka-teki tidak dapat dipecahkan secara matematis, tetapi model dihukum karena tidak dapat menyelesaikannya

Tes Konfirmasi

Ketika Lawsen mengulangi pengujian dengan metodologi alternatif - meminta model-model tersebut untuk menghasilkan fungsi rekursif alih-alih mendaftarkan semua gerakan - hasilnya sangat berbeda. Model seperti Claude, Gemini, dan GPT dengan tepat memecahkan masalah Menara Hanoi dengan 15 catatan, jauh melampaui kerumitan di mana Apple melaporkan tidak ada keberhasilan.

Suara-suara yang Berwibawa dalam Perdebatan

Gary Marcus: Kritikus Sejarah

Gary Marcusseorang kritikus lama terhadap kemampuan penalaran LLM, menerima temuan Apple sebagai konfirmasi dari tesisnya selama 20 tahun. Menurut Marcus, para LLM terus berjuang dengan 'pergeseran distribusi' - kemampuan untuk menggeneralisasi di luar data pelatihan - sambil tetap menjadi 'pemecah masalah yang baik untuk masalah yang telah dipecahkan'.

Komunitas LocalLlama

Diskusi ini juga telah menyebar ke komunitas-komunitas khusus seperti LocalLlama di Redditdi mana para pengembang dan peneliti memperdebatkan implikasi praktis untuk model sumber terbuka dan implementasi lokal.

Di Balik Kontroversi: Apa Artinya bagi Perusahaan

Implikasi Strategis

Perdebatan ini tidak murni akademis. Ini memiliki implikasi langsung terhadap:

  • Penerapan AI dalam Produksi: Seberapa besar kita dapat mempercayai model untuk tugas-tugas penting?
  • Investasi R&D: Di mana memfokuskan sumber daya untuk terobosan berikutnya?
  • Komunikasi dengan Pemangku Kepentingan: Bagaimana cara mengelola ekspektasi yang realistis terhadap kemampuan AI?

Cara Neurosimbolis

Seperti yang disorot dalam beberapa wawasan teknisada peningkatan kebutuhan akan pendekatan hibrida yang menggabungkan:

  • Jaringan saraf untuk pengenalan pola dan pemahaman bahasa
  • Sistem simbolik untuk penalaran algoritmik dan logika formal

Contoh sepele: asisten AI yang membantu pembukuan. Model bahasa mengerti ketika Anda bertanya "berapa banyak yang saya habiskan untuk perjalanan bulan ini?" dan mengekstrak parameter yang relevan (kategori: perjalanan, periode: bulan ini). Tetapi kueri SQL yang menanyakan database, menghitung jumlah dan memeriksa batasan fiskal? Itu dilakukan oleh kode deterministik, bukan model neural.

Penentuan Waktu dan Konteks Strategis

Tidak luput dari perhatian para pengamat bahwa makalah Apple diterbitkan tidak lama sebelum WWDC, sehingga menimbulkan pertanyaan tentang motivasi strategis. Sebagaianalisis oleh 9to5Mac"waktu penerbitan makalah Apple - tepat sebelum WWDC - menimbulkan beberapa pertanyaan. Apakah ini merupakan tonggak penelitian, atau langkah strategis untuk memposisikan ulang Apple dalam lanskap AI yang lebih luas?"

Pelajaran untuk Masa Depan

Bagi Peneliti

  • Desain Eksperimental: Pentingnya membedakan antara batasan arsitektural dan kendala implementasi
  • Evaluasi yang Ketat: Perlunya tolok ukur yang canggih yang memisahkan kemampuan kognitif dari kendala praktis
  • Transparansi Metodologis: Kewajiban untuk Mendokumentasikan Pengaturan dan Keterbatasan Eksperimental Secara Penuh

Untuk Perusahaan

  • Harapan yang Realistis: Mengenali Batasan Saat Ini Tanpa Melepaskan Potensi Masa Depan
  • Pendekatan Hibrida: Berinvestasi dalam solusi yang menggabungkan kekuatan teknologi yang berbeda
  • Evaluasi Berkesinambungan: Menerapkan sistem pengujian yang mencerminkan skenario penggunaan dalam kehidupan nyata

Kesimpulan: Menavigasi Ketidakpastian

Perdebatan yang dipicu oleh makalah Apple mengingatkan kita bahwa kita masih berada di tahap awal dalam memahami kecerdasan buatan. Seperti yang ditunjukkan dalam artikel kami sebelumnyaperbedaan antara simulasi dan penalaran otentik tetap menjadi salah satu tantangan paling kompleks di zaman kita.

Pelajaran yang sebenarnya bukanlah apakah LLM dapat 'bernalar' dalam pengertian manusia atau tidak, melainkan bagaimana kita dapat membangun sistem yang dapat mengeksploitasi kekuatannya sekaligus mengimbangi keterbatasannya. Di dunia di mana AI telah mengubah seluruh sektor, pertanyaannya bukan lagi apakah alat ini 'pintar', tetapi bagaimana menggunakannya secara efektif dan bertanggung jawab.

Masa depan AI perusahaan mungkin tidak akan terletak pada satu pendekatan revolusioner, tetapi pada orkestrasi cerdas dari beberapa teknologi yang saling melengkapi. Dan dalam skenario ini, kemampuan untuk mengevaluasi kemampuan alat kita secara kritis dan jujur menjadi keunggulan kompetitif itu sendiri.

Untuk mendapatkan wawasan tentang strategi AI organisasi Anda dan implementasi solusi yang kuat, tim ahli kami siap memberikan konsultasi khusus.

Sumber dan Referensi:

Sumber daya untuk pertumbuhan bisnis