Newsletter

Mengapa matematika itu sulit (bahkan jika Anda seorang AI)

Model bahasa tidak tahu bagaimana cara mengalikan-menghafal hasil seperti kita menghafal pi, tapi itu tidak membuat mereka menjadi ahli matematika. Masalahnya adalah struktural: mereka belajar dengan kesamaan statistik, bukan dengan pemahaman algoritmik. Bahkan 'model penalaran' baru seperti o1 gagal dalam tugas-tugas sepele: ia menghitung 'r' dalam 'strawberry' dengan benar setelah beberapa detik pemrosesan, tapi gagal ketika harus menulis paragraf di mana huruf kedua dari setiap kalimat membentuk sebuah kata. Versi premium seharga $200/bulan membutuhkan waktu empat menit untuk menyelesaikan apa yang dilakukan seorang anak secara instan. DeepSeek dan Mistral pada tahun 2025 masih salah menghitung huruf. Solusi yang muncul? Pendekatan hibrida-model yang paling cerdas telah mengetahui kapan harus memanggil kalkulator sungguhan alih-alih mencoba menghitung sendiri. Pergeseran paradigma: AI tidak harus tahu bagaimana melakukan segala sesuatu, tetapi mengatur alat yang tepat. Paradoks terakhir: GPT-4 dapat dengan cemerlang menjelaskan teori limit kepada Anda, namun salah dalam melakukan perkalian yang selalu diselesaikan oleh kalkulator saku dengan benar. Untuk pendidikan matematika, kalkulator ini sangat baik-menjelaskan dengan kesabaran yang tak terbatas, mengadaptasi contoh, menguraikan penalaran yang rumit. Untuk perhitungan yang tepat? Andalkan kalkulator, bukan kecerdasan buatan.

Banyak yang mengandalkan LLM juga untuk melakukan operasi matematika. Pendekatan ini tidak berhasil.

Masalahnya sebenarnya sederhana: model bahasa besar (LLM) tidak benar-benar tahu cara mengalikan. Terkadang mereka bisa mendapatkan hasil yang benar, sama seperti saya yang mungkin hafal nilai pi. Tapi ini tidak berarti bahwa saya adalah seorang ahli matematika, dan juga tidak berarti bahwa LLM benar-benar tahu bagaimana melakukan matematika.

Contoh praktis

Contoh: 49858 *59949 = 298896167242 Hasil ini selalu sama, tidak ada jalan tengah. Bisa jadi benar atau salah.

Bahkan dengan pelatihan matematika yang masif, model terbaik hanya mampu menyelesaikan sebagian operasi dengan benar. Sebaliknya, kalkulator saku sederhana selalu mendapatkan 100% hasil yang benar. Dan semakin besar angkanya, semakin buruk kinerja LLM.

Mungkinkah mengatasi masalah ini?

Masalah dasarnya adalah bahwa model-model ini belajar berdasarkan kemiripan, bukan berdasarkan pemahaman. Mereka bekerja paling baik dengan masalah yang mirip dengan yang telah mereka latih, tetapi tidak pernah mengembangkan pemahaman yang benar tentang apa yang mereka katakan.

Bagi mereka yang ingin mempelajari lebih lanjut, saya sarankan artikel ini tentang "bagaimana LLM bekerja".

Kalkulator, di sisi lain, menggunakan algoritme yang tepat yang diprogram untuk melakukan operasi matematika.

Inilah sebabnya mengapa kita tidak boleh sepenuhnya bergantung pada LLM untuk perhitungan matematis: bahkan dalam kondisi terbaik, dengan sejumlah besar data pelatihan khusus, mereka tidak dapat menjamin keandalan bahkan dalam operasi yang paling dasar. Pendekatan hibrida mungkin bisa digunakan, tetapi LLM saja tidak cukup. Mungkin pendekatan ini akan diikuti untuk memecahkan apa yang disebut'masalah stroberi'.

Aplikasi LLM dalam studi matematika

Dalam konteks pendidikan, LLM dapat bertindak sebagai tutor yang dipersonalisasi, yang mampu menyesuaikan penjelasan dengan tingkat pemahaman siswa. Misalnya, ketika seorang siswa menghadapi masalah kalkulus diferensial, LLM dapat memecah penalaran menjadi langkah-langkah yang lebih sederhana, memberikan penjelasan terperinci untuk setiap langkah proses solusi. Pendekatan ini membantu membangun pemahaman yang kuat tentang konsep-konsep dasar.

Aspek yang sangat menarik adalah kemampuan LLM untuk menghasilkan contoh-contoh yang relevan dan bervariasi. Jika seorang siswa mencoba memahami konsep limit, LLM dapat menyajikan skenario matematika yang berbeda, dimulai dengan kasus-kasus sederhana dan berlanjut ke situasi yang lebih kompleks, sehingga memungkinkan pemahaman yang lebih baik tentang konsep tersebut.

Salah satu aplikasi yang menjanjikan adalah penggunaan LLM untuk menerjemahkan konsep matematika yang kompleks ke dalam bahasa alami yang lebih mudah diakses. Hal ini memfasilitasi komunikasi matematika kepada khalayak yang lebih luas dan dapat membantu mengatasi hambatan tradisional dalam mengakses disiplin ilmu ini.

LLM juga dapat membantu dalam persiapan materi pengajaran, membuat latihan dengan tingkat kesulitan yang berbeda-beda dan memberikan umpan balik yang terperinci mengenai solusi yang diusulkan siswa. Hal ini memungkinkan para guru untuk menyesuaikan jalur pembelajaran siswa mereka dengan lebih baik.

Keuntungan nyata

Yang juga perlu dipertimbangkan, secara umum, adalah 'kesabaran' yang ekstrem dalam membantu siswa yang paling tidak 'mampu' untuk belajar: dalam hal ini, ketiadaan emosi akan membantu. Meskipun demikian, bahkan guru pun terkadang 'kehilangan kesabaran'. Lihatlah contoh yang 'lucu' ini contoh.

Pembaruan 2025: Model Penalaran dan Pendekatan Hibrida

Tahun 2024-2025 membawa perkembangan yang signifikan dengan hadirnya apa yang disebut 'model penalaran' seperti OpenAI o1 dan deepseek R1. Model-model ini telah mencapai hasil yang mengesankan dalam tolok ukur matematika: o1 menyelesaikan 83% soal dalam Olimpiade Matematika Internasional dengan benar, dibandingkan dengan 13% untuk GPT-4o. Namun berhati-hatilah: model-model tersebut tidak menyelesaikan masalah mendasar yang dijelaskan di atas.

Masalah stroberi-menghitung 'r' dalam "stroberi"-mengilustrasikan keterbatasan yang terus-menerus dengan sempurna. o1 menyelesaikannya dengan benar setelah beberapa detik "penalaran", tetapi jika Anda memintanya untuk menulis paragraf di mana huruf kedua dari setiap kalimat membentuk kata "KODE", ia gagal. o1-pro, versi $200/bulan, menyelesaikannya... setelah 4 menit pemrosesan. DeepSeek R1 dan model terbaru lainnya masih melakukan penghitungan dasar yang salah. Pada bulan Februari 2025, Mistral tetap menjawab bahwa hanya ada dua huruf 'r' pada kata "strawberry".

Trik yang muncul adalah pendekatan hibrida: ketika mereka harus mengalikan 49858 dengan 5994949, model yang lebih canggih tidak lagi mencoba 'menebak' hasilnya berdasarkan kemiripan dengan kalkulasi yang terlihat saat pelatihan. Sebaliknya, mereka memanggil kalkulator atau menjalankan kode Python-persis seperti yang dilakukan oleh manusia cerdas yang mengetahui batas kemampuannya.

'Penggunaan alat' ini mewakili pergeseran paradigma: kecerdasan buatan tidak harus dapat melakukan semuanya sendiri, tetapi harus dapat mengatur alat yang tepat. Model penalaran menggabungkan kemampuan linguistik untuk memahami masalah, penalaran langkah demi langkah untuk merencanakan solusi, dan pendelegasian ke alat khusus (kalkulator, penerjemah Python, basis data) untuk eksekusi yang tepat.

Pelajarannya? LLM tahun 2025 lebih berguna dalam matematika bukan karenamereka telah 'belajar' mengalikan - mereka belum benar-benar melakukannya - tetapi karena beberapa dari mereka telah mulai memahami kapan harus mendelegasikan perkalian kepada mereka yang benar-benar dapat melakukannya. Masalah dasarnya tetap ada: mereka beroperasi berdasarkan kemiripan statistik, bukan berdasarkan pemahaman algoritmik. Kalkulator 5 euro tetap jauh lebih dapat diandalkan untuk perhitungan yang akurat.

Sumber daya untuk pertumbuhan bisnis

9 November 2025

Mengatur apa yang tidak diciptakan: apakah Eropa berisiko mengalami ketidakrelevanan teknologi?

Eropa hanya menarik sepersepuluh dari investasi global dalam kecerdasan buatan, namun mengklaim mendikte aturan global. Ini adalah 'Efek Brussel'-memaksakan aturan dalam skala planet melalui kekuatan pasar tanpa mendorong inovasi. UU AI mulai berlaku dengan jadwal yang terhuyung-huyung hingga 2027, tetapi perusahaan teknologi multinasional merespons dengan strategi penghindaran yang kreatif: menggunakan rahasia dagang untuk menghindari pengungkapan data pelatihan, membuat rangkuman yang sesuai secara teknis tetapi tidak dapat dipahami, menggunakan penilaian mandiri untuk menurunkan sistem dari 'risiko tinggi' menjadi 'risiko minimal', belanja forum dengan memilih negara anggota dengan kontrol yang tidak terlalu ketat. Paradoks hak cipta ekstrateritorial: Uni Eropa menuntut OpenAI untuk mematuhi hukum Eropa bahkan untuk pelatihan di luar Eropa - sebuah prinsip yang tidak pernah terlihat sebelumnya dalam hukum internasional. Munculnya 'model ganda': versi Eropa yang terbatas vs. versi global yang canggih dari produk AI yang sama. Risiko nyata: Eropa menjadi 'benteng digital' yang terisolasi dari inovasi global, dengan warga negara Eropa mengakses teknologi yang lebih rendah. Pengadilan dalam kasus penilaian kredit telah menolak pembelaan 'rahasia dagang', tetapi ketidakpastian interpretasi masih sangat besar-apa sebenarnya arti dari 'ringkasan yang cukup rinci'? Tidak ada yang tahu. Pertanyaan terakhir yang belum terjawab: apakah Uni Eropa menciptakan jalan ketiga yang etis antara kapitalisme AS dan kontrol negara Tiongkok, atau hanya mengekspor birokrasi ke area di mana ia tidak bersaing? Untuk saat ini: pemimpin dunia dalam regulasi AI, marjinal dalam pengembangannya. Program yang luas.
9 November 2025

Outlier: Ketika Ilmu Data Bertemu dengan Kisah Sukses

Ilmu data telah mengubah paradigma: outlier bukan lagi 'kesalahan yang harus dihilangkan', melainkan informasi berharga yang harus dipahami. Satu pencilan dapat sepenuhnya mendistorsi model regresi linier-mengubah kemiringan dari 2 menjadi 10-tetapi menghilangkannya bisa berarti kehilangan sinyal terpenting dalam kumpulan data. Pembelajaran mesin memperkenalkan alat yang canggih: Isolation Forest mengisolasi outlier dengan membuat pohon keputusan acak, Local Outlier Factor menganalisis kepadatan lokal, Autoencoder merekonstruksi data normal dan melaporkan apa yang tidak dapat direproduksi. Ada pencilan global (suhu -10°C di daerah tropis), pencilan kontekstual (menghabiskan €1.000 di lingkungan miskin), pencilan kolektif (lonjakan jaringan lalu lintas yang tersinkronisasi yang mengindikasikan adanya serangan). Sejalan dengan Gladwell: 'aturan 10.000 jam' masih diperdebatkan-Paul McCartney mengatakan 'banyak band yang sudah melakukan 10.000 jam di Hamburg tanpa hasil, teori ini tidak sempurna'. Kesuksesan matematika Asia bukan karena faktor genetik, melainkan faktor budaya: sistem numerik Tiongkok lebih intuitif, penanaman padi membutuhkan perbaikan terus-menerus dibandingkan perluasan wilayah pertanian Barat. Aplikasi nyata: Bank-bank di Inggris memulihkan 18% potensi kerugian melalui deteksi anomali waktu nyata, manufaktur mendeteksi cacat mikroskopis yang tidak akan terlewatkan oleh inspeksi manusia, perawatan kesehatan memvalidasi data uji klinis dengan sensitivitas deteksi anomali 85%+. Pelajaran terakhir: karena ilmu data bergerak dari menghilangkan outlier menjadi memahaminya, kita harus melihat karier yang tidak konvensional bukan sebagai anomali yang harus dikoreksi, melainkan sebagai lintasan yang berharga untuk dipelajari.