Newsletter

Mengapa matematika itu sulit (bahkan jika Anda seorang AI)

Model bahasa tidak tahu bagaimana cara mengalikan-menghafal hasil seperti kita menghafal pi, tapi itu tidak membuat mereka menjadi ahli matematika. Masalahnya adalah struktural: mereka belajar dengan kesamaan statistik, bukan dengan pemahaman algoritmik. Bahkan 'model penalaran' baru seperti o1 gagal dalam tugas-tugas sepele: ia menghitung 'r' dalam 'strawberry' dengan benar setelah beberapa detik pemrosesan, tapi gagal ketika harus menulis paragraf di mana huruf kedua dari setiap kalimat membentuk sebuah kata. Versi premium seharga $200/bulan membutuhkan waktu empat menit untuk menyelesaikan apa yang dilakukan seorang anak secara instan. DeepSeek dan Mistral pada tahun 2025 masih salah menghitung huruf. Solusi yang muncul? Pendekatan hibrida-model yang paling cerdas telah mengetahui kapan harus memanggil kalkulator sungguhan alih-alih mencoba menghitung sendiri. Pergeseran paradigma: AI tidak harus tahu bagaimana melakukan segala sesuatu, tetapi mengatur alat yang tepat. Paradoks terakhir: GPT-4 dapat dengan cemerlang menjelaskan teori limit kepada Anda, namun salah dalam melakukan perkalian yang selalu diselesaikan oleh kalkulator saku dengan benar. Untuk pendidikan matematika, kalkulator ini sangat baik-menjelaskan dengan kesabaran yang tak terbatas, mengadaptasi contoh, menguraikan penalaran yang rumit. Untuk perhitungan yang tepat? Andalkan kalkulator, bukan kecerdasan buatan.

Banyak yang mengandalkan LLM juga untuk melakukan operasi matematika. Pendekatan ini tidak berhasil.

Masalahnya sebenarnya sederhana: model bahasa besar (LLM) tidak benar-benar tahu cara mengalikan. Terkadang mereka bisa mendapatkan hasil yang benar, sama seperti saya yang mungkin hafal nilai pi. Tapi ini tidak berarti bahwa saya adalah seorang ahli matematika, dan juga tidak berarti bahwa LLM benar-benar tahu bagaimana melakukan matematika.

Contoh praktis

Contoh: 49858 *59949 = 298896167242 Hasil ini selalu sama, tidak ada jalan tengah. Bisa jadi benar atau salah.

Bahkan dengan pelatihan matematika yang masif, model terbaik hanya mampu menyelesaikan sebagian operasi dengan benar. Sebaliknya, kalkulator saku sederhana selalu mendapatkan 100% hasil yang benar. Dan semakin besar angkanya, semakin buruk kinerja LLM.

Mungkinkah mengatasi masalah ini?

Masalah dasarnya adalah bahwa model-model ini belajar berdasarkan kemiripan, bukan berdasarkan pemahaman. Mereka bekerja paling baik dengan masalah yang mirip dengan yang telah mereka latih, tetapi tidak pernah mengembangkan pemahaman yang benar tentang apa yang mereka katakan.

Bagi mereka yang ingin mempelajari lebih lanjut, saya sarankan artikel ini tentang "bagaimana LLM bekerja".

Kalkulator, di sisi lain, menggunakan algoritme yang tepat yang diprogram untuk melakukan operasi matematika.

Inilah sebabnya mengapa kita tidak boleh sepenuhnya bergantung pada LLM untuk perhitungan matematis: bahkan dalam kondisi terbaik, dengan sejumlah besar data pelatihan khusus, mereka tidak dapat menjamin keandalan bahkan dalam operasi yang paling dasar. Pendekatan hibrida mungkin bisa digunakan, tetapi LLM saja tidak cukup. Mungkin pendekatan ini akan diikuti untuk memecahkan apa yang disebut'masalah stroberi'.

Aplikasi LLM dalam studi matematika

Dalam konteks pendidikan, LLM dapat bertindak sebagai tutor yang dipersonalisasi, yang mampu menyesuaikan penjelasan dengan tingkat pemahaman siswa. Misalnya, ketika seorang siswa menghadapi masalah kalkulus diferensial, LLM dapat memecah penalaran menjadi langkah-langkah yang lebih sederhana, memberikan penjelasan terperinci untuk setiap langkah proses solusi. Pendekatan ini membantu membangun pemahaman yang kuat tentang konsep-konsep dasar.

Aspek yang sangat menarik adalah kemampuan LLM untuk menghasilkan contoh-contoh yang relevan dan bervariasi. Jika seorang siswa mencoba memahami konsep limit, LLM dapat menyajikan skenario matematika yang berbeda, dimulai dengan kasus-kasus sederhana dan berlanjut ke situasi yang lebih kompleks, sehingga memungkinkan pemahaman yang lebih baik tentang konsep tersebut.

Salah satu aplikasi yang menjanjikan adalah penggunaan LLM untuk menerjemahkan konsep matematika yang kompleks ke dalam bahasa alami yang lebih mudah diakses. Hal ini memfasilitasi komunikasi matematika kepada khalayak yang lebih luas dan dapat membantu mengatasi hambatan tradisional dalam mengakses disiplin ilmu ini.

LLM juga dapat membantu dalam persiapan materi pengajaran, membuat latihan dengan tingkat kesulitan yang berbeda-beda dan memberikan umpan balik yang terperinci mengenai solusi yang diusulkan siswa. Hal ini memungkinkan para guru untuk menyesuaikan jalur pembelajaran siswa mereka dengan lebih baik.

Keuntungan nyata

Yang juga perlu dipertimbangkan, secara umum, adalah 'kesabaran' yang ekstrem dalam membantu siswa yang paling tidak 'mampu' untuk belajar: dalam hal ini, ketiadaan emosi akan membantu. Meskipun demikian, bahkan guru pun terkadang 'kehilangan kesabaran'. Lihatlah contoh yang 'lucu' ini contoh.

Pembaruan 2025: Model Penalaran dan Pendekatan Hibrida

Tahun 2024-2025 membawa perkembangan yang signifikan dengan hadirnya apa yang disebut 'model penalaran' seperti OpenAI o1 dan deepseek R1. Model-model ini telah mencapai hasil yang mengesankan dalam tolok ukur matematika: o1 menyelesaikan 83% soal dalam Olimpiade Matematika Internasional dengan benar, dibandingkan dengan 13% untuk GPT-4o. Namun berhati-hatilah: model-model tersebut tidak menyelesaikan masalah mendasar yang dijelaskan di atas.

Masalah stroberi-menghitung 'r' dalam "stroberi"-mengilustrasikan keterbatasan yang terus-menerus dengan sempurna. o1 menyelesaikannya dengan benar setelah beberapa detik "penalaran", tetapi jika Anda memintanya untuk menulis paragraf di mana huruf kedua dari setiap kalimat membentuk kata "KODE", ia gagal. o1-pro, versi $200/bulan, menyelesaikannya... setelah 4 menit pemrosesan. DeepSeek R1 dan model terbaru lainnya masih melakukan penghitungan dasar yang salah. Pada bulan Februari 2025, Mistral tetap menjawab bahwa hanya ada dua huruf 'r' pada kata "strawberry".

Trik yang muncul adalah pendekatan hibrida: ketika mereka harus mengalikan 49858 dengan 5994949, model yang lebih canggih tidak lagi mencoba 'menebak' hasilnya berdasarkan kemiripan dengan kalkulasi yang terlihat saat pelatihan. Sebaliknya, mereka memanggil kalkulator atau menjalankan kode Python-persis seperti yang dilakukan oleh manusia cerdas yang mengetahui batas kemampuannya.

'Penggunaan alat' ini mewakili pergeseran paradigma: kecerdasan buatan tidak harus dapat melakukan semuanya sendiri, tetapi harus dapat mengatur alat yang tepat. Model penalaran menggabungkan kemampuan linguistik untuk memahami masalah, penalaran langkah demi langkah untuk merencanakan solusi, dan pendelegasian ke alat khusus (kalkulator, penerjemah Python, basis data) untuk eksekusi yang tepat.

Pelajarannya? LLM tahun 2025 lebih berguna dalam matematika bukan karenamereka telah 'belajar' mengalikan - mereka belum benar-benar melakukannya - tetapi karena beberapa dari mereka telah mulai memahami kapan harus mendelegasikan perkalian kepada mereka yang benar-benar dapat melakukannya. Masalah dasarnya tetap ada: mereka beroperasi berdasarkan kemiripan statistik, bukan berdasarkan pemahaman algoritmik. Kalkulator 5 euro tetap jauh lebih dapat diandalkan untuk perhitungan yang akurat.

Sumber daya untuk pertumbuhan bisnis