Banyak yang mengandalkan LLM juga untuk melakukan operasi matematika. Pendekatan ini tidak berhasil.
Masalahnya sebenarnya sederhana: model bahasa besar (LLM) tidak benar-benar tahu cara mengalikan. Terkadang mereka bisa mendapatkan hasil yang benar, sama seperti saya yang mungkin hafal nilai pi. Tapi ini tidak berarti bahwa saya adalah seorang ahli matematika, dan juga tidak berarti bahwa LLM benar-benar tahu bagaimana melakukan matematika.
Contoh praktis
Contoh: 49858 *59949 = 298896167242 Hasil ini selalu sama, tidak ada jalan tengah. Bisa jadi benar atau salah.

Bahkan dengan pelatihan matematika yang masif, model terbaik hanya mampu menyelesaikan sebagian operasi dengan benar. Sebaliknya, kalkulator saku sederhana selalu mendapatkan 100% hasil yang benar. Dan semakin besar angkanya, semakin buruk kinerja LLM.

Mungkinkah mengatasi masalah ini?
Masalah dasarnya adalah bahwa model-model ini belajar berdasarkan kemiripan, bukan berdasarkan pemahaman. Mereka bekerja paling baik dengan masalah yang mirip dengan yang telah mereka latih, tetapi tidak pernah mengembangkan pemahaman yang benar tentang apa yang mereka katakan.
Bagi mereka yang ingin mempelajari lebih lanjut, saya sarankan artikel ini tentang "bagaimana LLM bekerja".
Kalkulator, di sisi lain, menggunakan algoritme yang tepat yang diprogram untuk melakukan operasi matematika.
Inilah sebabnya mengapa kita tidak boleh sepenuhnya bergantung pada LLM untuk perhitungan matematis: bahkan dalam kondisi terbaik, dengan sejumlah besar data pelatihan khusus, mereka tidak dapat menjamin keandalan bahkan dalam operasi yang paling dasar. Pendekatan hibrida mungkin bisa digunakan, tetapi LLM saja tidak cukup. Mungkin pendekatan ini akan diikuti untuk memecahkan apa yang disebut'masalah stroberi'.
Aplikasi LLM dalam studi matematika
Dalam konteks pendidikan, LLM dapat bertindak sebagai tutor yang dipersonalisasi, yang mampu menyesuaikan penjelasan dengan tingkat pemahaman siswa. Misalnya, ketika seorang siswa menghadapi masalah kalkulus diferensial, LLM dapat memecah penalaran menjadi langkah-langkah yang lebih sederhana, memberikan penjelasan terperinci untuk setiap langkah proses solusi. Pendekatan ini membantu membangun pemahaman yang kuat tentang konsep-konsep dasar.
Aspek yang sangat menarik adalah kemampuan LLM untuk menghasilkan contoh-contoh yang relevan dan bervariasi. Jika seorang siswa mencoba memahami konsep limit, LLM dapat menyajikan skenario matematika yang berbeda, dimulai dengan kasus-kasus sederhana dan berlanjut ke situasi yang lebih kompleks, sehingga memungkinkan pemahaman yang lebih baik tentang konsep tersebut.
Salah satu aplikasi yang menjanjikan adalah penggunaan LLM untuk menerjemahkan konsep matematika yang kompleks ke dalam bahasa alami yang lebih mudah diakses. Hal ini memfasilitasi komunikasi matematika kepada khalayak yang lebih luas dan dapat membantu mengatasi hambatan tradisional dalam mengakses disiplin ilmu ini.
LLM juga dapat membantu dalam persiapan materi pengajaran, membuat latihan dengan tingkat kesulitan yang berbeda-beda dan memberikan umpan balik yang terperinci mengenai solusi yang diusulkan siswa. Hal ini memungkinkan para guru untuk menyesuaikan jalur pembelajaran siswa mereka dengan lebih baik.
Keuntungan nyata
Yang juga perlu dipertimbangkan, secara umum, adalah 'kesabaran' yang ekstrem dalam membantu siswa yang paling tidak 'mampu' untuk belajar: dalam hal ini, ketiadaan emosi akan membantu. Meskipun demikian, bahkan guru pun terkadang 'kehilangan kesabaran'. Lihatlah contoh yang 'lucu' ini contoh.

Pembaruan 2025: Model Penalaran dan Pendekatan Hibrida
Tahun 2024-2025 membawa perkembangan yang signifikan dengan hadirnya apa yang disebut 'model penalaran' seperti OpenAI o1 dan deepseek R1. Model-model ini telah mencapai hasil yang mengesankan dalam tolok ukur matematika: o1 menyelesaikan 83% soal dalam Olimpiade Matematika Internasional dengan benar, dibandingkan dengan 13% untuk GPT-4o. Namun berhati-hatilah: model-model tersebut tidak menyelesaikan masalah mendasar yang dijelaskan di atas.
Masalah stroberi-menghitung 'r' dalam "stroberi"-mengilustrasikan keterbatasan yang terus-menerus dengan sempurna. o1 menyelesaikannya dengan benar setelah beberapa detik "penalaran", tetapi jika Anda memintanya untuk menulis paragraf di mana huruf kedua dari setiap kalimat membentuk kata "KODE", ia gagal. o1-pro, versi $200/bulan, menyelesaikannya... setelah 4 menit pemrosesan. DeepSeek R1 dan model terbaru lainnya masih melakukan penghitungan dasar yang salah. Pada bulan Februari 2025, Mistral tetap menjawab bahwa hanya ada dua huruf 'r' pada kata "strawberry".
Trik yang muncul adalah pendekatan hibrida: ketika mereka harus mengalikan 49858 dengan 5994949, model yang lebih canggih tidak lagi mencoba 'menebak' hasilnya berdasarkan kemiripan dengan kalkulasi yang terlihat saat pelatihan. Sebaliknya, mereka memanggil kalkulator atau menjalankan kode Python-persis seperti yang dilakukan oleh manusia cerdas yang mengetahui batas kemampuannya.
'Penggunaan alat' ini mewakili pergeseran paradigma: kecerdasan buatan tidak harus dapat melakukan semuanya sendiri, tetapi harus dapat mengatur alat yang tepat. Model penalaran menggabungkan kemampuan linguistik untuk memahami masalah, penalaran langkah demi langkah untuk merencanakan solusi, dan pendelegasian ke alat khusus (kalkulator, penerjemah Python, basis data) untuk eksekusi yang tepat.
Pelajarannya? LLM tahun 2025 lebih berguna dalam matematika bukan karenamereka telah 'belajar' mengalikan - mereka belum benar-benar melakukannya - tetapi karena beberapa dari mereka telah mulai memahami kapan harus mendelegasikan perkalian kepada mereka yang benar-benar dapat melakukannya. Masalah dasarnya tetap ada: mereka beroperasi berdasarkan kemiripan statistik, bukan berdasarkan pemahaman algoritmik. Kalkulator 5 euro tetap jauh lebih dapat diandalkan untuk perhitungan yang akurat.