Dari Masalah Stroberi ke Model o1: Bagaimana OpenAI Memecahkan (Sebagian) Batas Tokenisasi
Pada musim panas 2024, sebuah meme internet yang viral mempermalukan model bahasa tercanggih di dunia: "Berapa banyak huruf 'r' dalam kata 'stroberi'?" Jawaban yang benar adalah tiga, tetapi GPT-4o dengan keras kepala menjawab "dua". Kesalahan yang tampaknya sepele, namun ternyata menunjukkan keterbatasan mendasar dari model bahasa: ketidakmampuannya untuk menganalisis setiap huruf dalam kata.
Pada tanggal 12 September 2024, OpenAI merilis o1 - yang secara internal dikenal dengan nama kode 'Strawberry' - model pertama dalam rangkaian 'model penalaran' baru yang dirancang khusus untuk mengatasi jenis keterbatasan ini. Dan ya, nama tersebut bukanlah kebetulan: seperti yang dikonfirmasi oleh seorang peneliti OpenAI, o1 akhirnya berhasil menghitung 'r' dengan benar dalam 'strawberry'.
Namun solusinya tidak seperti yang dibayangkan oleh artikel aslinya. OpenAI tidak 'mengajari' model untuk menganalisis kata demi kata. Sebaliknya, OpenAI mengembangkan pendekatan yang sama sekali berbeda: mengajari model untuk 'bernalar' sebelum menjawab.
Masalahnya tetap berakar pada tokenisasi - proses mendasar yang digunakan model bahasa untuk memproses teks. Seperti yang dijelaskan dalam artikel teknis yang diterbitkan di arXiv pada Mei 2025 ('Masalah Stroberi: Munculnya Pemahaman Tingkat Karakter dalam Model Bahasa yang Ditokenkan'), model tersebut tidak melihat kata sebagai urutan huruf tetapi sebagai 'token' - unit makna yang dikonversi menjadi angka.
Ketika GPT-4 memproses kata "strawberry", tokenizer-nya membaginya menjadi tiga bagian: [str][aw][berry], masing-masing dengan ID numerik tertentu (496, 675, 15717). Untuk model ini, "strawberry" bukanlah urutan 10 huruf, melainkan urutan 3 token numerik. Seolah-olah dia sedang membaca sebuah buku di mana setiap kata digantikan oleh sebuah kode dan kemudian seseorang memintanya untuk menghitung huruf-huruf dalam sebuah kode yang belum pernah dia lihat ditulis.
Masalahnya bertambah dengan kata-kata majemuk. "Pencatat waktu" dipecah menjadi token-token yang terpisah, sehingga tidak mungkin bagi model untuk menentukan posisi yang tepat dari huruf-huruf tersebut tanpa proses penalaran yang eksplisit. Fragmentasi tidak hanya memengaruhi penghitungan huruf tetapi juga pemahaman struktur internal kata.
OpenAI o1 memecahkan masalah dengan cara yang tidak terduga: alih-alih memodifikasi tokenisasi - yang secara teknis sulit dan akan mengganggu efisiensi model - OpenAI o1 mengajarkan sistem untuk 'berpikir sebelum berbicara' menggunakan teknik yang disebut 'rantai penalaran pemikiran'.
Ketika Anda bertanya kepada o1 berapa banyak huruf 'r' dalam kata 'strawberry', model ini tidak langsung menjawab. Model ini menghabiskan beberapa detik-kadang-kadang bahkan beberapa menit untuk pertanyaan yang rumit-memproses secara internal 'rantai penalaran' yang tersembunyi dari pengguna. Proses ini memungkinkannya untuk melakukannya:
Seperti yang dijelaskan oleh peneliti OpenAI, Noam Brown, dalam serangkaian tulisan di X: "o1 dilatih dengan pembelajaran penguatan untuk 'berpikir' sebelum merespons melalui rantai pemikiran pribadi. Model ini menerima hadiah selama pelatihan untuk setiap langkah yang benar dalam proses penalaran, bukan hanya untuk jawaban akhir yang benar.
Hasilnya sangat mengesankan tetapi mahal. Dalam ujian kualifikasi untuk Olimpiade Matematika Internasional, o1 menyelesaikan 83% soal dengan benar dibandingkan 13% untuk GPT-4o. Pada soal-soal tingkat doktoral di bidang sains, o1 mencapai akurasi 78% dibandingkan 56% untuk GPT-4o. Namun, kekuatan ini ada harganya: o1 membutuhkan waktu lebih dari 30 detik untuk menjawab pertanyaan yang dapat diselesaikan GPT-4o dalam 3 detik, dan membutuhkan biaya $ 15 per juta input token dibandingkan $ 5 untuk GPT-4o.
Teknik ini tidak ajaib tetapi metodis. Ketika menerima perintah, o1 secara internal menghasilkan urutan 'pemikiran' yang panjang yang tidak ditampilkan kepada pengguna. Untuk masalah 'r' dalam 'strawberry', proses internal bisa jadi:
"Pertama-tama saya harus memahami struktur kata. Strawberry dapat ditandai sebagai [str][aw][berry]. Untuk menghitung 'r', saya harus merekonstruksi kata lengkap pada tingkat karakter. Str terdiri dari: s-t-r (1 'r'). Aw berisi: a-w (0 'r'). Berry terdiri dari: b-e-r-y (2 'r'). Total: 1+0+2 = 3 'r'. Saya periksa: stroberi = s-t-r-a-w-b-e-r-r-y. Saya menghitung 'r': posisi 3, posisi 8, posisi 9. Terkonfirmasi: 3 huruf 'r'."
Alasan internal ini disembunyikan oleh desain. OpenAI secara eksplisit melarang pengguna untuk mencoba mengungkapkan rantai pemikiran o1, memantau permintaan dan berpotensi mencabut akses bagi mereka yang melanggar aturan ini. Perusahaan mengutip alasan keamanan AI dan keunggulan kompetitif, tetapi keputusan tersebut telah dikritik sebagai hilangnya transparansi oleh para pengembang yang bekerja dengan model bahasa.
Terlepas dari kemajuannya, o1 belum sepenuhnya menyelesaikan masalah. Penelitian yang dipublikasikan di Language Log pada Januari 2025 menguji berbagai model pada tantangan yang lebih kompleks: "Tulis paragraf di mana huruf kedua dari setiap kalimat membentuk kata 'CODE'".
o1 standar ($20/bulan) gagal, salah menghitung huruf pertama dari setiap kata awal sebagai 'huruf kedua'. o1-pro ($200/bulan) memperbaiki masalahnya... setelah 4 menit dan 10 detik 'berpikir'. DeepSeek R1, model Cina yang mengguncang pasar pada Januari 2025, melakukan kesalahan yang sama dengan o1 standar.
Masalah mendasar tetap ada: model-model tersebut masih melihat teks melalui token, bukan huruf. o1 telah belajar untuk "menyiasati" keterbatasan ini melalui penalaran, tetapi belum menghilangkannya. Seperti yang dicatat oleh seorang peneliti di Language Log: "Tokenisasi adalah bagian dari esensi dari apa itu model bahasa; untuk setiap jawaban yang salah, penjelasannya adalah 'yah, tokenisasi'".
Sebuah makalah penting yang diterbitkan di arXiv pada Mei 2025 ('Masalah Stroberi: Munculnya Pemahaman Tingkat Karakter dalam Model Bahasa Tokenized') menganalisis fenomena ini dari perspektif teoretis. Para peneliti menciptakan 19 tugas sintetis yang mengisolasi penalaran tingkat karakter dalam konteks yang terkendali, menunjukkan bahwa kemampuan ini muncul secara tiba-tiba dan baru muncul setelah pelatihan.
Studi ini mengusulkan bahwa mempelajari komposisi karakter tidak berbeda secara fundamental dengan mempelajari pengetahuan akal sehat-muncul melalui proses 'perembesan konseptual' ketika model mencapai massa kritis dari contoh dan koneksi.
Para peneliti menyarankan modifikasi arsitektur ringan yang secara signifikan meningkatkan penalaran tingkat karakter sambil mempertahankan keunggulan induktif dari model berbasis subkata. Namun, modifikasi ini masih bersifat eksperimental dan belum diimplementasikan dalam model komersial.
Kasus stroberi mengajarkan pelajaran penting tentang keandalan model bahasa: model bahasa adalah alat bantu probabilistik, bukan kalkulator deterministik. Seperti yang dicatat oleh Mark Liberman dalam Language Log: "Anda harus berhati-hati dalam mempercayai respons sistem AI saat ini dalam tugas-tugas yang melibatkan penghitungan".
Ini tidak berarti bahwa model tidak berguna. Seperti yang dikatakan oleh seorang komentator: 'Hanya karena seekor kucing melakukan kesalahan bodoh karena takut pada mentimun, bukan berarti kita tidak boleh mempercayai kucing dengan tugas yang jauh lebih sulit yaitu mengusir hewan pengerat dari gedung'. Model bahasa bukanlah alat yang tepat jika Anda ingin menghitung huruf secara sistematis, tetapi model bahasa sangat baik untuk memproses ribuan transkrip podcast secara otomatis dan mengekstrak nama tamu dan pembawa acara.
Untuk tugas-tugas yang membutuhkan ketepatan mutlak - mendaratkan pesawat ruang angkasa di Mars, menghitung dosis farmasi, memverifikasi kepatuhan hukum - model bahasa yang ada saat ini masih belum memadai tanpa pengawasan manusia atau verifikasi eksternal. Sifat probabilistiknya membuat model ini sangat kuat untuk pencocokan pola dan pembuatan kreatif, tetapi tidak dapat diandalkan untuk tugas-tugas di mana kesalahan tidak dapat diterima.
OpenAI menyatakan bahwa mereka bermaksud untuk bereksperimen dengan model o1 yang 'bernalar selama berjam-jam, berhari-hari, atau bahkan berminggu-minggu' untuk lebih meningkatkan kemampuan penalarannya. Pada bulan Desember 2024, o3 diumumkan (nama o2 dilewati untuk menghindari konflik merek dagang dengan operator seluler O2), dan pada bulan Maret 2025, API o1-pro, model AI termahal OpenAI hingga saat ini, dirilis dengan harga $ 150 per juta token untuk input dan $ 600 per juta untuk output.
Arahnya jelas: alih-alih membuat model menjadi semakin besar (penskalaan), OpenAI berinvestasi untuk membuat model tersebut 'berpikir' lebih lama (komputasi waktu uji). Pendekatan ini mungkin lebih berkelanjutan secara energi dan komputasi daripada melatih model yang semakin besar.
Namun, masih ada pertanyaan terbuka: apakah model-model ini benar-benar 'bernalar' atau sekadar mensimulasikan penalaran melalui pola statistik yang lebih canggih? Penelitian Apple yang diterbitkan pada Oktober 2024 melaporkan bahwa model seperti o1 dapat mereplikasi langkah-langkah penalaran dari data pelatihan mereka sendiri. Dengan mengubah angka dan nama dalam soal matematika, atau sekadar menjalankan ulang soal yang sama, model-model tersebut berkinerja jauh lebih buruk. Dengan menambahkan informasi yang tidak relevan secara logika, kinerja model anjlok hingga 65% untuk beberapa model.
Masalah stroberi dan solusi o1 mengungkapkan potensi dan keterbatasan yang melekat pada model bahasa saat ini. OpenAI telah menunjukkan bahwa melalui pelatihan yang ditargetkan dan waktu pemrosesan tambahan, model dapat mengatasi keterbatasan struktural tertentu dari tokenisasi. Tetapi mereka tidak menghilangkannya - mereka mengelakkannya.
Bagi pengguna dan pengembang, pelajaran praktisnya jelas: memahami bagaimana sistem ini bekerja-apa yang mereka lakukan dengan baik dan di mana mereka gagal-sangat penting untuk menggunakannya secara efektif. Model bahasa adalah alat yang hebat untuk tugas-tugas probabilistik, pencocokan pola, pembuatan kreatif, dan sintesis informasi. Namun untuk tugas-tugas yang membutuhkan ketepatan deterministik-menghitung, mengkalkulasi, memverifikasi fakta-fakta tertentu-mereka tetap tidak dapat diandalkan tanpa pengawasan eksternal atau alat pelengkap.
Nama 'Strawberry' akan tetap menjadi pengingat ironis akan keterbatasan mendasar ini: bahkan sistem AI tercanggih di dunia pun bisa tersandung pada pertanyaan yang bisa diselesaikan oleh anak berusia enam tahun secara instan. Bukan karena mereka bodoh, tapi karena mereka 'berpikir' dengan cara yang sangat berbeda dengan kita-dan mungkin kita harus berhenti mengharapkan mereka untuk berpikir seperti manusia.
Sumber: