Pelatihan model kecerdasan buatan merupakan salah satu tantangan paling kompleks dalam perkembangan teknologi kontemporer. Lebih dari sekadar masalah algoritmik sederhana, pelatihan model yang efektif membutuhkan pendekatan metodis dan multidisiplin yang mengintegrasikan data, ilmu data, pengetahuan domain, dan rekayasa perangkat lunak. Seperti yang ditunjukkan oleh James Luke dalam buku'Beyond Algorithms: Delivering AI for Business', keberhasilan implementasi AI lebih bergantung pada manajemen data dan desain sistemik daripada algoritme itu sendiri. Lanskap ini berubah dengan cepat, dengan inovasi seperti model DeepSeek-R1 yang mendefinisikan ulang biaya dan aksesibilitas.
Berlawanan dengan apa yang sering dipercaya, kuantitas data tidak selalu menjadi faktor penentu keberhasilan. Kualitas dan keterwakilan data jauh lebih penting. Dalam konteks ini, sangat penting untuk mengintegrasikan berbagai sumber:
Integrasi ini menciptakan basis pelatihan komprehensif yang menangkap skenario dunia nyata dengan tetap mempertahankan standar etika dan privasi.
Proses 'data wrangling' menyumbang hingga 80 persen dari upaya yang diperlukan dalam proyek kecerdasan buatan. Fase ini melibatkan:
Seperti yang dikatakan oleh Hilary Packer, CTO American Express: 'Momen aha! bagi kami, sejujurnya, adalah data. Anda bisa membuat pemilihan model terbaik di dunia... tetapi data adalah kuncinya. Validasi dan akurasi adalah cawan suci saat ini dalam AI generatif."
Pemilihan arsitektur model harus dipandu oleh sifat spesifik dari masalah yang akan dipecahkan, dan bukan oleh kecenderungan atau preferensi pribadi. Jenis masalah yang berbeda memerlukan pendekatan yang berbeda:
Optimalisasi arsitektur memerlukan evaluasi sistematis antara konfigurasi yang berbeda, dengan fokus pada keseimbangan antara kinerja dan kebutuhan komputasi, sebuah aspek yang semakin relevan dengan munculnya model seperti DeepSeek-R1 yang menawarkan kemampuan penalaran tingkat lanjut dengan biaya yang jauh lebih rendah.
Distilasi telah muncul sebagai alat yang sangat kuat dalam ekosistem AI saat ini. Proses ini memungkinkan untuk membuat model yang lebih kecil dan lebih spesifik yang mewarisi kemampuan penalaran model yang lebih besar dan lebih kompleks, seperti DeepSeek-R1.
Seperti yang ditunjukkan dalam kasus DeepSeek,perusahaan menyaring kemampuan penalarannya pada beberapa model yang lebih kecil, termasuk model sumber terbuka dari keluarga Llama Meta dan keluarga Qwen Alibaba. Model-model yang lebih kecil ini kemudian dapat dioptimalkan untuk tugas-tugas tertentu, mempercepat tren ke arah model yang cepat dan terspesialisasi.
Sam Witteveen, pengembang pembelajaran mesin, mengamati: "Kita mulai memasuki dunia di mana orang menggunakan banyak model. Mereka tidak hanya menggunakan satu model sepanjang waktu." Ini termasuk model tertutup berbiaya rendah seperti Gemini Flash dan GPT-4o Mini, yang "bekerja dengan sangat baik untuk 80 persen kasus penggunaan."
Alih-alih melatih model secara terpisah untuk keterampilan yang terkait, pembelajaran multi-tugas memungkinkan model untuk berbagi pengetahuan di antara fungsi yang berbeda:
Untuk perusahaan yang beroperasi di domain yang sangat spesifik, di mana informasi tidak tersedia secara luas di web atau di buku-buku yang biasanya digunakan untuk melatih model bahasa, supervised fine-tuning (SFT) adalah pilihan yang efektif.
DeepSeek menunjukkan bahwa sangat mungkin untuk mencapai hasil yang baik dengan 'ribuan' set data pertanyaan dan jawaban. Sebagai contoh, insinyur IBM, Chris Hay, menunjukkan bagaimana ia membuat model kecil menggunakan set data khusus matematika miliknya dan memperoleh jawaban yang sangat cepat yang melebihi performa model o1 OpenAI pada tugas yang sama.
Perusahaan yang ingin melatih model dengan penyelarasan lebih lanjut terhadap preferensi tertentu - misalnya, membuat chatbot dukungan pelanggan berempati tetapi ringkas - akan ingin menerapkan teknik pembelajaran penguatan (RL). Pendekatan ini sangat berguna jika perusahaan ingin chatbot-nya menyesuaikan nada dan rekomendasinya berdasarkan umpan balik pengguna.
Bagi sebagian besar perusahaan, Retrieval-Augmented Generation (RAG) adalah rute yang paling sederhana dan aman. Ini adalah proses yang relatif mudah yang memungkinkan organisasi untuk mengaitkan model mereka dengan data eksklusif yang terdapat dalam database mereka, memastikan bahwa output yang dihasilkan akurat dan spesifik untuk setiap domain.
Pendekatan ini juga membantu mengatasi beberapa masalah halusinasi yang terkait dengan model seperti DeepSeek, yang saat ini berhalusinasi pada 14% kasus dibandingkan dengan 8% untuk model o3 OpenAI, menurut sebuah studi yang dilakukan oleh Vectara.
Kombinasi distilasi model dan RAG adalah letak keajaiban bagi sebagian besar perusahaan, yang telah menjadi sangat mudah diterapkan, bahkan bagi mereka yang memiliki keterampilan terbatas dalam ilmu data atau pemrograman.
AI yang efektif tidak hanya diukur dari segi akurasi mentah, tetapi membutuhkan kerangka kerja evaluasi yang komprehensif yang mempertimbangkan:
Dampak paling langsung dari rilis DeepSeek adalah penurunan harga yang agresif. Industri teknologi memperkirakan biaya akan turun dari waktu ke waktu, tetapi hanya sedikit yang mengantisipasi seberapa cepat hal ini akan terjadi. DeepSeek menunjukkan bahwa model yang kuat dan terbuka dapat menjadi murah dan efisien, menciptakan peluang untuk eksperimen yang luas dan implementasi yang hemat biaya.
Amr Awadallah, CEO Vectara, menekankan hal ini, mencatat bahwa titik kritis yang sebenarnya bukan hanya biaya pelatihan, tetapi biaya inferensi, yang untuk DeepSeek adalah sekitar 1/30 dari model o1 atau o3 OpenAI per biaya inferensi per token. "Margin yang dapat ditangkap oleh OpenAI, Anthropic, dan Google Gemini sekarang harus dikurangi setidaknya 90 persen karena mereka tidak dapat tetap kompetitif dengan harga setinggi itu," kata Awadallah.
Tidak hanya itu, biaya ini akan terus menurun. CEO Anthropic, Dario Amodei, baru-baru ini menyatakan bahwa biaya pengembangan model terus menurun dengan kecepatan sekitar empat kali lipat setiap tahunnya. Sebagai hasilnya, harga yang dikenakan oleh pemasok LLM untuk penggunaannya juga akan terus menurun.
"Saya sepenuhnya berharap biaya akan menjadi nol," kata Ashok Srivastava, CDO Intuit, sebuah perusahaan yang sangat mendorong AI dalam penawaran perangkat lunak pajak dan akuntansi seperti TurboTax dan Quickbooks. "...dan latensi akan menjadi nol. Mereka hanya akan menjadi kemampuan dasar yang dapat kita gunakan."
DeepSeek dan Deep Research dari OpenAI lebih dari sekadar alat baru di gudang senjata AI - mereka adalah tanda-tanda perubahan besar di mana perusahaan akan menggunakan banyak model yang dibuat khusus yang sangat hemat biaya, kompeten, dan berakar pada data dan pendekatan perusahaan sendiri.
Bagi perusahaan, pesannya jelas: alat untuk membangun aplikasi AI khusus domain yang kuat sudah tersedia. Anda berisiko tertinggal jika tidak memanfaatkan alat bantu ini. Namun, kesuksesan yang sesungguhnya akan datang dari cara Anda mengkurasi data, mengeksploitasi teknik seperti RAG dan distilasi, dan berinovasi di luar fase pra-pelatihan.
Seperti yang dikatakan oleh Packer dari AmEx: perusahaan yang mengelola data mereka dengan benar akan menjadi perusahaan yang memimpin gelombang inovasi AI berikutnya.