Cara melatih model kecerdasan buatan
Pelatihan model kecerdasan buatan merupakan salah satu tantangan paling kompleks dalam perkembangan teknologi kontemporer. Lebih dari sekadar masalah algoritmik sederhana, pelatihan model yang efektif membutuhkan pendekatan metodis dan multidisiplin yang mengintegrasikan ilmu data, pengetahuan domain, dan rekayasa perangkat lunak. Seperti yang ditunjukkan oleh James Luke dalam buku'Beyond Algorithms: Delivering AI for Business', keberhasilan implementasi AI lebih bergantung pada manajemen data dan desain sistemik daripada algoritme itu sendiri. Lanskap ini berubah dengan cepat, dengan inovasi seperti model DeepSeek-R1 yang mendefinisikan ulang biaya dan aksesibilitas.
Landasan: pengumpulan dan pengelolaan data
Kualitas daripada kuantitas
Berlawanan dengan apa yang sering dipercaya, kuantitas data tidak selalu menjadi faktor penentu keberhasilan. Kualitas dan keterwakilan data jauh lebih penting. Dalam konteks ini, sangat penting untuk mengintegrasikan berbagai sumber:
- Data hak milik: dikumpulkan secara etis dan dianonimkan oleh implementasi yang ada
- Data resmi: Bersumber dari pemasok terpercaya yang memenuhi standar kualitas yang ketat
- Dataset sumber terbuka: Diverifikasi dengan cermat untuk memastikan keragaman dan akurasi
- Data sintetis: dibuat secara artifisial untuk mengisi celah dan menyelesaikan masalah privasi
Integrasi ini menciptakan basis pelatihan komprehensif yang menangkap skenario dunia nyata dengan tetap mempertahankan standar etika dan privasi.
Tantangan persiapan data
Proses 'data wrangling' menyumbang hingga 80 persen dari upaya yang diperlukan dalam proyek kecerdasan buatan. Fase ini melibatkan:
- Pembersihan data: Penghapusan inkonsistensi, duplikasi, dan pencilan
- Transformasi data: Konversi ke format yang sesuai untuk pemrosesan
- Integrasi data: Penggabungan berbagai sumber yang sering kali menggunakan skema dan format yang tidak kompatibel
- Menangani data yang hilang: Strategi seperti imputasi statistik atau penggunaan data proksi
Seperti yang dikatakan oleh Hilary Packer, CTO American Express: 'Momen aha! bagi kami, sejujurnya, adalah data. Anda bisa membuat pemilihan model terbaik di dunia... tetapi data adalah kuncinya. Validasi dan akurasi adalah cawan suci saat ini dalam AI generatif."
Arsitektur model: ukuran yang tepat
Pemilihan arsitektur model harus dipandu oleh sifat spesifik dari masalah yang akan dipecahkan, dan bukan oleh kecenderungan atau preferensi pribadi. Jenis masalah yang berbeda memerlukan pendekatan yang berbeda:
- Model bahasa berbasis transformator untuk tugas yang membutuhkan pemahaman linguistik yang mendalam
- Jaringan saraf konvolusional untuk pengenalan gambar dan pola
- Jaringan saraf tiruan grafis untuk menganalisis hubungan yang kompleks antar entitas
- Pembelajaran penguatan untuk masalah optimasi dan keputusan
- Arsitektur hibrida yang menggabungkan beberapa pendekatan untuk kasus penggunaan yang kompleks
Optimalisasi arsitektur memerlukan evaluasi sistematis antara konfigurasi yang berbeda, dengan fokus pada keseimbangan antara kinerja dan kebutuhan komputasi, sebuah aspek yang semakin relevan dengan munculnya model seperti DeepSeek-R1 yang menawarkan kemampuan penalaran tingkat lanjut dengan biaya yang jauh lebih rendah.
Metodologi pelatihan tingkat lanjut
Penyulingan model
Distilasi telah muncul sebagai alat yang sangat kuat dalam ekosistem AI saat ini. Proses ini memungkinkan untuk membuat model yang lebih kecil dan lebih spesifik yang mewarisi kemampuan penalaran model yang lebih besar dan lebih kompleks, seperti DeepSeek-R1.
Seperti yang ditunjukkan dalam kasus DeepSeek, perusahaan menyaring kemampuan penalarannya pada beberapa model yang lebih kecil, termasuk model sumber terbuka dari keluarga Llama Meta dan keluarga Qwen Alibaba. Model-model yang lebih kecil ini kemudian dapat dioptimalkan untuk tugas-tugas tertentu, mempercepat tren ke arah model yang cepat dan terspesialisasi.
Sam Witteveen, pengembang pembelajaran mesin, mengamati: "Kita mulai memasuki dunia di mana orang menggunakan banyak model. Mereka tidak hanya menggunakan satu model sepanjang waktu." Ini termasuk model tertutup berbiaya rendah seperti Gemini Flash dan GPT-4o Mini, yang "bekerja dengan sangat baik untuk 80 persen kasus penggunaan."
Pembelajaran multi-tugas
Alih-alih melatih model secara terpisah untuk keterampilan yang terkait, pembelajaran multi-tugas memungkinkan model untuk berbagi pengetahuan di antara fungsi yang berbeda:
- Model secara simultan mengoptimalkan beberapa tujuan terkait
- Fungsionalitas dasar mendapat manfaat dari paparan yang lebih luas untuk berbagai tugas yang berbeda
- Performa meningkat di semua tugas, terutama yang memiliki data terbatas
- Efisiensi komputasi meningkat melalui pembagian komponen
Penyempurnaan yang diawasi (SFT)
Untuk perusahaan yang beroperasi di domain yang sangat spesifik, di mana informasi tidak tersedia secara luas di web atau di buku-buku yang biasanya digunakan untuk melatih model bahasa, supervised fine-tuning (SFT) adalah pilihan yang efektif.
DeepSeek menunjukkan bahwa sangat mungkin untuk mencapai hasil yang baik dengan 'ribuan' set data pertanyaan dan jawaban. Sebagai contoh, insinyur IBM, Chris Hay, menunjukkan bagaimana ia membuat model kecil menggunakan set data khusus matematika miliknya dan memperoleh jawaban yang sangat cepat yang melebihi performa model o1 OpenAI pada tugas yang sama.
Pembelajaran Penguatan (RL)
Perusahaan yang ingin melatih model dengan penyelarasan lebih lanjut terhadap preferensi tertentu - misalnya, membuat chatbot dukungan pelanggan berempati tetapi ringkas - akan ingin menerapkan teknik pembelajaran penguatan (RL). Pendekatan ini sangat berguna jika perusahaan ingin chatbot-nya menyesuaikan nada dan rekomendasinya berdasarkan umpan balik pengguna.
Generasi Pengambilan-Penambahan (RAG)
Bagi sebagian besar perusahaan, Retrieval-Augmented Generation (RAG) adalah rute yang paling sederhana dan aman. Ini adalah proses yang relatif mudah yang memungkinkan organisasi untuk mengaitkan model mereka dengan data eksklusif yang terdapat dalam database mereka, memastikan bahwa output yang dihasilkan akurat dan spesifik untuk setiap domain.
Pendekatan ini juga membantu mengatasi beberapa masalah halusinasi yang terkait dengan model seperti DeepSeek, yang saat ini berhalusinasi pada 14% kasus dibandingkan dengan 8% untuk model o3 OpenAI, menurut sebuah studi yang dilakukan oleh Vectara.
Kombinasi distilasi model dan RAG adalah letak keajaiban bagi sebagian besar perusahaan, yang telah menjadi sangat mudah diterapkan, bahkan bagi mereka yang memiliki keterampilan terbatas dalam ilmu data atau pemrograman.
Evaluasi dan penyempurnaan: di luar metrik akurasi
AI yang efektif tidak hanya diukur dari segi akurasi mentah, tetapi membutuhkan kerangka kerja evaluasi yang komprehensif yang mempertimbangkan:
- Akurasi Fungsional: Frekuensi model menghasilkan hasil yang benar
- Kekokohan: Konsistensi kinerja dengan berbagai input dan kondisi
- Ekuitas: Performa yang konsisten di berbagai kelompok pengguna dan skenario yang berbeda
- Kalibrasi: Penyelarasan antara skor keyakinan dan akurasi aktual
- Efisiensi: Kebutuhan komputasi dan memori
- Keterjelasan: Transparansi proses pengambilan keputusan, sebuah aspek di mana model yang disaring DeepSeek unggul, menunjukkan proses penalaran mereka
Dampak dari kurva biaya
Dampak paling langsung dari rilis DeepSeek adalah penurunan harga yang agresif. Industri teknologi memperkirakan biaya akan turun dari waktu ke waktu, tetapi hanya sedikit yang mengantisipasi seberapa cepat hal ini akan terjadi. DeepSeek menunjukkan bahwa model yang kuat dan terbuka dapat menjadi murah dan efisien, menciptakan peluang untuk eksperimen yang luas dan implementasi yang hemat biaya.
Amr Awadallah, CEO Vectara, menekankan hal ini, mencatat bahwa titik kritis yang sebenarnya bukan hanya biaya pelatihan, tetapi biaya inferensi, yang untuk DeepSeek adalah sekitar 1/30 dari model o1 atau o3 OpenAI per biaya inferensi per token. "Margin yang dapat ditangkap oleh OpenAI, Anthropic, dan Google Gemini sekarang harus dikurangi setidaknya 90 persen karena mereka tidak dapat tetap kompetitif dengan harga setinggi itu," kata Awadallah.
Tidak hanya itu, biaya ini akan terus menurun. CEO Anthropic, Dario Amodei, baru-baru ini menyatakan bahwa biaya pengembangan model terus menurun dengan kecepatan sekitar empat kali lipat setiap tahunnya. Sebagai hasilnya, harga yang dikenakan oleh pemasok LLM untuk penggunaannya juga akan terus menurun.
"Saya sepenuhnya berharap biaya akan menjadi nol," kata Ashok Srivastava, CDO Intuit, sebuah perusahaan yang sangat mendorong AI dalam penawaran perangkat lunak pajak dan akuntansi seperti TurboTax dan Quickbooks. "...dan latensi akan menjadi nol. Mereka hanya akan menjadi kemampuan dasar yang dapat kita gunakan."
Kesimpulan: Masa depan AI bisnis adalah terbuka, murah, dan berbasis data
DeepSeek dan Deep Research dari OpenAI lebih dari sekadar alat baru di gudang senjata AI - mereka adalah tanda-tanda perubahan besar di mana perusahaan akan menggunakan banyak model yang dibuat khusus yang sangat hemat biaya, kompeten, dan berakar pada data dan pendekatan perusahaan sendiri.
Bagi perusahaan, pesannya jelas: alat untuk membangun aplikasi AI khusus domain yang kuat sudah tersedia. Anda berisiko tertinggal jika tidak memanfaatkan alat bantu ini. Namun, kesuksesan yang sesungguhnya akan datang dari cara Anda mengkurasi data, mengeksploitasi teknik seperti RAG dan distilasi, dan berinovasi di luar fase pra-pelatihan.
Seperti yang dikatakan oleh Packer dari AmEx: perusahaan yang mengelola data mereka dengan benar akan menjadi perusahaan yang memimpin gelombang inovasi AI berikutnya.


