Industri tak terlihat yang memungkinkan ChatGPT, Stable Diffusion, dan setiap sistem AI modern lainnya
Ketika Anda menggunakan ChatGPT untuk menulis email atau membuat gambar dengan Midjourney, Anda jarang memikirkan apa yang ada di balik 'keajaiban' kecerdasan buatan. Namun, di balik setiap respons cerdas dan setiap gambar yang dihasilkan, terdapat industri bernilai miliaran dolar yang jarang dibicarakan orang: pasar data pelatihan AI.
Sektor ini, yang menurut MarketsandMarkets akan mencapai $9,58 miliar pada tahun 2029 dengan tingkat pertumbuhan 27,7 persen per tahun, adalah mesin kecerdasan buatan modern yang sesungguhnya. Namun, bagaimana sebenarnya cara kerja bisnis tersembunyi ini?
Beberapa perusahaan mendominasi dunia data pelatihan AI yang belum pernah didengar oleh kebanyakan orang:
Scale AI, perusahaan terbesar di industri ini dengan pangsa pasar 28%, baru-baru ini bernilai $29 miliar setelah investasi Meta. Pelanggan perusahaan mereka membayar antara $100.000 hingga beberapa juta dolar per tahun untuk data berkualitas tinggi.
Appen, yang berbasis di Australia, mengoperasikan jaringan global dengan lebih dari 1 juta spesialis di 170 negara yang secara manual menandai dan mengkurasi data untuk AI. Perusahaan seperti Airbnb, John Deere, dan Procter & Gamble menggunakan layanan mereka untuk 'mengajari' model AI mereka.
Secara paralel, ada ekosistem sumber terbuka yang dipimpin oleh organisasi seperti LAION (Large-scale Artificial Intelligence Open Network), sebuah organisasi nirlaba Jerman yang menciptakan LAION-5B, kumpulan data 5,85 miliar pasangan gambar-teks yang memungkinkan Stable Diffusion.
Common Crawl merilis terabyte data web mentah yang digunakan untuk melatih GPT-3, LLaMA, dan banyak model bahasa lainnya setiap bulan.
Yang tidak diketahui publik adalah betapa mahalnya biaya untuk melatih model AI modern. Menurut Epoch AI, biaya telah meningkat 2-3 kali lipat per tahun selama delapan tahun terakhir.
Angka yang paling mengejutkan? Menurut AltIndex.com, biaya pelatihan AI telah meningkat 4.300% sejak tahun 2020.
Salah satu masalah yang paling kontroversial adalah penggunaan materi berhak cipta. Pada bulan Februari 2025, pengadilan Delaware memutuskan dalam kasus Thomson Reuters v. ROSS Intelligence bahwa pelatihan AI dapat dianggap sebagai pelanggaran hak cipta secara langsung, dan menolak pembelaan 'penggunaan wajar'.
Kantor Hak Cipta AS menerbitkan laporan setebal 108 halaman yang menyimpulkan bahwa penggunaan tertentu tidak dapat dipertahankan sebagai penggunaan yang wajar, membuka jalan untuk biaya lisensi yang berpotensi sangat besar bagi perusahaan-perusahaan AI.
Sebuah investigasi oleh MIT Technology Review mengungkapkan bahwa DataComp CommonPool, salah satu kumpulan data yang paling banyak digunakan, berisi jutaan gambar paspor, kartu kredit, dan akta kelahiran. Dengan lebih dari 2 juta unduhan dalam dua tahun terakhir, hal ini menimbulkan masalah privasi yang sangat besar.
Para ahli memperkirakan bahwa pada tahun 2028, mayoritas teks publik yang dibuat oleh manusia yang tersedia secara online akan digunakan. Skenario 'data puncak' ini mendorong perusahaan menuju solusi inovatif:
Undang-Undang Transparansi AI California akan mewajibkan perusahaan untuk mengungkapkan set data yang digunakan untuk pelatihan, sementara Uni Eropa menerapkan persyaratan serupa dalam Undang-Undang AI.
Bagi perusahaan yang ingin mengembangkan solusi AI, memahami ekosistem ini sangatlah penting:
Pasar data pelatihan AI bernilai $9,58 miliar dan tumbuh sebesar 27,7 persen per tahun. Industri yang tak terlihat ini tidak hanya menjadi mesin AI modern, tetapi juga merupakan salah satu tantangan etika dan hukum terbesar di zaman kita.
Pada artikel selanjutnya, kami akan membahas bagaimana perusahaan dapat memasuki dunia ini secara konkret, dengan panduan praktis untuk mulai mengembangkan solusi AI menggunakan kumpulan data dan alat yang tersedia saat ini.
Bagi mereka yang ingin mempelajari lebih lanjut sekarang, kami telah menyusun panduan terperinci dengan peta jalan implementasi, biaya spesifik, dan kumpulan alat yang lengkap - dapat diunduh secara gratis dengan berlangganan newsletter.
Tautan yang berguna untuk segera memulai:
Sumber-sumber teknis:
Jangan menunggu 'revolusi AI'. Ciptakanlah. Sebulan dari sekarang, Anda dapat memiliki model pertama yang berfungsi, sementara yang lain masih dalam tahap perencanaan.