Newsletter

Evolusi LLM: tinjauan singkat tentang pasar

Kurang dari 2 poin persentase yang memisahkan LLM teratas pada tolok ukur utama - perang teknologi berakhir imbang. Pertempuran 2025 yang sebenarnya dimainkan pada ekosistem, distribusi, dan biaya: DeepSeek membuktikan bahwa mereka dapat bersaing dengan $ 5,6 juta vs $ 78-191 juta GPT-4. ChatGPT mendominasi merek (76% kesadaran) meskipun Claude memenangkan 65% tolok ukur teknis. Bagi perusahaan, strategi kemenangan bukanlah memilih 'model terbaik' tetapi mengatur model yang saling melengkapi untuk kasus penggunaan yang berbeda.

Perang Model Bahasa 2025: Dari Paritas Teknis hingga Pertempuran Ekosistem

Pengembangan Model Bahasa Besar telah mencapai titik balik kritis pada tahun 2025: persaingan tidak lagi dimainkan pada kemampuan fundamental model - yang pada dasarnya setara dalam tolok ukur utama - tetapi pada ekosistem, integrasi, dan strategi penyebaran. Sementara Claude Soneta 4.5 dari Anthropic mempertahankan margin sempit keunggulan teknis pada tolok ukur tertentu, pertempuran sebenarnya telah bergeser ke medan yang berbeda.

Undian Teknis: Ketika Angka-angka Sama Rata

Tolok ukur MMLU (Pemahaman Bahasa Multitask Masif)

  • Claude Soneta 4.5: 88,7%.
  • GPT-4o: 88,0%.
  • Gemini 2.0 Flash: 86,9%.
  • DeepSeek-V3: 87,1%.

Perbedaannya kecil-kurang dari 2 poin persentase yang memisahkan perusahaan-perusahaan dengan kinerja terbaik. Menurut Laporan Indeks AI Stanford 2025, "konvergensi kemampuan inti model bahasa mewakili salah satu tren paling signifikan pada tahun 2024-2025, dengan implikasi yang mendalam untuk strategi kompetitif perusahaan AI".

Keterampilan Penalaran (GPQA Diamond)

  • Claude Soneta 4: 65,0%.
  • GPT-4o: 53,6%.
  • Gemini 2.0 Pro: 59,1%.

Claude mempertahankan keunggulan yang signifikan pada tugas-tugas penalaran yang kompleks, tetapi GPT-4o unggul dalam kecepatan respons (latensi rata-rata 1,2 detik vs 2,1 detik milik Claude) dan Gemini dalam pemrosesan multimodal asli.

Revolusi DeepSeek: Pengubah Permainan Tiongkok

Januari 2025 menyaksikan masuknya DeepSeek-V3 yang mengganggu, yang mendemonstrasikan bagaimana model yang kompetitif dapat dikembangkan dengan $5,6 juta vs. $78-191 juta untuk GPT-4/Gemini Ultra. Marc Andreessen menyebutnya sebagai 'salah satu terobosan yang paling menakjubkan - dan sebagai sumber terbuka, hadiah yang sangat besar bagi dunia'.

Spesifikasi DeepSeek-V3:

  • 671 miliar total parameter (37 miliar aktif melalui Mixture-of-Experts)
  • Biaya pelatihan: Rp 5,576M
  • Performa: mengungguli GPT-4o pada beberapa tolok ukur matematika
  • Arsitektur: Perhatian Laten Multi-kepala (MLA) + DeepSeekMoE

Dampaknya: Saham Nvidia turun 17% dalam satu sesi pasca-pengumuman, dengan pasar yang menilai kembali hambatan masuk pengembangan model.

Persepsi Publik vs Realitas Teknis

ChatGPT mempertahankan dominasi kesadaran merek yang tak tertandingi: Penelitian Pew Research Center (Februari 2025) menunjukkan 76% orang Amerika mengasosiasikan 'AI percakapan' secara eksklusif dengan ChatGPT, sementara hanya 12% yang mengenal Claude dan 8% yang secara aktif menggunakan Gemini.

Paradoks: Claude Sonnet 4 mengalahkan GPT-4o pada 65% tolok ukur teknis tetapi hanya memiliki 8% pangsa pasar konsumen vs. 71% ChatGPT (data Similarweb, Maret 2025).

Google merespons dengan integrasi besar-besaran: Gemini 2.0 asli di Penelusuran, Gmail, Dokumen, ekosistem strategi Drive vs. produk mandiri. 2,1 miliar pengguna Google Workspace mewakili distribusi instan tanpa akuisisi pelanggan.

Penggunaan Komputer dan Agen: Perbatasan Berikutnya

Penggunaan Komputer Claude (beta Oktober 2024, produksi Q1 2025)

  • Kemampuan: kontrol mouse/keyboard secara langsung, navigasi browser, interaksi aplikasi
  • Adopsi: 12% klien perusahaan Penggunaan komputer antropik dalam produksi
  • Keterbatasan: masih 14% tingkat kegagalan pada tugas multi-langkah yang kompleks

GPT-4o dengan Visi dan Tindakan

  • Integrasi Zapier: 6000+ aplikasi yang dapat dikontrol
  • GPT khusus: 3 juta diterbitkan, 800 ribu digunakan secara aktif
  • Pembagian pendapatan per GPT kreator: $10 juta didistribusikan pada Q4 2024

Penelitian Mendalam Gemini (Januari 2025)

  • Penelitian multi-sumber yang otonom dengan pembandingan
  • Menghasilkan laporan lengkap dari satu permintaan
  • Waktu rata-rata: 8-12 menit per 5000+ kata laporan

Gartner memprediksi 33% pekerja pengetahuan akan menggunakan agen AI otonom pada akhir tahun 2025, dibandingkan dengan 5% saat ini.

Perbedaan Filosofis tentang Keamanan

OpenAI: Pendekatan 'Keamanan Melalui Pembatasan'

  • Menolak 8,7% konsumen yang meminta (data kebocoran internal OpenAI)
  • Kebijakan konten yang ketat menyebabkan 23% pengembang beralih ke alternatif lain
  • Kerangka Kerja Kesiapsiagaan Publik dengan tim penanggulangan bencana yang berkesinambungan

Antropik: 'AI Konstitusional'

  • Model dilatih tentang prinsip-prinsip etika yang eksplisit
  • Penolakan selektif: 3,1% cepat (OpenAI yang lebih permisif)
  • Pengambilan keputusan yang transparan: jelaskan mengapa menolak permintaan

Google: 'Keamanan Maksimal, Kontroversi Minimal'.

  • Filter pasar yang lebih ketat: 11,2% segera diblokir
  • Kegagalan Gambar Gemini Februari 2024 (koreksi bias berlebihan) memandu kehati-hatian yang ekstrem
  • Fokus perusahaan mengurangi toleransi risiko

Meta Llama 3.1: tidak ada filter bawaan, tanggung jawab pada filosofi yang berlawanan dengan pelaksana.

Spesialisasi Vertikal: Pembeda Sejati

Kesehatan:

  • Med-PaLM 2 (Google): 85,4% di MedQA (vs. 77% dokter manusia terbaik)
  • Claude di Epic Systems: diadopsi oleh 305 rumah sakit di Amerika Serikat untuk dukungan keputusan klinis

Legal:

  • Harvey AI (GPT-4 yang disesuaikan): 102 firma hukum 100 teratas, ARR $ 100 juta
  • CoCounsel (Thomson Reuters + Claude): penelitian hukum dengan akurasi 98%

Keuangan:

  • Bloomberg GPT: dilatih dengan token keuangan berpemilik 363B
  • Goldman Sachs Marcus AI (basis GPT-4): menyetujui pinjaman 40% lebih cepat

Vertikalisasi menghasilkan 3,5x kesediaan untuk membayar vs model generik (survei McKinsey, 500 pembeli perusahaan).

Llama 3.1: Strategi Sumber Terbuka Meta

Parameter 405B, kemampuan bersaing dengan GPT-4o pada banyak tolok ukur, bobot terbuka sepenuhnya. Strategi Meta: mengkomersialkan lapisan infrastruktur untuk bersaing di lapisan produk (kacamata Ray-Ban Meta, WhatsApp AI).

Adopsi Llama 3.1:

  • 350 ribu+ unduhan di bulan pertama
  • 50+ perusahaan rintisan membangun vertikal AI di Llama
  • Biaya hosting yang dikelola sendiri: $12 ribu/bulan vs $50 ribu+ biaya API model tertutup untuk penggunaan yang setara

Berlawanan dengan intuisi: Meta kehilangan miliaran dolar untuk Reality Labs tetapi berinvestasi besar-besaran dalam AI terbuka untuk melindungi bisnis inti periklanan.

Jendela Konteks: Perlombaan untuk Jutaan Token

  • Claude Soneta 4.5: 200 ribu token
  • Gemini 2.0 Pro: token 2M (token terpanjang yang tersedia secara komersial)
  • GPT-4 Turbo: 128 ribu token

Konteks Gemini 2M memungkinkan analisis seluruh basis kode, 10+ jam video, ribuan halaman dokumentasi - kasus penggunaan transformatif perusahaan. Google Cloud melaporkan 43% POC perusahaan menggunakan konteks >500 ribu token.

Kemampuan Beradaptasi dan Kustomisasi

Proyek & Gaya Claude:

  • Instruksi lintas percakapan khusus yang persisten
  • Preset gaya: Formal, Ringkas, Penjelasan
  • Unggah basis pengetahuan (hingga 5GB dokumen)

Toko GPT & GPT Khusus:

  • 3M GPT diterbitkan, 800 ribu penggunaan aktif bulanan
  • Kreator teratas mendapatkan $63 ribu/bulan (bagi hasil)
  • 71% perusahaan menggunakan ≥1 GPT khusus secara internal

Ekstensi Gemini:

  • Integrasi asli Gmail, Kalender, Drive, Peta
  • Konteks ruang kerja: membaca email+kalender untuk mendapatkan saran proaktif
  • 1.2B tindakan ruang kerja yang dilakukan Q4 2024

Kunci: 'prompt tunggal' untuk 'asisten yang gigih dengan memori dan konteks lintas sesi'.

Perkembangan Kuartal I 2025 dan Lintasan Masa Depan

Tren 1: Dominasi Campuran PakarSemuamodel 2025 tingkat atas menggunakan MoE (mengaktifkan parameter subset per kueri):

  • Pengurangan biaya inferensi 40-60%.
  • Latensi yang lebih baik dengan tetap mempertahankan kualitas
  • DeepSeek, GPT-4, Gemini Ultra, semuanya berbasis MoE

Tren 2: Multimodalitas Multimodalitas asliGemini2.0 multimodalitas asli (bukan modul yang direkatkan secara terpisah):

  • Pemahaman teks + gambar + audio + video secara simultan
  • Penalaran lintas modalitas: "bandingkan foto bangunan bergaya arsitektur dengan deskripsi tekstual periode sejarah".

Tren 3: Uji Waktu Komputasi (Model Penalaran)OpenAI o1, DeepSeek-R1: menggunakan lebih banyak waktu pemrosesan untuk penalaran yang kompleks:

  • o1: 30-60 detik per masalah matematika yang kompleks vs. 2 detik GPT-4o
  • Akurasi AIME 2024: 83,3% vs 13,4% GPT-4o
  • Pertukaran latensi/akurasi yang eksplisit

Tren 4: Alur Kerja AgenModelContext Protocol (MCP) Antropik, November 2024:

  • Standar terbuka bagi agen AI untuk berinteraksi dengan alat/database
  • 50+ mitra adopsi dalam 3 bulan pertama
  • Memungkinkan agen untuk membangun memori lintas interaksi yang persisten

Perang Biaya dan Harga

Harga API untuk token 1M (input):

  • GPT-4o: $ 2,50
  • Claude Soneta 4: $ 3,00
  • Gemini 2.0 Flash: $0,075 (33x lebih murah)
  • DeepSeek-V3: $ 0,27 (sumber terbuka, biaya hosting)

Studi kasus Gemini Flash: ringkasan AI startup mengurangi biaya 94% beralih dari GPT-4o-kualitas yang sama, latensi yang sebanding.

Komoditasisasi semakin cepat: biaya inferensi -70% dari tahun ke tahun 2023-2024 (data Epoch AI).

Implikasi Strategis bagi Perusahaan

Kerangka Kerja Keputusan: Model Mana yang Harus Dipilih?

Skenario 1: Keselamatan Perusahaan-Kritis→Claude Soneta 4

  • Perawatan kesehatan, hukum, keuangan di mana kesalahan dapat merugikan jutaan orang
  • AI konstitusional mengurangi risiko tanggung jawab
  • Penetapan harga premi yang dibenarkan oleh mitigasi risiko

Skenario 2: Volume Tinggi, Biaya Sensitif→Gemini Flash atau DeepSeek

  • Chatbot layanan pelanggan, moderasi konten, klasifikasi
  • Performa 'cukup baik', volume 10x-100x
  • Biaya pembeda utama

Skenario 3: Penguncian Ekosistem→Gemini untuk Google Workspace, GPT untuk Microsoft

  • Sudah berinvestasi dalam ekosistem
  • Integrasi asli > kinerja marjinal yang unggul
  • Biaya pelatihan karyawan pada platform yang ada

Skenario 4: Kustomisasi/Kontrol→Llama 3.1 atau DeepSeek terbuka

  • Persyaratan kepatuhan khusus (residensi data, audit)
  • Penyempurnaan berat pada data kepemilikan
  • Hosting mandiri yang ekonomis berdasarkan volume

Kesimpulan: Dari Perang Teknologi ke Perang Platform

Kompetisi LLM 2025 bukan lagi 'model mana yang paling masuk akal', melainkan 'ekosistem mana yang paling banyak menangkap nilai'. OpenAI mendominasi merek konsumen, Google memanfaatkan distribusi miliaran pengguna, Anthropic memenangkan perusahaan yang sadar akan keselamatan, Meta mengkomoditaskan infrastruktur.

Prediksi 2026-2027:

  • Konvergensi kinerja inti lebih lanjut (~ 90% MMLU semua 5 teratas)
  • Diferensiasi pada: kecepatan, biaya, integrasi, spesialisasi vertikal
  • Agen otonom multi-langkah menjadi arus utama (33% pekerja pengetahuan)
  • Sumber terbuka menutup kesenjangan kualitas, mempertahankan keunggulan biaya/kustomisasi

Pemenang Akhir? Mungkin bukan pemain tunggal, melainkan ekosistem yang saling melengkapi yang melayani berbagai klaster kasus penggunaan. Sebagai OS smartphone (iOS + Android hidup berdampingan), bukan 'pemenang mengambil semua' tetapi 'pemenang mengambil segmen'.

Untuk perusahaan: strategi multi-model menjadi standar-GPT untuk tugas-tugas umum, Claude untuk penalaran berisiko tinggi, Gemini Flash untuk volume, Llama yang disetel khusus untuk hak milik.

Tahun 2025 bukanlah tahun 'model terbaik', melainkan tahun orkestrasi cerdas antara model-model yang saling melengkapi.

Sumber:

  • Laporan Indeks AI Stanford 2025
  • Kartu Model Antropik Claude Soneta 4.5
  • Laporan Teknis OpenAI GPT-4o
  • Kartu Sistem Google DeepMind Gemini 2.0
  • Makalah Teknis DeepSeek-V3 (arXiv)
  • Epoch AI - Tren dalam Pembelajaran Mesin
  • Gartner AI & Analytics Summit 2025
  • Laporan McKinsey tentang Kondisi AI 2025
  • Survei Adopsi AI oleh Pew Research Center
  • Intelijen Platform Similarweb