Evolusi LLM: tinjauan singkat tentang pasar

Newsletter

Evolusi LLM: tinjauan singkat tentang pasar

Kurang dari 2 poin persentase yang memisahkan LLM teratas pada tolok ukur utama - perang teknologi berakhir imbang. Pertempuran 2025 yang sebenarnya dimainkan pada ekosistem, distribusi, dan biaya: DeepSeek membuktikan bahwa mereka dapat bersaing dengan $ 5,6 juta vs $ 78-191 juta GPT-4. ChatGPT mendominasi merek (76% kesadaran) meskipun Claude memenangkan 65% tolok ukur teknis. Bagi perusahaan, strategi kemenangan bukanlah memilih 'model terbaik' tetapi mengatur model yang saling melengkapi untuk kasus penggunaan yang berbeda.

CEO & Pendiri Electe‍

Ringkas Artikel Ini dengan AI

Perang Model Bahasa 2025: Dari Paritas Teknis hingga Pertempuran Ekosistem

Pengembangan Model Bahasa Besar telah mencapai titik balik kritis pada tahun 2025: persaingan tidak lagi dimainkan pada kemampuan fundamental model - yang pada dasarnya setara dalam tolok ukur utama - tetapi pada ekosistem, integrasi, dan strategi penyebaran. Sementara Claude Soneta 4.5 dari Anthropic mempertahankan margin sempit keunggulan teknis pada tolok ukur tertentu, pertempuran sebenarnya telah bergeser ke medan yang berbeda.

Undian Teknis: Ketika Angka-angka Sama Rata

Tolok ukur MMLU (Pemahaman Bahasa Multitask Masif)

Claude Soneta 4.5: 88,7%.
GPT-4o: 88,0%.
Gemini 2.0 Flash: 86,9%.
DeepSeek-V3: 87,1%.

Perbedaannya kecil-kurang dari 2 poin persentase yang memisahkan perusahaan-perusahaan dengan kinerja terbaik. Menurut Laporan Indeks AI Stanford 2025, "konvergensi kemampuan inti model bahasa mewakili salah satu tren paling signifikan pada tahun 2024-2025, dengan implikasi yang mendalam untuk strategi kompetitif perusahaan AI".

Keterampilan Penalaran (GPQA Diamond)

Claude Soneta 4: 65,0%.
GPT-4o: 53,6%.
Gemini 2.0 Pro: 59,1%.

Claude mempertahankan keunggulan yang signifikan pada tugas-tugas penalaran yang kompleks, tetapi GPT-4o unggul dalam kecepatan respons (latensi rata-rata 1,2 detik vs 2,1 detik milik Claude) dan Gemini dalam pemrosesan multimodal asli.

Revolusi DeepSeek: Pengubah Permainan Tiongkok

Januari 2025 menyaksikan masuknya DeepSeek-V3 yang mengganggu, yang mendemonstrasikan bagaimana model yang kompetitif dapat dikembangkan dengan $5,6 juta vs. $78-191 juta untuk GPT-4/Gemini Ultra. Marc Andreessen menyebutnya sebagai 'salah satu terobosan yang paling menakjubkan - dan sebagai sumber terbuka, hadiah yang sangat besar bagi dunia'.

Spesifikasi DeepSeek-V3:

671 miliar total parameter (37 miliar aktif melalui Mixture-of-Experts)
Biaya pelatihan: Rp 5,576M
Performa: mengungguli GPT-4o pada beberapa tolok ukur matematika
Arsitektur: Perhatian Laten Multi-kepala (MLA) + DeepSeekMoE

Dampaknya: Saham Nvidia turun 17% dalam satu sesi pasca-pengumuman, dengan pasar yang menilai kembali hambatan masuk pengembangan model.

Persepsi Publik vs Realitas Teknis

ChatGPT mempertahankan dominasi kesadaran merek yang tak tertandingi: Penelitian Pew Research Center (Februari 2025) menunjukkan 76% orang Amerika mengasosiasikan 'AI percakapan' secara eksklusif dengan ChatGPT, sementara hanya 12% yang mengenal Claude dan 8% yang secara aktif menggunakan Gemini.

Paradoks: Claude Sonnet 4 mengalahkan GPT-4o pada 65% tolok ukur teknis tetapi hanya memiliki 8% pangsa pasar konsumen vs. 71% ChatGPT (data Similarweb, Maret 2025).

Google merespons dengan integrasi besar-besaran: Gemini 2.0 asli di Penelusuran, Gmail, Dokumen, ekosistem strategi Drive vs. produk mandiri. 2,1 miliar pengguna Google Workspace mewakili distribusi instan tanpa akuisisi pelanggan.

Penggunaan Komputer dan Agen: Perbatasan Berikutnya

Penggunaan Komputer Claude (beta Oktober 2024, produksi Q1 2025)

Kemampuan: kontrol mouse/keyboard secara langsung, navigasi browser, interaksi aplikasi
Adopsi: 12% klien perusahaan Penggunaan komputer antropik dalam produksi
Keterbatasan: masih 14% tingkat kegagalan pada tugas multi-langkah yang kompleks

GPT-4o dengan Visi dan Tindakan

Integrasi Zapier: 6000+ aplikasi yang dapat dikontrol
GPT khusus: 3 juta diterbitkan, 800 ribu digunakan secara aktif
Pembagian pendapatan per GPT kreator: $10 juta didistribusikan pada Q4 2024

Penelitian Mendalam Gemini (Januari 2025)

Penelitian multi-sumber yang otonom dengan pembandingan
Menghasilkan laporan lengkap dari satu permintaan
Waktu rata-rata: 8-12 menit per 5000+ kata laporan

Gartner memprediksi 33% pekerja pengetahuan akan menggunakan agen AI otonom pada akhir tahun 2025, dibandingkan dengan 5% saat ini.

Perbedaan Filosofis tentang Keamanan

OpenAI: Pendekatan 'Keamanan Melalui Pembatasan'

Menolak 8,7% konsumen yang meminta (data kebocoran internal OpenAI)
Kebijakan konten yang ketat menyebabkan 23% pengembang beralih ke alternatif lain
Kerangka Kerja Kesiapsiagaan Publik dengan tim penanggulangan bencana yang berkesinambungan

Antropik: 'AI Konstitusional'

Model dilatih tentang prinsip-prinsip etika yang eksplisit
Penolakan selektif: 3,1% cepat (OpenAI yang lebih permisif)
Pengambilan keputusan yang transparan: jelaskan mengapa menolak permintaan

Google: 'Keamanan Maksimal, Kontroversi Minimal'.

Filter pasar yang lebih ketat: 11,2% segera diblokir
Kegagalan Gambar Gemini Februari 2024 (koreksi bias berlebihan) memandu kehati-hatian yang ekstrem
Fokus perusahaan mengurangi toleransi risiko

Meta Llama 3.1: tidak ada filter bawaan, tanggung jawab pada filosofi yang berlawanan dengan pelaksana.

Spesialisasi Vertikal: Pembeda Sejati

Kesehatan:

Med-PaLM 2 (Google): 85,4% di MedQA (vs. 77% dokter manusia terbaik)
Claude di Epic Systems: diadopsi oleh 305 rumah sakit di Amerika Serikat untuk dukungan keputusan klinis

Legal:

Harvey AI (GPT-4 yang disesuaikan): 102 firma hukum 100 teratas, ARR $ 100 juta
CoCounsel (Thomson Reuters + Claude): penelitian hukum dengan akurasi 98%

Keuangan:

Bloomberg GPT: dilatih dengan token keuangan berpemilik 363B
Goldman Sachs Marcus AI (basis GPT-4): menyetujui pinjaman 40% lebih cepat

Vertikalisasi menghasilkan 3,5x kesediaan untuk membayar vs model generik (survei McKinsey, 500 pembeli perusahaan).

Llama 3.1: Strategi Sumber Terbuka Meta

Parameter 405B, kemampuan bersaing dengan GPT-4o pada banyak tolok ukur, bobot terbuka sepenuhnya. Strategi Meta: mengkomersialkan lapisan infrastruktur untuk bersaing di lapisan produk (kacamata Ray-Ban Meta, WhatsApp AI).

Adopsi Llama 3.1:

350 ribu+ unduhan di bulan pertama
50+ perusahaan rintisan membangun vertikal AI di Llama
Biaya hosting yang dikelola sendiri: $12 ribu/bulan vs $50 ribu+ biaya API model tertutup untuk penggunaan yang setara

Berlawanan dengan intuisi: Meta kehilangan miliaran dolar untuk Reality Labs tetapi berinvestasi besar-besaran dalam AI terbuka untuk melindungi bisnis inti periklanan.

Jendela Konteks: Perlombaan untuk Jutaan Token

Claude Soneta 4.5: 200 ribu token
Gemini 2.0 Pro: token 2M (token terpanjang yang tersedia secara komersial)
GPT-4 Turbo: 128 ribu token

Konteks Gemini 2M memungkinkan analisis seluruh basis kode, 10+ jam video, ribuan halaman dokumentasi - kasus penggunaan transformatif perusahaan. Google Cloud melaporkan 43% POC perusahaan menggunakan konteks >500 ribu token.

Kemampuan Beradaptasi dan Kustomisasi

Proyek & Gaya Claude:

Instruksi lintas percakapan khusus yang persisten
Preset gaya: Formal, Ringkas, Penjelasan
Unggah basis pengetahuan (hingga 5GB dokumen)

Toko GPT & GPT Khusus:

3M GPT diterbitkan, 800 ribu penggunaan aktif bulanan
Kreator teratas mendapatkan $63 ribu/bulan (bagi hasil)
71% perusahaan menggunakan ≥1 GPT khusus secara internal

Ekstensi Gemini:

Integrasi asli Gmail, Kalender, Drive, Peta
Konteks ruang kerja: membaca email+kalender untuk mendapatkan saran proaktif
1.2B tindakan ruang kerja yang dilakukan Q4 2024

Kunci: 'prompt tunggal' untuk 'asisten yang gigih dengan memori dan konteks lintas sesi'.

Perkembangan Kuartal I 2025 dan Lintasan Masa Depan

Tren 1: Dominasi Campuran PakarSemuamodel 2025 tingkat atas menggunakan MoE (mengaktifkan parameter subset per kueri):

Pengurangan biaya inferensi 40-60%.
Latensi yang lebih baik dengan tetap mempertahankan kualitas
DeepSeek, GPT-4, Gemini Ultra, semuanya berbasis MoE

Tren 2: Multimodalitas Multimodalitas asliGemini2.0 multimodalitas asli (bukan modul yang direkatkan secara terpisah):

Pemahaman teks + gambar + audio + video secara simultan
Penalaran lintas modalitas: "bandingkan foto bangunan bergaya arsitektur dengan deskripsi tekstual periode sejarah".

Tren 3: Uji Waktu Komputasi (Model Penalaran)OpenAI o1, DeepSeek-R1: menggunakan lebih banyak waktu pemrosesan untuk penalaran yang kompleks:

o1: 30-60 detik per masalah matematika yang kompleks vs. 2 detik GPT-4o
Akurasi AIME 2024: 83,3% vs 13,4% GPT-4o
Pertukaran latensi/akurasi yang eksplisit

Tren 4: Alur Kerja AgenModelContext Protocol (MCP) Antropik, November 2024:

Standar terbuka bagi agen AI untuk berinteraksi dengan alat/database
50+ mitra adopsi dalam 3 bulan pertama
Memungkinkan agen untuk membangun memori lintas interaksi yang persisten

Perang Biaya dan Harga

Harga API untuk token 1M (input):

GPT-4o: $ 2,50
Claude Soneta 4: $ 3,00
Gemini 2.0 Flash: $0,075 (33x lebih murah)
DeepSeek-V3: $ 0,27 (sumber terbuka, biaya hosting)

Studi kasus Gemini Flash: ringkasan AI startup mengurangi biaya 94% beralih dari GPT-4o-kualitas yang sama, latensi yang sebanding.

Komoditasisasi semakin cepat: biaya inferensi -70% dari tahun ke tahun 2023-2024 (data Epoch AI).

Implikasi Strategis bagi Perusahaan

Kerangka Kerja Keputusan: Model Mana yang Harus Dipilih?

Skenario 1: Keselamatan Perusahaan-Kritis→Claude Soneta 4

Perawatan kesehatan, hukum, keuangan di mana kesalahan dapat merugikan jutaan orang
AI konstitusional mengurangi risiko tanggung jawab
Penetapan harga premi yang dibenarkan oleh mitigasi risiko

Skenario 2: Volume Tinggi, Biaya Sensitif→Gemini Flash atau DeepSeek

Chatbot layanan pelanggan, moderasi konten, klasifikasi
Performa 'cukup baik', volume 10x-100x
Biaya pembeda utama

Skenario 3: Penguncian Ekosistem→Gemini untuk Google Workspace, GPT untuk Microsoft

Sudah berinvestasi dalam ekosistem
Integrasi asli > kinerja marjinal yang unggul
Biaya pelatihan karyawan pada platform yang ada

Skenario 4: Kustomisasi/Kontrol→Llama 3.1 atau DeepSeek terbuka

Persyaratan kepatuhan khusus (residensi data, audit)
Penyempurnaan berat pada data kepemilikan
Hosting mandiri yang ekonomis berdasarkan volume

Kesimpulan: Dari Perang Teknologi ke Perang Platform

Kompetisi LLM 2025 bukan lagi 'model mana yang paling masuk akal', melainkan 'ekosistem mana yang paling banyak menangkap nilai'. OpenAI mendominasi merek konsumen, Google memanfaatkan distribusi miliaran pengguna, Anthropic memenangkan perusahaan yang sadar akan keselamatan, Meta mengkomoditaskan infrastruktur.

Prediksi 2026-2027:

Konvergensi kinerja inti lebih lanjut (~ 90% MMLU semua 5 teratas)
Diferensiasi pada: kecepatan, biaya, integrasi, spesialisasi vertikal
Agen otonom multi-langkah menjadi arus utama (33% pekerja pengetahuan)
Sumber terbuka menutup kesenjangan kualitas, mempertahankan keunggulan biaya/kustomisasi

Pemenang Akhir? Mungkin bukan pemain tunggal, melainkan ekosistem yang saling melengkapi yang melayani berbagai klaster kasus penggunaan. Sebagai OS smartphone (iOS + Android hidup berdampingan), bukan 'pemenang mengambil semua' tetapi 'pemenang mengambil segmen'.

Untuk perusahaan: strategi multi-model menjadi standar-GPT untuk tugas-tugas umum, Claude untuk penalaran berisiko tinggi, Gemini Flash untuk volume, Llama yang disetel khusus untuk hak milik.

Tahun 2025 bukanlah tahun 'model terbaik', melainkan tahun orkestrasi cerdas antara model-model yang saling melengkapi.

Sumber:

Laporan Indeks AI Stanford 2025
Kartu Model Antropik Claude Soneta 4.5
Laporan Teknis OpenAI GPT-4o
Kartu Sistem Google DeepMind Gemini 2.0
Makalah Teknis DeepSeek-V3 (arXiv)
Epoch AI - Tren dalam Pembelajaran Mesin
Gartner AI & Analytics Summit 2025
Laporan McKinsey tentang Kondisi AI 2025
Survei Adopsi AI oleh Pew Research Center
Intelijen Platform Similarweb

Sumber daya untuk pertumbuhan bisnis

26 Desember 2025

Analisis Indeks Laporan Keuangan: Panduan Lengkap untuk Usaha Kecil dan Menengah

Analisis Indeks Laporan Keuangan: Panduan Lengkap untuk Usaha Kecil dan Menengah

Panduan lengkap untuk analisis rasio neraca. Pelajari cara menghitung, menginterpretasikan, dan mengotomatisasi indikator untuk mengembangkan usaha kecil dan menengah (UKM) Anda.

25 Desember 2025

Panduan Desain Eksperimen: Cara Mengambil Keputusan yang Lebih Baik dengan Data

Panduan Desain Eksperimen: Cara Mengambil Keputusan yang Lebih Baik dengan Data

Pelajari cara menggunakan desain eksperimen (DOE) untuk mengoptimalkan proses, mengurangi biaya, dan mengambil keputusan berdasarkan data. Panduan untuk analis dan manajer.

24 Desember 2025

Bagaimana cara mengonversi file PDF ke Excel tanpa kehilangan formatnya?

Bagaimana cara mengonversi file PDF ke Excel tanpa kehilangan formatnya?

Pelajari cara mengonversi file PDF ke Excel dengan metode praktis. Dari fungsi bawaan hingga alat OCR, ubah data statis Anda menjadi lembar kerja.

23 Desember 2025

Panduan Lengkap OneDrive for Business: Optimalkan Pekerjaan UKM Anda

Panduan Lengkap OneDrive for Business: Optimalkan Pekerjaan UKM Anda

Temukan apa itu OneDrive for Business, bagaimana cara kerjanya, dan mengapa ini adalah alat yang esensial untuk kolaborasi dan keamanan data di perusahaan kecil dan menengah Anda.