DeepMind, OpenAI hingga Anthropic. Makalah-makalah pilihan yang mengubah sejarah AI

Dari Transformer tahun 2017 hingga analisis internal Claude tahun 2024, kami mengulas secara menyeluruh 10 makalah yang membentuk kerangka AI modern dari sudut pandang peneliti AI Silicon Valley. Dengan struktur tiga babak — "Arsitektur dan Reinforcement Learning" dari Google/DeepMind, "Skala dan Kemunculan" dari OpenAI, serta "Keamanan dan Interpretabilitas" dari Anthropic — setiap makalah dijelaskan sedetail mungkin dengan contoh konkret, diakhiri dengan tinjauan alur keseluruhan dan prospek ke depan. Per Juni 2026, perusahaan-perusahaan yang dipimpin oleh para peneliti penulis makalah ini mencakup Anthropic (valuasi sekitar 965 miliar dolar AS ≈ 154 triliun yen) dan OpenAI (sekitar 852 miliar dolar AS ≈ 136 triliun yen) sebagai yang terdepan,

Pendahuluan——Membaca AI Modern sebagai "Kisah Tiga Babak" yang Digambarkan oleh 10 Makalah

Ketika terlibat dalam penelitian AI di Silicon Valley, seseorang bisa dilanda perasaan aneh: hampir semua teknologi yang kini kita gunakan sebagai hal biasa dapat dilacak akarnya hanya pada sekitar 10 makalah. Chatbot, prediksi struktur protein, program yang melampaui manusia dalam permainan Go, hingga model penalaran yang "berpikir sebelum menjawab" — semuanya dibangun di atas sejumlah kecil ide yang menentukan. Sepuluh makalah yang dibahas dalam tulisan ini adalah persis itulah "makalah-makalah permata" tersebut.

Makalah-makalah ini menjadi jauh lebih mudah dipahami sebagai narasi AI modern ketika dibaca dalam tiga babak besar. Babak pertama adalah Google dan DeepMind. "Attention Is All You Need" yang diterbitkan Google pada 2017 melahirkan arsitektur "Transformer" yang menjadi fondasi semua AI generatif saat ini. Juga pada 2017, DeepMind memperkenalkan "AlphaGo Zero" yang mempelajari permainan Go secara mandiri tanpa rekaman permainan manusia, dan pada 2021 mempublikasikan "AlphaFold" yang memecahkan masalah prediksi struktur protein yang telah berlangsung 50 tahun. Tema di sini adalah arsitektur baru, "perbaikan diri" melalui pembelajaran penguatan, dan penerapan pada sains.

Babak kedua adalah OpenAI. OpenAI memformulasikan hipotesis sederhana namun yang saat itu tidak ada yang benar-benar percaya — "semakin besar, semakin cerdas" — sebagai sebuah hukum dalam makalah "Scaling Laws" tahun 2020, dan membuktikannya dengan "GPT-3" di tahun yang sama. Di sinilah dunia mengenal fenomena misterius yang disebut "in-context learning" (pembelajaran dalam konteks), di mana model dapat menangani tugas baru hanya dengan melihat beberapa contoh. Kemudian pada 2024, OpenAI meluncurkan model penalaran o1 yang "berpikir sebelum menjawab", memperluas sumbu scaling dari waktu pelatihan ke waktu inferensi.

Babak ketiga adalah Anthropic. Anthropic adalah perusahaan yang didirikan pada 2021 oleh para peneliti yang meninggalkan OpenAI dengan mengibarkan bendera "sebelum meningkatkan kemampuan, pahami dulu dan jadikan model aman." Mereka melahirkan "mechanistic interpretability" yang membedah bagian dalam Transformer seperti sirkuit, "Constitutional AI" yang menetralisasi bahaya menggunakan umpan balik dari AI itu sendiri, "many-shot learning" yang memperluas in-context learning hingga ratusan contoh, serta "Scaling Monosemanticity" yang mengekstrak "fitur" yang dapat dipahami manusia dari Claude versi produksi. Narasi kemampuan pun berbalik menjadi narasi pemahaman dan pengendalian.

Tujuan tulisan ini bukan sekadar daftar rangkuman makalah. Yang ingin dilakukan di sini adalah menjahit, dari perspektif orang dalam, bagaimana 10 makalah ini saling terhubung, bagaimana mereka saling mengutip satu sama lain, dan perpindahan orang serta pertentangan pemikiran seperti apa yang mereka ciptakan di dalam komunitas peneliti Silicon Valley. Pembaca yang jeli akan menyadari dua benang merah yang melintas ketiga babak ini. Yang pertama adalah "pembelajaran penguatan" — benang yang menghubungkan permainan mandiri AlphaGo Zero, RLAIF dalam Constitutional AI, hingga pelatihan penalaran o1. Yang kedua adalah "in-context learning" — benang yang ditemukan dalam GPT-3, mekanismenya diungkap melalui sirkuit Transformer, diperluas dengan many-shot learning, dan divisualisasikan oleh Monosemanticity. Sekarang, mari kita mulai dari pembukaan babak pertama.

Attention Is All You Need (2017, Google) — Fondasi yang Menopang Semua AI Generatif

Pertama, saya ingin memulai dari makalah yang paling banyak dikutip dalam AI modern. "Attention Is All You Need," yang diterbitkan pada tahun 2017 oleh delapan peneliti Google Brain, memperkenalkan desain baru bernama Transformer — meninggalkan "Recurrent Neural Network (RNN)" yang sebelumnya mendominasi tugas-tugas seperti penerjemahan mesin, dan memproses teks hanya dengan "mekanisme perhatian (attention)". Judul makalah ini secara harfiah berarti "Perhatian adalah segalanya." Saat itu terdengar seperti lelucon yang provokatif, namun kini menjadi kebenaran yang benar-benar nyata.

Mari kita pikirkan dengan contoh konkret. Agar mesin dapat memahami kalimat "Ia memancing di bank," mesin perlu menentukan apakah "bank" merujuk pada lembaga keuangan atau tepi sungai — berdasarkan kata "memancing" yang letaknya berjauhan. RNN konvensional membaca kata demi kata dari kiri ke kanan secara berurutan, sehingga sulit menangkap hubungan antar kata yang berjauhan, dan karena pemrosesan dilakukan secara sekuensial, komputasi paralel pun tidak memungkinkan. Mekanisme perhatian-diri (self-attention) pada Transformer memungkinkan semua kata dalam kalimat untuk saling "memandang" sekaligus, dan secara langsung menghitung bobot seberapa besar perhatian yang perlu diberikan kepada setiap kata. Kata "memancing" melihat "bank" dan memberikan bobot: "oh, ini yang dimaksud tepi sungai" — begitulah cara kerjanya. Hal ini dilakukan secara bersamaan dari berbagai sudut pandang (multi-head attention), sementara informasi urutan kata ditambahkan secara terpisah melalui "positional encoding."

Desain ini memiliki dua implikasi revolusioner. Pertama, karena seluruh kalimat dapat diproses secara paralel sekaligus, kemampuan GPU dapat dimanfaatkan sepenuhnya. Model besar dalam makalah tersebut hanya dilatih selama 3,5 hari menggunakan 8 GPU NVIDIA P100, namun berhasil mencapai performa terbaik saat itu — skor BLEU 28.4 pada benchmark terjemahan Inggris-Jerman WMT 2014 dan 41.8 untuk terjemahan Inggris-Prancis — dengan jumlah komputasi yang jauh lebih sedikit. Kedua, paralelisme inilah yang secara fisik memungkinkan strategi scaling "perbesar saja sebesar-besarnya" yang menjadi tren berikutnya. Tanpa Transformer, GPT-3 maupun Claude tidak akan pernah ada.

Yang menarik bila dilihat dari dalam Silicon Valley adalah nasib delapan penulis makalah tersebut setelahnya. Mereka semua meninggalkan Google dan menjadi pengusaha serta peneliti yang memainkan peran sentral dalam industri AI modern. Noam Shazeer mendirikan Character.AI, sebuah AI percakapan (kemudian kembali ke Google untuk memimpin Gemini); Aidan Gomez menjadi CEO Cohere; Ashish Vaswani dan Niki Parmar ikut mendirikan Essential AI; Llion Jones mendirikan Sakana AI; Jakob Uszkoreit ikut mendirikan Inceptive, yang bergerak di bidang desain mRNA; Illia Polosukhin beralih ke NEAR Protocol di ranah blockchain; dan Łukasz Kaiser pindah ke OpenAI. Daftar penulis satu makalah itu sendiri menjadi "silsilah" startup AI era 2020-an. Perlu dicatat, Google Brain dan DeepMind — yang melahirkan makalah ini — bergabung pada April 2023 dan kini beroperasi sebagai satu organisasi bernama "Google DeepMind." Kisah karya DeepMind pada bab berikutnya pun merupakan cerita dari bawah atap yang sama.

Mastering the game of Go without human knowledge (2017, DeepMind)——"Jenius dari Nol" yang Sama Sekali Tidak Meniru Manusia

Pada Oktober 2017, DeepMind menerbitkan makalah di jurnal Nature berjudul "Mastering the game of Go without human knowledge" (Menguasai permainan Go tanpa pengetahuan manusia). Di sinilah AlphaGo Zero diperkenalkan — penerus AlphaGo generasi pertama yang setahun sebelumnya mengalahkan pemain Go papan atas dunia, Lee Sedol — namun dengan satu perbedaan yang mendasar. Jika AlphaGo generasi pertama belajar dari sejumlah besar catatan permainan para pemain profesional manusia, maka AlphaGo Zero hanya diberikan aturan permainan Go, lalu menjadi kuat semata-mata melalui pertandingan melawan dirinya sendiri, tanpa menggunakan data permainan manusia sama sekali.

Betapa luar biasanya hal ini, mari kita bayangkan melalui sebuah analogi. Seorang manusia yang tidak pernah diajarkan oleh siapa pun, tidak pernah melihat satu pun catatan permainan, hanya diberikan papan, batu, dan buku aturan — lalu mengurung diri di sebuah kamar dan terus bermain melawan dirinya sendiri, kemudian keluar beberapa hari kemudian dan mengalahkan pemain terkuat sepanjang sejarah dengan skor 100 kemenangan tanpa satu pun kekalahan — itulah tepatnya yang dilakukan AlphaGo Zero. Dimulai dari kondisi "kertas kosong" yang hanya menempatkan batu secara acak, dengan pengalaman yang dihasilkan dari pertandingan melawan diri sendiri sebagai satu-satunya guru, ia terus memperbarui dirinya sedikit demi sedikit. Menurut makalah tersebut, hanya dalam 3 hari sejak pelatihan dimulai, ia sudah melampaui versi yang mengalahkan Lee Sedol (AlphaGo Lee) dengan skor 100 berbanding 0, dan 40 hari kemudian mencapai estimasi peringkat Elo 5.185, melampaui semua versi sebelumnya.

Inti teknisnya terletak pada perpaduan yang indah antara pembelajaran penguatan dan pencarian. AlphaGo Zero memprediksi "probabilitas langkah berikutnya" dan "tingkat kemenangan dalam posisi ini" menggunakan satu jaringan saraf tunggal. Dalam setiap pertandingan, ia melakukan antisipasi ke depan menggunakan Monte Carlo Tree Search (MCTS), dan hasil antisipasi tersebut digunakan sebagai "contoh yang lebih baik" untuk melatih jaringan. Semakin kuat jaringannya, semakin tajam pencariannya; dan pencarian yang tajam menghasilkan data pelatihan yang semakin baik — lingkaran penguatan diri ini menghasilkan kekuatan yang melampaui manusia tanpa memerlukan pengetahuan manusia sebagai pijakan eksternal. Yang patut diperhatikan adalah AlphaGo Zero secara mandiri menemukan kembali joseki (bentuk-bentuk baik yang ditemukan manusia selama ratusan tahun), bahkan menciptakan joseki baru yang belum pernah diketahui manusia.

Dari sudut pandang Silicon Valley, jangkauan sesungguhnya dari makalah ini bukanlah tentang Go. Ini adalah bukti dari sebuah prinsip: "Selama reward dapat didefinisikan, pembelajaran penguatan melalui pertandingan melawan diri sendiri saja sudah cukup untuk melampaui manusia." DeepMind menggeneralisasikan metode ini menjadi AlphaZero — yang menguasai Go, catur, dan shogi dengan algoritma yang sama — dan selanjutnya berkembang menjadi MuZero yang belajar bahkan tanpa diberikan aturan permainan. Gagasan tentang "transendensi melalui penyempurnaan diri" ini akan muncul kembali berulang kali dalam bagian-bagian selanjutnya dari tulisan ini, dalam berbagai bentuk. Pada Constitutional AI milik Anthropic, di mana AI menghasilkan umpan balik sendiri untuk proses detoksifikasi; pada o1 milik OpenAI, yang menghasilkan rantai penalaran sendiri lalu mengasahnya dengan reward — gen AlphaGo Zero mengalir di dalamnya semua. Pembelajaran penguatan adalah benang merah pertama yang merajut seluruh tulisan ini.

Prediksi struktur protein yang sangat akurat dengan AlphaFold (2021, DeepMind)——"Masalah Sulit 50 Tahun Biologi" yang Dipecahkan oleh AI

Tonggak pencapaian lain yang ditunjukkan DeepMind adalah makalah "Prediksi Struktur Protein Akurasi Tinggi dengan AlphaFold" yang diterbitkan di jurnal Nature pada tahun 2021. Berbeda dari permainan seperti Go, ini memiliki makna historis yang jauh berbeda karena AI berhasil memecahkan masalah yang telah menggantung selama 50 tahun dalam biologi itu sendiri. Pada tahun 2024, bobot pencapaian tersebut terbukti ketika Demis Hassabis dan John Jumper dari DeepMind menerima Hadiah Nobel Kimia atas hasil ini (setengah dari hadiah diberikan kepada David Baker dari Universitas Washington yang merancang protein baru melalui komputasi).

Apa sebenarnya masalah sulitnya? Protein adalah "rantai" yang terdiri dari 20 jenis asam amino yang tersusun berurutan, namun rantai tersebut terlipat secara instan menjadi struktur tiga dimensi yang kompleks di dalam sel, dan "bentuk" itulah yang langsung menentukan fungsinya. Enzim, antibodi, otot—semuanya menghasilkan fungsi dari bentuknya. Namun, "masalah pelipatan protein" yang memprediksi struktur tiga dimensi akhir dari urutan asam amino memiliki kombinasi yang terlalu astronomis, sehingga sejak masalah ini disebutkan dalam konteks Hadiah Nobel pada tahun 1972, selama setengah abad masalah ini dianggap sebagai masalah biologi terbesar yang belum terpecahkan. Secara tradisional, menentukan satu struktur menggunakan kristalografi sinar-X membutuhkan waktu berbulan-bulan hingga bertahun-tahun dan biaya yang sangat besar.

Inovasi AlphaFold2 terletak pada jaringan saraf baru yang disebut Evoformer. Jaringan ini mengolah dua informasi—"kumpulan urutan protein serupa yang terakumulasi selama proses evolusi (multiple sequence alignment, MSA)" dan "tabel hubungan jarak antar asam amino"—dengan mekanisme atensi (di sini pun pemikiran Transformer dari bab sebelumnya berperan) yang bolak-balik berulang kali untuk menyempurnakannya, lalu menghasilkan koordinat tiga dimensi sekaligus di akhir. Kunci keberhasilannya adalah inovasi geometris yang mengoreksi hubungan dua asam amino menggunakan konsistensi "segitiga" yang melewati asam amino ketiga. Pada kompetisi prediksi struktur protein dunia CASP14 tahun 2020, AlphaFold2 mencetak nilai GDT median 92,4—akurasi yang hampir tidak dapat dibedakan dari struktur eksperimental dalam skala 100 poin—dan mendominasi peringkat kedua ke bawah hingga dinilai bahwa "masalah ini pada dasarnya telah terpecahkan."

Yang membedakan makalah ini dari pencapaian teknis biasa adalah besarnya dampak sosial yang mengikutinya. DeepMind mempublikasikan struktur yang telah diprediksi secara luas, dan AlphaFold Protein Structure Database mencatat sekitar 200 juta struktur yang mencakup hampir semua protein yang diketahui, dan telah dimanfaatkan oleh lebih dari 2 juta peneliti di 190 negara. "Asumsi dasar" di setiap bidang ilmu kehidupan—mulai dari penemuan obat, desain enzim, hingga penelitian resistensi antibiotik dan malaria—telah berubah. Sebagai peneliti di Silicon Valley, yang ingin saya tekankan adalah bahwa AlphaFold telah menunjukkan dengan paling gamblang bahwa "AI bukan sekadar mainan yang bermain-main dengan kata-kata, melainkan alat yang dapat memecahkan masalah ilmu alam yang belum dapat dipecahkan oleh umat manusia." Bahwa Hassabis mendirikan perusahaan penemuan obat Isomorphic Labs dengan AlphaFold sebagai titik awal, dan pada tahun 2024 mengembangkannya menjadi AlphaFold 3 yang mampu memprediksi tidak hanya protein tetapi juga kompleks dengan DNA, RNA, dan molekul kecil, membuktikan betapa luasnya jangkauan teknologi ini.

Scaling Laws for Neural Language Models (2020, OpenAI) — Menjadikan "Semakin Besar, Semakin Cerdas" sebagai Hukum

Kini kita beralih ke babak kedua, kisah OpenAI. Pada Januari 2020, Jared Kaplan dan rekan-rekannya di OpenAI menerbitkan sebuah makalah berjudul "Scaling Laws for Neural Language Models" — tampak sederhana, namun makalah ini pada akhirnya menentukan strategi AI modern itu sendiri. Argumen intinya, dalam satu kalimat: "Kecerdasan model bahasa (kecilnya kesalahan prediksi) terus meningkat mengikuti 'hukum pangkat' yang sangat teratur terhadap ukuran model, jumlah data, dan jumlah komputasi."

Apa yang membuat penemuan ini begitu luar biasa? Penelitian dan pengembangan pada umumnya adalah sebuah perjudian — kita tidak tahu apa yang akan terjadi sampai kita mencobanya. Namun Kaplan dan rekan-rekannya melatih lebih dari 200 model dengan jumlah parameter yang bervariasi hingga tujuh orde besaran, lalu memplot kinerjanya dalam sebuah grafik. Hasilnya: titik-titik itu hampir membentuk garis lurus (garis pada grafik log-log = hukum pangkat). Artinya, dari hasil eksperimen dengan model kecil, kita dapat memprediksi sebelumnya kinerja model raksasa yang belum pernah dibuat. Layaknya prakiraan cuaca, kita bisa memperkirakan: "Jika kita menginvestasikan sumber daya komputasi sebesar ini, maka model akan menjadi secerdas ini." Ini pun menjadi alat pengambilan keputusan manajerial untuk membenarkan investasi besar.

Implikasi konkretnya pun sangat mencolok. Makalah tersebut menyarankan bahwa untuk menggunakan anggaran komputasi yang diberikan secara paling efisien, sumber daya sebaiknya dialokasikan untuk memperbesar model daripada menambah data (dengan alokasi optimal: jumlah parameter harus ditingkatkan sebesar sekitar 0,73 pangkat dari jumlah komputasi, dan jumlah data sebesar 0,27 pangkat). Lebih jauh, makalah itu juga menyatakan bahwa "model yang lebih besar belajar lebih banyak dari data yang lebih sedikit (efisiensi sampel lebih tinggi)." Pesan "kalau ragu, perbesar" inilah yang mendorong taruhan pada GPT-3 — model raksasa terbesar yang pernah ada saat itu — tak lama kemudian. GPT-3 di bab berikutnya adalah eksperimen pembuktian pertama yang megah dari hukum skala ini.

Namun, ada epilog yang perlu ditambahkan secara jujur sebagai seorang peneliti. Pada tahun 2022, Hoffmann dan rekan-rekannya dari DeepMind, dalam penelitian yang disebut "Chinchilla," menunjukkan bahwa alokasi optimal versi Kaplan dkk. ternyata miring. Dengan anggaran komputasi yang sama, meningkatkan parameter dan data dalam proporsi yang hampir sama (masing-masing sekitar 0,5 pangkat dari jumlah komputasi) adalah yang optimal — dan model-model raksasa termasuk GPT-3 saat itu "terlalu besar, dengan data pelatihan yang tidak mencukupi." Nyatanya, Chinchilla dengan 70 miliar parameter mengungguli Gopher yang empat kali lebih besar dengan 280 miliar parameter. Penyebab utama ketidaksesuaian ini belakangan dianalisis berasal dari cara Kaplan dkk. menghitung parameter (tidak termasuk lapisan embedding) serta pengaturan learning rate. Hukum skala bukanlah sebuah kebenaran monolitik — melainkan sesuatu yang terus disempurnakan melalui koreksi berulang. Justru proses koreksi diri inilah yang saya pandang sebagai bukti kesehatan bidang ini.

Language Models are Few-Shot Learners (2020, OpenAI) — Raksasa yang Belajar Hanya dengan "Menunjukkan Beberapa Contoh"

Teori hukum skala dibuktikan kepada dunia dengan cara yang mengejutkan melalui makalah GPT-3 yang diterbitkan pada tahun 2020, berjudul "Language Models are Few-Shot Learners." Penelitian yang meraih penghargaan makalah terbaik di NeurIPS 2020 ini menunjukkan bahwa model bahasa raksasa dengan 175 miliar parameter——sepuluh kali lebih besar dari model non-sparse mana pun sebelumnya——mampu memperoleh kemampuan yang tak terduga.

Kemampuan itulah yang menjadi benang merah kedua dalam tulisan ini: pembelajaran dalam konteks (in-context learning). Mari kita jelaskan dengan analogi. Dalam pembelajaran mesin konvensional, jika kita ingin model mampu menerjemahkan, kita perlu melakukan "pelatihan tambahan (fine-tuning)" dengan data terjemahan. Namun GPT-3 berbeda. Cukup dengan menuliskan beberapa contoh dalam prompt seperti "sea otter → loutre de mer, cheese → fromage," lalu diakhiri dengan "dog →", model akan melanjutkan dengan "chien" tanpa pelatihan tambahan apa pun. Tanpa memperbarui bobot sedikit pun, model hanya membaca konteks yang diberikan dan langsung memahami bahwa "oh, ini adalah tugas penerjemahan Inggris-Prancis." Makalah ini mengevaluasi kemampuan ini secara sistematis dalam tiga tingkatan: "zero-shot" tanpa satu pun contoh, "one-shot" dengan satu contoh, dan "few-shot" dengan 10 hingga 100 contoh.

Kemampuan yang ditunjukkan GPT-3 sangat beragam. Selain penerjemahan, tanya jawab, dan pengisian teks, model ini juga mampu menyelesaikan tugas yang membutuhkan "penalaran situasional," seperti memecahkan anagram kata, menggunakan kata baru yang baru saja diciptakan dalam sebuah kalimat, hingga melakukan penjumlahan tiga digit. Meskipun tidak ada yang secara eksplisit "mengajarkan penjumlahan," model ini telah menyerap keteraturan aritmetika secara internal melalui pembacaan teks dalam jumlah besar. Fenomena "semakin besar skala, semakin tiba-tiba muncul kemampuan yang tidak pernah dilatih"——yang kemudian disebut emergensi (emergence)——inilah yang menjadi kejutan terbesar yang diberikan GPT-3 kepada komunitas peneliti.

Dari sudut pandang Silicon Valley, GPT-3 juga merupakan makalah yang mengaburkan batas antara "penelitian" dan "produk." Gagasan API serbaguna ini terhubung langsung ke ChatGPT, dan dengan peluncuran ChatGPT pada akhir 2022, AI generatif menjadi fenomena di masyarakat umum. Sekaligus, GPT-3 meninggalkan dua pekerjaan rumah untuk bagian kedua tulisan ini. Pertama, "mengapa pembelajaran dalam konteks terjadi, dan apa mekanisme internalnya?"——pertanyaan ini dijawab oleh penelitian interpretabilitas Anthropic di bab-bab berikutnya. Kedua, "apa yang terjadi jika 'beberapa' contoh dalam few-shot ditingkatkan menjadi 'ratusan'?"——inilah yang mengarah ke bab pembelajaran many-shot. GPT-3 adalah sebuah jawaban sekaligus gudang pertanyaan-pertanyaan besar.

Learning to Reason with LLMs (2024, OpenAI) — "Berpikir sebelum menjawab" membuka sumbu baru dalam scaling

Sebagai karya ketiga OpenAI, saya ingin membahas laporan teknis o1, model penalaran yang diumumkan pada September 2024, berjudul "Learning to Reason with LLMs". Laporan ini menambahkan sumbu yang sepenuhnya baru pada paradigma penskalaan yang selama ini berlaku — yaitu "semakin besar model dan semakin banyak komputasi pelatihan, semakin cerdas hasilnya." Sumbu baru itu adalah: "semakin lama model dibiarkan berpikir sebelum menjawab (semakin banyak komputasi saat inferensi), semakin cerdas hasilnya."

Mari kita bayangkan dengan contoh intuitif. Ketika manusia menjawab soal matematika yang sulit secara refleks versus ketika ia duduk selama 10 menit menuliskan langkah-langkah penyelesaian di atas kertas, tingkat kebenarannya jauh berbeda. Model bahasa konvensional, ibarat menjawab semua soal secara refleks. Yang dilakukan o1 adalah mengembangkan "rantai pemikiran (chain of thought)" panjang secara internal sebelum menghasilkan jawaban — mengajukan hipotesis, memeriksa ulang, menyadari kesalahan, dan mengubah arah. Yang lebih penting, untuk mengajarkan cara berpikir ini, bukan dengan meniru contoh yang ditulis manusia, melainkan menggunakan pembelajaran penguatan berskala besar. Model diberi soal untuk diselesaikan, jalur penalaran yang benar diberi hadiah, dan model sendiri yang menemukan cara berpikir yang "produktif." Di sini pun, perlu diperhatikan bagaimana silsilah "pembelajaran penguatan melalui peningkatan diri" yang bermula dari AlphaGo Zero terus berpengaruh.

Hasilnya dramatis. Pada AIME 2024, babak kualifikasi Olimpiade Matematika Amerika, sementara GPT-4o generasi sebelumnya hanya mampu menyelesaikan rata-rata 12% (1,8 dari 15 soal), o1 mencapai 74% dengan satu jawaban, 83% dengan voting mayoritas dari 64 percobaan, dan hingga 93% ketika memilih ulang dari 1.000 sampel menggunakan pemandu yang telah dilatih. Dalam kompetisi pemrograman Codeforces, o1 masuk 11% teratas (persentil ke-89), dan dalam soal sains tingkat doktor pun mampu menandingi para ahli. Grafik terpenting yang ditunjukkan makalah ini adalah hubungan log-linear: "semakin banyak waktu berpikir (komputasi inferensi) ditingkatkan secara eksponensial, semakin linear peningkatan tingkat kebenaran." Di sinilah, untuk pertama kalinya, ditunjukkan secara jelas bahwa model dapat dibuat lebih cerdas melalui dua sumbu independen: komputasi pelatihan dan komputasi inferensi.

Sebagai peneliti, saya ingin menekankan dua hal terkait signifikansi makalah ini. Pertama, di tengah kekhawatiran industri pasca-Chinchilla bahwa "data pelatihan mulai habis dan penskalaan sudah mencapai batasnya," o1 membuka ruang pertumbuhan yang sepenuhnya baru bernama "komputasi inferensi." Hal ini mengubah logika penggalangan dana sekaligus permintaan terhadap semikonduktor. Kedua, silsilah o1 diteruskan ke keluarga model penalaran seperti o3 dan seterusnya, dan pada 2026 ini, model unggulan berbagai perusahaan telah dirancang dengan asumsi bahwa mereka "berpikir." Claude Opus 4.8 dari Anthropic yang akan dibahas kemudian, maupun GPT-5.5 dari OpenAI, keduanya hidup dalam dunia "penskalaan saat inferensi" ini. Apa yang digambarkan oleh OpenAI babak kedua adalah peta penskalaan yang lebih kaya: "skala bukan hanya satu arah, melainkan memiliki banyak sumbu."

A Mathematical Framework for Transformer Circuits (2021, Anthropic) — Membaca "Black Box" sebagai "Sirkuit"

Di sinilah babak ketiga dimulai, kisah tentang Anthropic. Anthropic didirikan pada tahun 2021 oleh para peneliti yang sebelumnya memimpin pengembangan GPT-3 dan hukum penskalaan di OpenAI — termasuk saudara kandung Dario Amodei dan Daniela Amodei, serta Jared Kaplan, penulis utama makalah hukum penskalaan — dengan membawa keyakinan bahwa "sebelum meningkatkan kemampuan secara membabi buta, kita harus terlebih dahulu memahami dan membuat model yang aman." Perwujudan paling murni dari filosofi ini adalah makalah yang diterbitkan pada Desember 2021 berjudul "A Mathematical Framework for Transformer Circuits."

Mari kita jelaskan latar belakang masalah makalah ini dengan sebuah analogi. Model bahasa besar adalah gumpalan ratusan miliar angka — masukkan input, keluarkan output — namun tidak ada yang tahu "apa yang sebenarnya terjadi" di dalamnya; ia adalah kotak hitam raksasa. Yang ingin dicapai oleh Nelson Elhage dan para penulis lainnya adalah menganalisis balik kotak hitam ini menjadi "sirkuit (circuit)" yang dapat dipahami manusia — seperti mem-*disassemble* program yang telah dikompilasi untuk memulihkannya menjadi kode sumber. Bidang ini disebut interpretabilitas mekanistik (mechanistic interpretability), dan Anthropic menjadi pelopor utamanya.

Makalah ini memulai dengan mengurai secara menyeluruh bukan model besar yang sesungguhnya, melainkan model mainan yang sangat kecil — "0-layer, 1-layer, 2-layer" — yang hanya memiliki mekanisme atensi. Di sinilah kerangka pandang yang diperkenalkan menjadi begitu elegan. Di dalam Transformer terdapat jalur komunikasi bersama yang disebut "residual stream", di mana setiap attention head membaca informasi dari sana dan menuliskan kembali hasil perhitungannya — seperti sebuah "papan pengumuman" di dalam model. Dan ditunjukkan pula bahwa cara kerja setiap attention head dapat diuraikan menjadi dua bagian: "sirkuit yang menentukan kata mana yang diperhatikan (sirkuit QK)" dan "sirkuit yang menentukan apa yang dibaca dan ditulis dari kata yang diperhatikan (sirkuit OV)." Kotak hitam itu mulai terlihat sebagai kombinasi dari komponen-komponen yang dapat diinterpretasi.

Penemuan terbesar dalam makalah ini adalah "induction heads." Ini adalah sirkuit yang pertama kali muncul pada model 2-layer, yang bekerja seperti fungsi salin-tempel: "jika sebelumnya melihat pola 'jika A maka B', maka ketika A muncul berikutnya, prediksi B." Tampak sederhana, namun inilah kandidat kuat sebagai mekanisme sesungguhnya di balik "in-context learning" yang ditunjukkan GPT-3 pada bab sebelumnya. Faktanya, dalam penelitian lanjutan Anthropic pada tahun 2022, ditunjukkan bahwa momen terbentuknya induction heads di dalam model bertepatan dengan momen munculnya kemampuan in-context learning. Dengan kata lain, bab ini merupakan penyelesaian dari benang merah yang terbentang: fenomena misterius yang "ditemukan" oleh OpenAI di babak kedua kini mendapat "penjelasan mekanistik" dari Anthropic di babak ketiga. Makalah ini adalah titik balik di mana kisah tentang kemampuan berbalik menjadi kisah tentang pemahaman.

Constitutional AI: Harmlessness from AI Feedback (2022, Anthropic) — Penemuan "Konstitusi" di Mana AI Melatih AI

Karya representatif kedua Anthropic adalah "Constitutional AI: Harmlessness from AI Feedback" yang dipresentasikan pada Desember 2022. Ini merupakan metode pelatihan yang menjadi fondasi produk Anthropic berikutnya, Claude, dan menandai pergeseran penting secara praktis maupun filosofis — bahwa "untuk membuat AI aman, kita tidak perlu manusia yang terus-menerus memberi label penolakan satu per satu pada setiap keluaran berbahaya."

Mari kita jelaskan latar belakangnya. Metode pengamanan standar yang digunakan pada ChatGPT dan sejenisnya adalah "Reinforcement Learning from Human Feedback (RLHF)," di mana manusia secara manual membuat puluhan ribu penilaian berbahaya/tidak berbahaya. Namun ini berbiaya tinggi, memiliki masalah etis karena para pekerja manusia terpapar konten berbahaya dalam jumlah besar, dan kriteria tentang apa yang dianggap berbahaya pun tidak transparan. Pertanyaan Anthropic adalah ini — bisakah kita memberikan standar tersebut terlebih dahulu dalam bentuk "konstitusi (constitution)" yang tertulis secara eksplisit, lalu menyerahkan pekerjaan pendisiplinan itu kepada AI itu sendiri?

Mekanismenya terdiri dari dua tahap. Pada tahap pertama (supervised learning), model pertama-tama dihadapkan dengan pertanyaan berbahaya yang disengaja untuk menghasilkan jawaban yang bermasalah, kemudian model itu sendiri diminta untuk mengkritik dirinya dengan mengatakan "jawaban saat ini bermasalah jika dilihat dari prinsip ○○ dalam konstitusi," lalu menulis ulang jawabannya. Model kemudian di-fine-tune menggunakan respons tidak berbahaya yang telah ditulis ulang tersebut. Pada tahap kedua (reinforcement learning), model diminta menghasilkan dua respons, lalu AI itu sendiri yang menilai mana yang lebih sesuai dengan konstitusi untuk membuat data preferensi, yang kemudian digunakan sebagai reward untuk pelatihan lebih lanjut. Karena reward dibuat dari umpan balik AI, bukan label manusia, metode ini disebut RLAIF (Reinforcement Learning from AI Feedback). Konstitusi terdiri dari sekitar 16 prinsip yang merujuk pada Deklarasi Universal Hak Asasi Manusia dan sejenisnya, mencakup perspektif seperti legalitas, bahaya, keadilan, dan nada bicara.

Yang luar biasa dari makalah ini adalah bahwa ia menghadirkan solusi baru terhadap trade-off antara keamanan dan kegunaan. Dengan metode konvensional, semakin kuat pengamanan, model cenderung jatuh ke dalam penghindaran berlebihan — menolak segalanya dengan "Saya tidak dapat menjawab pertanyaan itu." Model yang dilatih dengan Constitutional AI, alih-alih hanya berdiam diri terhadap permintaan berbahaya, menjadi asisten yang "tidak berbahaya namun tidak menghindar" — menjelaskan mengapa ia tidak bisa memenuhi permintaan tersebut sambil tetap berdialog. Dari sudut pandang peneliti, di sini pun berlaku semangat "perbaikan diri" sejak AlphaGo Zero — model mengkritik keluarannya sendiri, merevisinya, dan melatih dirinya sendiri dengan preferensinya sendiri. Anthropic kemudian mengembangkan metode ini menjadi eksperimen "Collective Constitutional AI" yang mencerminkan pendapat masyarakat umum ke dalam konstitusi, bahkan merambah hingga ke persoalan tata kelola tentang siapa dan bagaimana nilai-nilai AI ditentukan.

Many-Shot In-Context Learning (2024, DeepMind) dan Many-shot Jailbreaking (2024, Anthropic) — Sisi Terang dan Gelap dari Pembelajaran Dalam Konteks

Bab ini membahas "many-shot learning," sebuah pendekatan yang pada tahun 2024 mendorong pembelajaran dalam konteks (in-context learning) ke skala yang belum pernah ada sebelumnya.

Mari kita pahami dulu fenomenanya. Few-shot learning yang diperkenalkan GPT-3 di babak kedua memasukkan "10 hingga 100" contoh ke dalam prompt. Namun hingga 2024, jendela konteks berbagai perusahaan (panjang input yang dapat dibaca sekaligus) berkembang pesat hingga mampu menangani ratusan ribu token. Google DeepMind pun melakukan eksperimen sederhana—apa yang terjadi jika jumlah contoh ditambah hingga ratusan bahkan ribuan? Hasilnya, performa terus meningkat secara signifikan pada berbagai tugas seperti terjemahan, peringkasan, dan penalaran. Lebih jauh, mereka menunjukkan bahwa untuk mengatasi masalah menipisnya contoh buatan manusia, pendekatan "Reinforced ICL" yang menggunakan rantai pemikiran yang dihasilkan model itu sendiri sebagai contoh, maupun "Unsupervised ICL" yang hanya menyajikan masalah dalam jumlah besar tanpa memberikan jawaban contoh pun, tetap terbukti efektif. Tanpa bergantung pada fine-tuning, cukup dengan mengalirkan banyak contoh ke dalam konteks, model dapat diadaptasi ke tugas-tugas baru.

Lalu apa itu "many-shot jailbreak" dari Anthropic? Ini adalah sisi gelap berbahaya dari prinsip yang sama. Para peneliti Anthropic menemukan bahwa dengan memasukkan ratusan dialog palsu yang menampilkan model "menjawab pertanyaan berbahaya dengan sopan" ke dalam prompt model yang telah dilatih dengan keamanan, model tersebut terseret oleh konteks itu dan akhirnya memenuhi permintaan berbahaya yang seharusnya ditolak. Yang mengerikan adalah efektivitasnya meningkat mengikuti hukum pangkat (power law) seiring bertambahnya jumlah contoh—ini persis sifat universal yang dimiliki pembelajaran dalam konteks. Terlebih lagi, serangan ini tidak hanya berlaku pada Claude milik Anthropic sendiri, tetapi juga pada model-model dari OpenAI dan Google DeepMind. Ini adalah pelajaran berat dari penelitian keamanan: "fitur yang berguna" berupa jendela konteks panjang sekaligus menjadi permukaan serangan baru.

Membaca keduanya secara berdampingan, kita dapat melihat esensi AI modern. Pembelajaran dalam konteks ditemukan pada GPT-3 (babak kedua), mekanismenya diungkap melalui sirkuit Transformer (induction heads di babak ini), dan dikonfirmasi melalui many-shot sebagai "fenomena yang mengikuti hukum pangkat—semakin besar skala, semakin kuat." Seperti halnya scaling law yang mendominasi "pelatihan" model, hukum pangkat ternyata juga mendominasi "pembelajaran dalam konteks." Dan kekuatan yang sama dapat digunakan baik untuk memperluas kemampuan (DeepMind) maupun untuk meruntuhkan keamanan (Anthropic). Ambivalensi inilah yang menjadi alasan mengapa Anthropic—yang secara bersamaan memperhatikan kemampuan dan keamanan—sampai merasa perlu mempublikasikan metode serangan ini sebagai peringatan bagi industri.

Scaling Monosemanticity (2024, Anthropic) — Mengekstrak "komponen makna" dari Claude produksi

Penutup babak ketiga, sekaligus makalah ke-10 dalam tulisan ini, adalah "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet" yang diumumkan oleh Anthropic pada Mei 2024. Ini adalah penelitian monumental di mana ambisi interpretabilitas mekanis yang mulai tumbuh di bab Transformer Circuit akhirnya terwujud pada model besar nyata yang beroperasi di lingkungan produksi, Claude 3 Sonnet.

Inti permasalahannya terletak pada sifat yang sulit ditangani yang disebut "superposition". Neuron-neuron individual dalam jaringan saraf tidak secara rapi berkorespondensi dengan satu konsep seperti "anjing" atau "kesedihan" sebagaimana yang diharapkan manusia. Satu neuron berada dalam kondisi polisemantik yang bereaksi secara bersamaan terhadap puluhan konsep yang tidak berkaitan, dan inilah tembok terbesar yang menghalangi pemahaman model. Dalam penelitian pendahuluan Anthropic tahun 2023, "Towards Monosemanticity", mereka telah menunjukkan pada model kecil bahwa dengan menggunakan metode Sparse Autoencoder (SAE), aktivitas neuron yang saling terkait dapat diurai menjadi "fitur (feature) yang berkorespondensi dengan satu makna". Pertanyaan makalah ini adalah "apakah metode ini dapat diskalakan dari model mainan ke model raksasa yang sesungguhnya?"

Jawabannya adalah ya. Anthropic berhasil mengekstrak jutaan fitur monosemantik dari aktivitas lapisan tengah Claude 3 Sonnet dengan cara yang mirip pembelajaran kamus. Fitur-fitur tersebut sangat abstrak dan melampaui batas bahasa maupun modalitas. Misalnya, fitur yang berkorespondensi dengan "Golden Gate Bridge" bereaksi baik dalam bahasa Inggris maupun Jepang, baik terhadap foto jembatan maupun namanya. Yang lebih penting lagi adalah bahwa fitur-fitur ini tidak hanya dapat diamati sebagai status model, tetapi juga dapat mengendalikan perilaku dengan memperkuat aktivasinya secara artifisial. Ketika tim peneliti memaksimalkan "fitur Golden Gate Bridge", Claude mulai meyakini dirinya sebagai jembatan itu tidak peduli apa yang ditanyakan, dan mulai menghubungkan setiap topik pembicaraan ke jembatan tersebut — inilah demo "Golden Gate Claude" yang sempat dipublikasikan dan menarik perhatian luas.

Yang paling penting dari perspektif peneliti adalah ditemukannya fitur yang berkaitan langsung dengan keamanan. Anthropic menemukan fitur yang berkorespondensi dengan perilaku yang memang ingin dipantau, seperti penipuan, sanjungan (ketaatan berlebihan), bias, pembuatan bahan berbahaya, dan kerentanan kode. Jika kondisi internal model yang "sedang berusaha berbohong" dapat ditangkap sebagai fitur dan dimanipulasi, maka keamanan AI dapat berkembang dari tahap "menyensor output setelah fakta" ke tahap "membaca niat internal secara langsung dan mengendalikannya". Meskipun demikian, makalah ini juga jujur mengakui keterbatasannya. Misalnya, meskipun diberi nama "fitur Golden Gate Bridge", sebagian besar situasi di mana fitur tersebut teraktivasi tidak ada hubungannya dengan jembatan, dan fitur ini benar-benar merepresentasikan jembatan hanya ketika aktivasinya sangat tinggi, yaitu kurang dari 10% kasus — tindakan manusia memberi nama pada fitur menyimpan jebakan berupa ilusi rasa aman. Namun demikian, makalah ini membuktikan bahwa impian yang dicanangkan di bab Transformer Circuit, yaitu "membaca kotak hitam sebagai rangkaian sirkuit", dapat menjadi kenyataan bahkan pada model mutakhir. Babak ketiga telah menyempurnakan narasi kemampuan sebagai "narasi pemahaman dan pengendalian".

Tinjauan keseluruhan alur dan pandangan ke depan dari sini

Setelah menyelesaikan membaca kesepuluh makalah, mari kita tinjau gambaran keseluruhannya sekali lagi. Narasi tiga babak ini bukan sekadar kumpulan penemuan yang berdiri sendiri, melainkan sebuah sungai besar yang saling mengutip, saling mengkritik, dan saling melanjutkan. Babak Pertama: Google meletakkan fondasi bernama Transformer, sementara DeepMind menunjukkan prinsip "melampaui manusia melalui reinforcement learning dengan self-play" (AlphaGo Zero) dan jangkauan "memecahkan masalah sulit ilmu alam dengan AI" (AlphaFold). Babak Kedua: Di atas fondasi tersebut, OpenAI merumuskan dan membuktikan hukum bahwa "skala yang melahirkan kecerdasan" (scaling laws, GPT-3), lalu membuka sumbu skala baru berupa "berpikir saat inferensi" (o1). Babak Ketiga: Anthropic membangun sistem pemahaman dan kendali terhadap kekuatan besar yang dilahirkan babak kedua—dengan "membaca apa yang terjadi di dalamnya sebagai sirkuit (Transformer Circuits, Monosemanticity), melatihnya dengan umpan balik AI itu sendiri (Constitutional AI), dan menatap langsung ambivalensi kekuatan tersebut (many-shot)."

Dua benang merah yang mengalir sepanjang sungai ini terurai dengan indah. Reinforcement learning terus mengalir berubah wujud—dari self-play AlphaGo Zero, ke RLAIF dalam Constitutional AI, hingga pembelajaran penalaran o1—dan menempatkan gagasan "model mengevaluasi outputnya sendiri untuk memperbaiki dirinya sendiri" sebagai inti AI modern. In-context learning ditemukan di GPT-3, mekanismenya diurai melalui induction heads, diperluas sebagai hukum pangkat dalam many-shot, lalu divisualisasikan sebagai fitur dalam Monosemanticity—siklus ilmu yang ideal: penemuan, penjelasan, perluasan, pengamatan—semuanya ditempuh hanya dalam beberapa tahun saja. Dan Transformer tetap menjadi fondasi segalanya, bukan hanya teks tetapi juga protein (Evoformer). "Attention Is All You Need" adalah kebenaran yang harfiah.

Dari dalam Silicon Valley, satu hal yang sangat terasa adalah bahwa ini bukan hanya "sejarah makalah", melainkan juga "sejarah perpindahan manusia". Delapan penulis Transformer meninggalkan Google dan menjadi silsilah industri itu sendiri. Para peneliti di balik scaling laws dan GPT-3 meninggalkan OpenAI untuk mendirikan Anthropic. Mereka yang mengejar kemampuan dan mereka yang mempertanyakan keamanan berasal dari laboratorium yang sama, saling mengutip makalah satu sama lain sambil mengibarkan bendera yang berbeda—ketegangan inilah yang telah mendorong evolusi bidang ini. Dan ketegangan itu kini tercermin langsung di pasar modal pada Juni 2026. Pada Mei 2026, Anthropic mengumpulkan 65 miliar dolar (sekitar 10 triliun yen) dalam putaran Series H, mencapai valuasi sekitar 965 miliar dolar (sekitar 154 triliun yen), untuk pertama kalinya melampaui rival lamanya OpenAI (dana terkumpul sekitar 122 miliar dolar ≈ 20 triliun yen, valuasi sekitar 852 miliar dolar ≈ 136 triliun yen), menjadi startup AI paling bernilai di dunia, dan dilaporkan telah memulai persiapan IPO. Pencarian ilmu yang bermula dari 10 makalah kini menggerakkan modal yang setara dengan skala ekonomi sebuah negara.

Lalu, ke mana arah selanjutnya dari sini? Saya ingin memaparkan tiga prediksi. Pertama, persaingan agar "pemahaman" mengejar "kemampuan" akan semakin serius. Interpretabilitas yang dibuka oleh Monosemanticity baru menerangi sebagian kecil dari model. Namun, semakin dalam AI masuk ke pengambilan keputusan penting di masyarakat, semakin tinggi pula nilai teknologi yang mampu menjelaskan "mengapa AI menjawab seperti itu" dari dalam, serta mendeteksi dan mengendalikan kondisi internal yang berbahaya. Sejauh mana eksponensial pemahaman bisa berlari seiring dengan eksponensial kemampuan—itulah pertanyaan inti lima tahun ke depan. Kedua, sumbu scaling akan terus bertambah. Setelah waktu pelatihan dan waktu inferensi, "sumbu waktu tindakan"—di mana agen secara otonom mencoba dan bereksperimen dalam jangka panjang—adalah medan pertempuran berikutnya. Faktanya, Claude Opus 4.8 yang muncul pada Mei 2026 dilengkapi kemampuan menjalankan hingga 1.000 sub-agen secara paralel, bersaing dengan GPT-5.5 dalam kemampuan menyelesaikan tugas jangka panjang. Di balik "waktu berpikir" yang dibuka o1, ada "waktu terus bergerak".

Ketiga, dan yang paling penting, saya ingin menekankan bahwa apa yang ditunjukkan kesepuluh makalah ini bukanlah "titik akhir", melainkan "metodologi". Keberanian untuk menaruh taruhan besar dengan mempercayai hukum pangkat yang bersih, kegigihan membaca black box sebagai sirkuit tanpa menyerah, disiplin mempertanyakan keamanan dengan semangat yang sama seperti mengejar kemampuan—meskipun teknologi-teknologi individual pada akhirnya akan usang, metodologi ini akan terus melahirkan 10 makalah berikutnya, 100 makalah berikutnya. Yang diwariskan dari DeepMind ke OpenAI, lalu ke Anthropic, bukanlah arsitektur atau formula tertentu, melainkan sikap itu sendiri: "menghadapi misteri terdalam alam dan kecerdasan secara langsung, dengan komputasi sebagai alatnya." Makalah permata berikutnya yang akan mengubah sejarah AI sedang ditulis di suatu laboratorium, saat ini juga. Jika kita telusuri hulunya, pasti akan sampai pada kesepuluh makalah yang dibahas dalam tulisan ini.