Pengenalan——Membaca AI Moden sebagai "Kisah Tiga Babak" yang Digambarkan oleh 10 Kertas Penyelidikan

Bekerja dalam penyelidikan AI di Silicon Valley, seseorang kadang-kadang dilanda perasaan aneh — bahawa hampir semua teknologi yang kita gunakan sebagai perkara biasa hari ini boleh dijejaki sumbernya kepada hanya sekitar 10 makalah. Chatbot, ramalan struktur protein, program yang mengatasi manusia dalam permainan Go, dan model penaakulan "berfikir sebelum menjawab" — semuanya dibina di atas sebilangan kecil idea yang menentukan. Sepuluh makalah yang dibincangkan dalam tulisan ini adalah tepat "makalah-makalah permata" tersebut.

Makalah-makalah ini menjadi jauh lebih mudah difahami sebagai kisah AI moden apabila dibaca dalam tiga babak besar. Babak pertama adalah Google dan DeepMind. "Attention Is All You Need" yang diterbitkan oleh Google pada 2017 melahirkan seni bina "Transformer" yang menjadi asas kepada semua AI generatif masa kini. Pada tahun yang sama, DeepMind memperkenalkan "AlphaGo Zero" yang belajar Go secara kendiri tanpa rekod permainan manusia, dan pada 2021, "AlphaFold" yang menyelesaikan masalah 50 tahun dalam ramalan struktur protein. Tema di sini adalah seni bina baharu, "penambahbaikan diri" melalui pembelajaran pengukuhan, dan aplikasi dalam sains.

Babak kedua adalah OpenAI. OpenAI merumuskan hipotesis mudah namun pada masa itu tidak dipercayai oleh sesiapa pun secara serius — bahawa "semakin besar, semakin bijak" — sebagai undang-undang formal dalam makalah "Scaling Laws" pada 2020, dan membuktikannya dengan "GPT-3" pada tahun yang sama. Fenomena luar biasa yang dikenali sebagai "pembelajaran dalam konteks" (in-context learning) — di mana model boleh menangani tugasan baharu hanya dengan diperlihatkan beberapa contoh — menjadi dikenali oleh dunia di sinilah. Kemudian pada 2024, OpenAI memperkenalkan model penaakulan o1 yang "berfikir sebelum menjawab", melanjutkan paksi penskalaan daripada masa latihan kepada masa inferens.

Babak ketiga adalah Anthropic. Anthropic adalah syarikat yang diasaskan pada 2021 oleh penyelidik yang meninggalkan OpenAI dengan membawa panji "pertama, fahami dan jadikan model selamat, sebelum meningkatkan keupayaannya." Mereka menghasilkan "kebolehinterpretasian mekanikal" (mechanistic interpretability) yang membedah bahagian dalam Transformer sebagai litar, "Constitutional AI" yang menetralisasi model menggunakan maklum balas AI itu sendiri, "pembelajaran banyak-contoh" (many-shot learning) yang memperluas pembelajaran dalam konteks kepada skala ratusan contoh, dan "Scaling Monosemanticity" yang mengekstrak "ciri-ciri" yang boleh difahami manusia daripada Claude yang digunakan dalam pengeluaran. Kisah keupayaan berganda kepada kisah pemahaman dan kawalan.

Matlamat tulisan ini bukan sekadar senarai ringkasan makalah. Tujuannya adalah untuk merangkai, dari perspektif orang dalam, bagaimana kesepuluh makalah ini saling berhubung, bagaimana ia saling merujuk antara satu sama lain, dan apakah pergerakan manusia serta pertentangan pemikiran yang ia hasilkan dalam komuniti penyelidik Silicon Valley. Pembaca yang teliti akan menyedari dua benang merah yang menghubungkan ketiga-tiga babak ini. Yang pertama adalah "pembelajaran pengukuhan" — benang yang menghubungkan permainan kendiri AlphaGo Zero, RLAIF dalam Constitutional AI, hingga pembelajaran penaakulan o1. Yang kedua adalah "pembelajaran dalam konteks" — benang yang ditemui dalam GPT-3, mekanismenya diungkap melalui litar Transformer, diperluas dalam pembelajaran banyak-contoh, dan divisualisasikan dalam Monosemanticity. Maka, marilah kita mulakan dengan pembukaan babak pertama.

Attention Is All You Need (2017, Google) — Asas yang Mendasari Semua AI Generatif

Pertama sekali, saya ingin bermula dengan makalah yang paling banyak dirujuk dalam AI moden. "Attention Is All You Need," yang diterbitkan oleh lapan penyelidik Google Brain pada tahun 2017, membuang "Rangkaian Neural Berulang (RNN)" yang sebelumnya mendominasi bidang seperti terjemahan mesin, dan mengemukakan reka bentuk baharu yang dipanggil Transformer yang memproses teks menggunakan "mekanisme perhatian (attention)" sahaja. Terjemahan harfiah tajuknya ialah "Perhatian adalah segalanya." Pada masa itu ia kelihatan seperti jenaka yang provokatif, tetapi kini ia telah menjadi kebenaran yang literal.

Mari kita fikirkan dengan contoh konkrit. Untuk mesin memahami ayat "Dia memancing di tepi bank," ia perlu menentukan sama ada "bank" merujuk kepada institusi kewangan atau tepi sungai, berdasarkan kata "memancing" yang jauh letaknya. RNN tradisional membaca kata satu demi satu dari kiri ke kanan, menjadikannya lemah dalam menangkap hubungan antara kata yang berjauhan, dan kerana pemprosesan berjujukan, ia tidak dapat melakukan pengiraan selari. Mekanisme perhatian-diri Transformer membolehkan semua kata dalam ayat "melihat sekeliling" satu sama lain secara serentak, dan secara langsung mengira pemberat tentang berapa banyak perhatian yang perlu diberikan kepada setiap kata. Ia seperti kata "memancing" melihat "bank" dan berfikir "ah, ini pasti tepi sungai" lalu memberikan pemberat yang sesuai. Ini dilakukan secara serentak dari pelbagai sudut pandang (perhatian berbilang kepala), dan maklumat susunan kata ditambahkan secara berasingan dalam bentuk "pengekodan posisi."

Reka bentuk ini membawa dua implikasi revolusioner. Pertama, kerana ia dapat memproses keseluruhan ayat secara selari sekaligus, ia dapat memanfaatkan sepenuhnya keupayaan GPU. Model besar dalam makalah ini hanya dilatih selama 3.5 hari menggunakan lapan GPU NVIDIA P100, namun berjaya mencapai prestasi terbaik pada masa itu — skor BLEU 28.4 pada penanda aras terjemahan Inggeris-Jerman WMT 2014, dan 41.8 untuk terjemahan Inggeris-Perancis — dengan penggunaan pengiraan yang jauh lebih sedikit. Kedua, keselarian inilah yang secara fizikal memungkinkan strategi penskalaan "jadikan sebesar mungkin" yang muncul kemudiannya. Tanpa Transformer, GPT-3 mahupun Claude tidak akan wujud.

Yang menarik apabila dilihat dari dalam Lembah Silikon ialah nasib lapan orang pengarang makalah ini selepas itu. Mereka semua meninggalkan Google dan menjadi usahawan serta penyelidik teras industri AI moden. Noam Shazeer mengasaskan Character.AI (AI perbualan) (kemudian kembali ke Google untuk mengetuai Gemini), Aidan Gomez menjadi CEO Cohere, Ashish Vaswani dan Niki Parmar mengasaskan Essential AI bersama-sama, Llion Jones mengasaskan Sakana AI, Jakob Uszkoreit mengasaskan Inceptive (reka bentuk mRNA), Illia Polosukhin beralih ke NEAR Protocol (blok rantai), dan Łukasz Kaiser berpindah ke OpenAI. Senarai pengarang satu makalah sahaja telah menjadi "carta keturunan" permulaan AI dekad 2020-an. Perlu juga dimaklumkan bahawa Google Brain dan DeepMind, yang melahirkan makalah ini, telah bergabung pada April 2023 dan kini beroperasi sebagai satu organisasi bernama "Google DeepMind." Karya DeepMind yang akan dibincangkan dalam bab seterusnya juga merupakan cerita di bawah bumbung yang sama.

Mastering the game of Go without human knowledge (2017, DeepMind)——"Genius dari Lembaran Kosong" yang Tidak Meniru Manusia Sama Sekali

Pada Oktober 2017, DeepMind menerbitkan makalah bertajuk "Mastering the game of Go without human knowledge" dalam jurnal Nature. AlphaGo Zero yang diperkenalkan di sini merupakan penerus AlphaGo generasi pertama yang pada tahun sebelumnya telah mengalahkan juara dunia Go, Lee Sedol — namun dengan satu perbezaan yang menentukan. Jika AlphaGo generasi pertama belajar daripada sejumlah besar rekod permainan (kifu) ahli profesional manusia, AlphaGo Zero hanya diberikan peraturan permainan Go, lalu tanpa menggunakan sebarang data permainan manusia, ia hanya mengandalkan pertandingan melawan dirinya sendiri untuk menjadi lebih kuat.

Betapa luar biasanya ini, cuba bayangkan dengan analogi berikut. Seorang manusia yang tidak pernah diajar oleh sesiapa pun, tidak pernah melihat sebarang rekod permainan, hanya diberikan papan, batu, dan buku peraturan — lalu dia mengurung diri di dalam bilik dan terus bermain melawan dirinya sendiri, kemudian keluar beberapa hari kemudian dan mengalahkan pemain terkuat sepanjang sejarah dengan rekod 100 menang 0 kalah — itulah tepatnya yang dilakukan AlphaGo Zero. Bermula dari keadaan "halaman kosong" yang pada mulanya hanya meletakkan batu secara rawak, ia menjadikan pengalaman yang dijana melalui permainan sendiri sebagai satu-satunya guru, dan secara beransur-ansur menulis semula dirinya sendiri. Menurut makalah tersebut, hanya dalam masa 3 hari dari permulaan latihan, ia mengatasi versi yang mengalahkan Lee Sedol (AlphaGo Lee) dengan skor 100 berbanding 0, dan selepas 40 hari mencapai anggaran penarafan Elo 5,185, mengatasi semua versi terdahulu.

Teras teknikal terletak pada perpaduan yang menakjubkan antara pembelajaran pengukuhan (reinforcement learning) dan eksplorasi. AlphaGo Zero menggunakan satu rangkaian neural untuk meramalkan kedua-duanya: "kebarangkalian langkah seterusnya" dan "kadar kemenangan dalam posisi ini." Kemudian dalam setiap permainan, ia melakukan ramalan ke hadapan melalui Monte Carlo Tree Search (MCTS), dan menggunakan hasil ramalan itu sebagai "contoh yang lebih baik" untuk melatih rangkaian tersebut. Apabila rangkaian menjadi lebih kuat, pencariannya pun menjadi lebih tajam, dan pencarian yang tajam pula menghasilkan data latihan yang lebih baik — gelung pengukuhan diri ini melahirkan kekuatan yang melampaui manusia tanpa sebarang perancah luar berupa pengetahuan manusia. Yang patut diberi perhatian ialah bahawa AlphaGo Zero berjaya menemui semula joseki (bentuk-bentuk baik yang ditemui manusia sepanjang beratus-ratus tahun) secara sendiri, malah turut mencipta joseki baru yang tidak pernah diketahui manusia.

Dari perspektif Silicon Valley, sasaran sebenar makalah ini bukan permainan Go. Ia merupakan bukti prinsip bahawa "selagi ganjaran dapat ditakrifkan, pembelajaran pengukuhan melalui permainan sendiri sahaja sudah cukup untuk melampaui manusia." DeepMind telah menggeneralisasikan kaedah ini menjadi AlphaZero yang menguasai Go, catur, dan shogi dengan algoritma yang sama, dan kemudian berkembang lagi menjadi MuZero yang belajar tanpa perlu diberikan peraturan permainan sekalipun. Dan idea "melampaui batasan melalui penambahbaikan diri" ini akan muncul semula dalam pelbagai bentuk sepanjang bahagian kedua tulisan ini. Sama ada dalam Constitutional AI Anthropic di mana AI menjana maklum balas sendiri untuk proses pengharmlessan, mahupun dalam o1 OpenAI yang menjana rantaian penaakulan sendiri dan memperhalusinya dengan ganjaran — gen AlphaGo Zero mengalir di dalamnya. Pembelajaran pengukuhan adalah benang pertama yang merentasi keseluruhan tulisan ini.

Ramalan struktur protein yang sangat tepat dengan AlphaFold (2021, DeepMind) — "Masalah 50 tahun dalam biologi" yang diselesaikan oleh AI

Pencapaian besar lain yang ditunjukkan oleh DeepMind ialah "Ramalan Struktur Protein Ketepatan Tinggi menggunakan AlphaFold" yang diterbitkan dalam jurnal Nature pada tahun 2021. Ini berbeza sepenuhnya dari segi makna sejarahnya kerana AI telah menyelesaikan masalah biologi yang telah berlangsung selama 50 tahun itu sendiri, bukan sekadar permainan seperti Go. Pada tahun 2024, pengiktirafan terhadap pencapaian ini apabila Demis Hassabis dan John Jumper dari DeepMind menerima Hadiah Nobel Kimia membuktikan betapa besarnya kepentingannya (separuh hadiah diberikan kepada David Baker dari Universiti Washington yang mereka bentuk protein baharu melalui pengiraan).

Apakah sebenarnya masalah yang sukar ini? Protein ialah "rantai" yang terdiri daripada 20 jenis asid amino yang tersusun dalam satu barisan, namun rantai tersebut dilipat serta-merta menjadi struktur tiga dimensi yang kompleks di dalam sel, dan "bentuk" itulah yang menentukan fungsinya. Enzim, antibodi, otot — semuanya, bentuk menjana fungsi. Namun, "masalah lipatan protein" yang meramalkan struktur tiga dimensi akhir daripada susunan (jujukan) asid amino terlalu besar kombinasinya sehingga mustahil, dan sejak masalah ini disebut dalam konteks Hadiah Nobel pada tahun 1972, ia telah dianggap sebagai masalah biologi yang paling besar dan belum diselesaikan selama setengah abad. Secara tradisinya, menentukan satu struktur menggunakan kristalografi sinar-X dan kaedah seumpamanya mengambil masa beberapa bulan hingga beberapa tahun dengan kos yang sangat tinggi.

Inovasi AlphaFold2 terletak pada rangkaian neural baharu yang dipanggil Evoformer. Ia memproses dua sumber maklumat — "koleksi jujukan protein serupa yang terkumpul semasa evolusi (Multiple Sequence Alignment, MSA)" dan "jadual hubungan jarak antara asid amino" — melalui mekanisme perhatian (di mana idea Transformer dari bab sebelumnya turut berperanan) secara berulang kali, sebelum mengeluarkan koordinat tiga dimensi sekaligus. Kunci kejayaannya ialah teknik geometri yang membetulkan hubungan antara dua asid amino menggunakan ketekalan "segi tiga" melalui asid amino ketiga. Dalam pertandingan dunia ramalan struktur protein CASP14 pada tahun 2020, AlphaFold2 mencatat skor GDT median 92.4 — ketepatan yang hampir tidak dapat dibezakan daripada struktur eksperimen dalam skala 100 markah penuh — mengalahkan pesaing tempat kedua ke bawah dengan ketara sehingga dinilai "masalah ini telah diselesaikan secara asasnya."

Apa yang membezakan makalah ini daripada pencapaian teknikal biasa ialah besarnya impak sosial yang menyusul. DeepMind mendedahkan struktur yang diramalkan secara terbuka tanpa kedekut, dan AlphaFold Protein Structure Database kini mendaftarkan kira-kira 200 juta struktur yang merangkumi hampir semua protein yang diketahui, digunakan oleh lebih daripada 2 juta penyelidik dari 190 negara. "Andaian asas" di setiap bidang sains kehidupan — dari penemuan ubat, reka bentuk enzim, hinggalah penyelidikan rintangan antibiotik dan malaria — telah berubah. Sebagai penyelidik di Silicon Valley, apa yang ingin saya tegaskan ialah AlphaFold telah menunjukkan dengan paling jelas bahawa "AI bukan sekadar mainan yang memanipulasi kata-kata, tetapi alat yang mampu menyelesaikan masalah sains alam semulajadi yang tidak dapat diselesaikan oleh manusia." Hakikat bahawa Hassabis menubuhkan syarikat penemuan ubat Isomorphic Labs bermula dari AlphaFold, dan pada tahun 2024 memajukannya kepada AlphaFold 3 yang mampu meramalkan kompleks bukan sahaja protein tetapi juga DNA, RNA, dan sebatian molekul kecil, menggambarkan betapa luasnya jangkauan potensinya.

Scaling Laws for Neural Language Models (2020, OpenAI) — Menjadikan "Semakin Besar, Semakin Pintar" sebagai Hukum

Di sinilah kita beralih ke babak kedua, kisah OpenAI. Pada Januari 2020, Jared Kaplan dan rakan-rakannya dari OpenAI menerbitkan sebuah makalah bertajuk "Scaling Laws for Neural Language Models" — kelihatan sederhana pada pandangan pertama, namun ia telah menentukan strategi AI moden itu sendiri. Ringkasnya, hujah utama mereka ialah: "Kecerdasan model bahasa (ketepatan ramalan) terus meningkat mengikut 'hukum kuasa' yang mengejutkan kerapihannya, berkadar dengan saiz model, jumlah data, dan jumlah pengiraan."

Apakah kehebatan penemuan ini? Penyelidikan dan pembangunan biasanya merupakan usaha yang tidak menentu — seperti berjudi, tidak tahu apa yang akan berlaku sehinggalah dicuba. Namun Kaplan dan rakan-rakannya melatih lebih 200 model dengan bilangan parameter yang berbeza merentasi 7 peringkat magnitud, lalu meplotkan prestasinya pada graf. Hasilnya, titik-titik tersebut hampir tersusun dalam satu garis lurus (garis lurus pada graf log-log = hukum kuasa). Ini bermakna, daripada hasil eksperimen pada model kecil, prestasi model gergasi yang belum dibina pun dapat diramalkan terlebih dahulu. Ibarat ramalan cuaca — "jika sebanyak ini sumber pengiraan dilaburkan, model akan menjadi sepintar ini." Ini juga menjadi alat pertimbangan pengurusan untuk mewajarkan pelaburan berjumlah besar.

Implikasi praktikalnya pun amat ketara. Makalah itu mencadangkan bahawa untuk menggunakan belanjawan pengiraan yang diberikan dengan paling cekap, sumber-sumber patut diarahkan kepada membesarkan model daripada menambah data (dengan pembahagian optimum: bilangan parameter harus ditingkatkan mengikut kira-kira 0.73 kuasa daripada jumlah pengiraan, manakala data mengikut 0.27 kuasa). Selain itu, turut dinyatakan bahawa "model yang lebih besar belajar lebih banyak daripada data yang lebih sedikit (kecekapan sampel yang lebih tinggi)." Mesej "jika ragu, besarkan sahaja" ini mendorong pertaruhan pada GPT-3 — model gergasi yang tidak pernah ada tandingannya dalam sejarah — tidak lama selepas itu. GPT-3 dalam bab seterusnya merupakan percubaan pembuktian berskala besar yang pertama bagi hukum penskalaan ini.

Walau bagaimanapun, sebagai penyelidik yang jujur, ada kisah susulan yang perlu ditambah. Pada tahun 2022, Hoffman dan rakan-rakannya dari DeepMind melalui penyelidikan bertajuk "Chinchilla" mendakwa bahawa pembahagian optimum yang dicadangkan oleh Kaplan dan rakan-rakannya adalah berat sebelah. Dengan belanjawan pengiraan yang sama, adalah lebih optimum untuk menambah parameter dan data dalam kadar yang hampir sama (masing-masing kira-kira 0.5 kuasa daripada jumlah pengiraan) — dan model gergasi termasuk GPT-3 pada waktu itu "terlalu besar, dengan data latihan yang tidak mencukupi." Bahkan, Chinchilla bersaiz 70 bilion parameter mengatasi prestasi Gopher yang 4 kali lebih besar dengan 280 bilion parameter. Punca utama percanggahan ini kemudiannya dianalisis sebagai disebabkan oleh cara Kaplan dan rakan-rakan mengira parameter (tidak termasuk lapisan embedding) serta penetapan kadar pembelajaran. Hukum penskalaan bukanlah kebenaran yang monolitik — ia telah dipertingkatkan melalui pelbagai pembetulan — dan saya percaya bahawa proses pembetulan diri itulah yang menjadi bukti kesihatan bidang ini.

Language Models are Few-Shot Learners (2020, OpenAI) — Gergasi yang Belajar dengan "Hanya Menunjukkan Beberapa Contoh"

Teori hukum penskalaan telah dibuktikan kepada dunia dengan cara yang mengejutkan melalui kertas kerja GPT-3 yang diterbitkan pada tahun 2020, bertajuk "Language Models are Few-Shot Learners" (Model Bahasa adalah Pembelajaran Beberapa Contoh). Penyelidikan yang memenangi Anugerah Kertas Kerja Terbaik NeurIPS 2020 ini menunjukkan bahawa model bahasa besar dengan 175 bilion parameter yang luar biasa——10 kali lebih besar daripada mana-mana model bukan jarang sebelumnya——mampu memperoleh keupayaan yang tidak dijangka.

Keupayaan itulah yang menjadi latar kedua yang menghubungkan keseluruhan artikel ini, iaitu pembelajaran dalam konteks (in-context learning). Mari kita jelaskan dengan analogi. Dalam pembelajaran mesin biasa, jika anda mahu model boleh menterjemah, anda perlu menjalani "latihan tambahan (penalaan halus)" menggunakan data terjemahan. Namun GPT-3 berbeza. Cukup dengan menulis beberapa contoh seperti "sea otter → loutre de mer, cheese → fromage" dalam prompt (ayat input), kemudian tulis "dog →" di akhirnya, model akan melengkapkan dengan "chien" tanpa sebarang latihan tambahan. Tanpa mengemas kini sebarang pemberat pun, hanya dengan membaca konteks yang diberikan, model itu memahami dengan serta-merta bahawa "ah, ini adalah tugas terjemahan Inggeris-Perancis." Kertas kerja tersebut menilai secara sistematik dalam tiga peringkat: "sifar-shot" tanpa sebarang contoh, "satu-shot" dengan satu contoh sahaja, dan "beberapa-shot" dengan 10 hingga 100 contoh.

Kebolehan yang ditunjukkan oleh GPT-3 amat pelbagai. Selain terjemahan, menjawab soalan, dan melengkapkan teks, model ini juga berjaya menyelesaikan anagram perkataan, menggunakan kata-kata rekaan baharu dalam ayat, serta melakukan penambahan tiga digit——tugas yang memerlukan "penaakulan segera." Walaupun tiada sesiapa yang secara eksplisit "mengajar aritmetik," model ini telah memperoleh secara dalaman peraturan aritmetik melalui pembacaan teks dalam jumlah besar. Fenomena "apabila skala diperbesar, keupayaan yang tidak pernah dilatih tiba-tiba muncul" ini——yang kemudiannya dikenali sebagai kemunculan (emergence)——adalah kejutan terbesar yang diberikan GPT-3 kepada komuniti penyelidik.

Dari perspektif Silicon Valley, GPT-3 juga merupakan kertas kerja yang melebur sempadan antara "penyelidikan" dan "produk." Konsep API serba guna ini terhubung terus kepada ChatGPT, dan dengan pelancaran ChatGPT pada akhir tahun 2022, AI generatif menjadi fenomena masyarakat umum. Pada masa yang sama, GPT-3 meninggalkan dua persoalan untuk bahagian kedua artikel ini. Pertama, "mengapa pembelajaran dalam konteks berlaku, dan apakah mekanisme dalamannya?"——soalan ini akan dijawab oleh penyelidikan kebolehinterpretasian Anthropic dalam bab-bab seterusnya. Kedua, "apa yang akan berlaku jika 'beberapa' contoh dalam beberapa-shot ditambah kepada 'ratusan'?"——inilah yang menghubungkan kepada bab pembelajaran banyak-shot. GPT-3 adalah jawapan sekaligus khazanah persoalan besar yang menanti.

Learning to Reason with LLMs (2024, OpenAI) — "Berfikir Sebelum Menjawab" Membuka Paksi Penskalaan Baharu

Sebagai karya ketiga OpenAI, saya ingin membincangkan laporan teknikal model penaakulan o1 yang diumumkan pada September 2024, bertajuk "Learning to Reason with LLMs". Laporan ini menambahkan paksi baharu yang sama sekali berbeza kepada konvensional penskalaan yang selama ini menjadi pegangan — iaitu "model menjadi lebih pintar apabila diperbesar dan dikurniakan lebih banyak pengiraan semasa latihan." Paksi baharu itu ialah: "semakin lama model dibiarkan berfikir sebelum menjawab (semakin banyak pengiraan semasa penaakulan), semakin pintar ia menjadi."

Mari kita fikirkan dengan contoh yang intuitif. Bagi soalan matematik yang sukar, kadar jawapan betul berbeza jauh antara manusia yang menjawab secara refleks serta-merta dengan manusia yang mengambil masa 10 minit menulis langkah-langkah pengiraan di atas kertas. Model bahasa terdahulu seolah-olah menjawab semua soalan secara refleks. Apa yang dilakukan oleh o1 ialah membiarkan model mengembangkan "rantaian pemikiran (chain of thought)" yang panjang secara dalaman sebelum mengeluarkan jawapan — mengemukakan hipotesis, menyemak semula, menyedari kesilapan, dan mengubah pendekatan. Tambahan pula, untuk mengajar cara berfikir ini dengan berkesan, bukannya meniru contoh yang ditulis oleh manusia, sebaliknya pembelajaran pengukuhan berskala besar digunakan. Model dibiarkan menyelesaikan masalah sendiri, diberi ganjaran untuk laluan penaakulan yang betul, dan menemui sendiri cara "berfikir secara produktif (productive)." Di sini juga, perhatikan bahawa silsilah "pembelajaran pengukuhan melalui penambahbaikan diri" yang bermula dari AlphaGo Zero memainkan peranan penting.

Hasilnya sangat dramatik. Dalam AIME 2024, kelayakan Olimpiad Matematik Amerika, GPT-4o generasi sebelumnya hanya berjaya menyelesaikan rata-rata 12% soalan (1.8 daripada 15 soalan), manakala o1 mencapai 74% dengan satu jawapan, 83% dengan undi majoriti 64 kali, dan mencapai 93% apabila 1,000 sampel dipilih semula menggunakan pengskoran yang telah dilatih. Dalam Codeforces, pertandingan pengaturcaraan kompetitif, ia memasuki 11% teratas (persentil ke-89), dan dalam soalan sains peringkat kedoktoran, ia menyamai pakar. Graf paling penting yang ditunjukkan dalam makalah ini ialah hubungan log-linear iaitu "apabila masa berfikir (pengiraan penaakulan) ditingkatkan secara eksponen, kadar jawapan betul meningkat secara linear." Di sinilah buat pertama kalinya ditunjukkan dengan jelas bahawa model boleh dipintar melalui dua paksi bebas: pengiraan semasa latihan dan pengiraan semasa penaakulan.

Sebagai penyelidik, saya ingin menekankan dua kepentingan makalah ini. Pertama, di tengah-tengah kebimbangan industri pasca-Chinchilla bahawa "data latihan semakin berkurangan dan penskalaan mungkin mencapai had," o1 membuka ruang pertumbuhan baharu yang sama sekali berbeza menerusi "pengiraan penaakulan." Ini mengubah logik pembiayaan dan permintaan terhadap semikonduktor. Kedua, silsilah o1 diwarisi oleh keluarga model penaakulan seterusnya seperti o3, dan pada tahun 2026 ini, model andalan setiap syarikat direka bentuk dengan andaian bahawa ia "berfikir." Claude Opus 4.8 dari Anthropic yang akan dibincangkan kemudian, mahupun GPT-5.5 dari OpenAI, semuanya hidup dalam dunia "penskalaan masa penaakulan" ini. Apa yang digambarkan oleh OpenAI pada babak kedua ini ialah peta penskalaan yang lebih kaya — bahawa skala bukan sekadar satu arah, tetapi memiliki pelbagai paksi.

A Mathematical Framework for Transformer Circuits (2021, Anthropic) — Membaca Kotak Hitam sebagai "Litar"

Di sinilah babak ketiga bermula — kisah Anthropic. Anthropic diasaskan pada tahun 2021 oleh sekumpulan penyelidik yang pernah menerajui GPT-3 dan hukum penskalaan di OpenAI — termasuk adik-beradik Dario Amodei dan Daniela Amodei, serta Jared Kaplan, pengarang utama makalah hukum penskalaan — dengan prinsip: "Sebelum meningkatkan keupayaan secara membuta tuli, kita mesti dahulu memahami dan menjadikan model itu selamat." Manifestasi paling tulen bagi falsafah ini ialah makalah yang diterbitkan pada Disember 2021 bertajuk "A Mathematical Framework for Transformer Circuits".

Mari kita jelaskan permasalahan makalah ini melalui analogi. Model bahasa besar adalah gumpalan ratusan bilion angka — kita masukkan input, dan kita peroleh output — namun tiada seorang pun yang tahu apa yang sebenarnya berlaku di dalamnya. Ia adalah kotak hitam yang amat besar. Apa yang cuba dilakukan oleh Nelson Elhage dan rakan-rakan pengarangnya ialah membalikkan analisis kotak hitam ini menjadi "litar (circuit)" yang boleh difahami oleh manusia — sama seperti mengambil program yang telah dikompil, membongkarnya semula, dan memulihkan kod sumbernya. Bidang ini dikenali sebagai kebolehinterpretasian mekanikal (mechanistic interpretability), dan Anthropic menjadi pelopornya.

Makalah ini bermula bukan dengan model besar yang sebenar, tetapi dengan menguraikan secara menyeluruh model mainan yang amat kecil — "0-lapisan, 1-lapisan, dan 2-lapisan" — yang hanya mempunyai mekanisme perhatian. Di sinilah kerangka pandang yang indah diperkenalkan. Di dalam Transformer terdapat saluran komunikasi bersama yang disebut "aliran sisa (residual stream)", di mana setiap kepala perhatian membaca maklumat daripadanya dan menulis hasil pengiraan kembali ke dalamnya — seperti "papan kenyataan" dalaman model. Selain itu, makalah ini menunjukkan bahawa fungsi setiap kepala perhatian boleh diuraikan kepada dua litar: "litar yang menentukan kata mana yang perlu diberi perhatian (litar QK)" dan "litar yang menentukan apa yang dibaca dan ditulis daripada sasaran perhatian tersebut (litar OV)". Kotak hitam itu mula kelihatan sebagai gabungan komponen yang boleh diinterpretasikan.

Penemuan terbesar makalah ini ialah "kepala induksi (induction heads)". Ini adalah litar yang muncul buat pertama kalinya dalam model 2-lapisan, dan ia berfungsi seperti salin-tampal: "Jika corak 'jika A maka B' dilihat sebelum ini, ramalkan B apabila A muncul semula." Nampaknya mudah, tetapi inilah calon terkuat untuk menjelaskan "pembelajaran dalam konteks (in-context learning)" yang ditunjukkan oleh GPT-3 dalam bab sebelumnya. Malah, dalam penyelidikan susulan Anthropic pada tahun 2022, mereka menunjukkan bahawa saat kepala induksi terbentuk dalam model bertepatan dengan saat keupayaan pembelajaran dalam konteks muncul. Dengan kata lain, bab ini merupakan penyelesaian plot yang tersembunyi: fenomena misteri yang "ditemui" oleh OpenAI dalam babak kedua kini diberikan "penjelasan mekanikal" oleh Anthropic dalam babak ketiga. Makalah inilah titik perubahan di mana kisah keupayaan berbalik menjadi kisah pemahaman.

Constitutional AI: Harmlessness from AI Feedback (2022, Anthropic) — Penemuan "Perlembagaan" di Mana AI Melatih AI

Karya agung kedua Anthropic ialah "Constitutional AI: Harmlessness from AI Feedback" yang diumumkan pada Disember 2022. Ini merupakan kaedah latihan yang menjadi teras produk Anthropic kemudiannya, Claude, dan menunjukkan peralihan penting dari segi praktikal mahupun falsafah — bahawa "untuk menjadikan AI selamat, kita tidak perlu manusia melabel satu persatu setiap output yang berbahaya."

Mari dijelaskan latar belakangnya. Kaedah keselamatan standard yang digunakan dalam ChatGPT dan seumpamanya ialah "Reinforcement Learning from Human Feedback (RLHF)", di mana manusia membuat penilaian berbahaya/tidak berbahaya secara manual sebanyak puluhan ribu kali. Namun ini memerlukan kos yang tinggi, menimbulkan masalah etika kerana pekerja manusia terdedah kepada kandungan berbahaya dalam jumlah besar, dan kriteria untuk menentukan apa yang berbahaya pun tidak telus. Persoalan Anthropic adalah begini — bolehkah kriteria itu diberikan terlebih dahulu dalam bentuk "perlembagaan (constitution)" yang dinyatakan secara eksplisit, dan proses mendidiknya diserahkan kepada AI itu sendiri?

Mekanismenya terdiri daripada dua peringkat. Peringkat pertama (pembelajaran berpandu) melibatkan model yang sengaja dihadapkan dengan soalan berbahaya untuk menghasilkan jawapan yang bermasalah, kemudian model itu sendiri diminta untuk mengkritik diri dengan berkata "jawapan ini bermasalah berdasarkan prinsip nombor sekian dalam perlembagaan", lalu menulis semula jawapannya. Model kemudian diperhalusi menggunakan respons tidak berbahaya yang telah ditulis semula itu. Peringkat kedua (pembelajaran pengukuhan) melibatkan model yang menghasilkan dua respons, lalu AI itu sendiri menilai mana yang lebih sesuai dengan perlembagaan untuk menghasilkan data keutamaan, yang kemudian digunakan sebagai ganjaran untuk latihan lanjut. Kerana ganjaran dibina menggunakan maklum balas AI dan bukan label manusia, kaedah ini dinamakan RLAIF (Reinforcement Learning from AI Feedback). Perlembagaan terdiri daripada kira-kira 16 prinsip yang merujuk kepada Perisytiharan Hak Asasi Manusia dan sebagainya, meliputi aspek kesahan, bahaya, keadilan, dan nada komunikasi.

Keindahan makalah ini terletak pada penyelesaian baru yang ditawarkannya terhadap pertukaran antara keselamatan dan kegunaan. Dalam kaedah terdahulu, apabila penghapusan bahaya diperketatkan, model cenderung mengalami penghindaran berlebihan di mana ia menolak hampir semua perkara dengan berkata "Saya tidak dapat menjawab soalan itu." Model yang dilatih menggunakan Constitutional AI tidak sekadar berdiam diri terhadap permintaan berbahaya, sebaliknya menjadi pembantu yang "tidak berbahaya tetapi tidak menghindar" — menjelaskan mengapa ia tidak dapat memenuhi permintaan sambil terus berdialog. Dari perspektif penyelidik, semangat "penambahbaikan diri" sejak zaman AlphaGo Zero turut memainkan peranan di sini — model mengkritik outputnya sendiri, menyemak semula, dan melatih dirinya berdasarkan keutamaannya sendiri. Anthropic kemudiannya mengembangkan kaedah ini menjadi eksperimen "Collective Constitutional AI" yang mencerminkan pendapat orang awam ke dalam perlembagaan, bahkan menyentuh persoalan tadbir urus tentang siapa dan bagaimana nilai-nilai AI ditentukan.

Many-Shot In-Context Learning (2024, DeepMind) dan Many-shot Jailbreaking (2024, Anthropic) — Cahaya dan Bayangan Pembelajaran Dalam Konteks

Bab ini membincangkan "pembelajaran many-shot" yang mendorong pembelajaran dalam konteks ke skala baharu pada tahun 2024.

Mari kita fahami fenomena itu sendiri terlebih dahulu. Pembelajaran few-shot yang ditunjukkan oleh GPT-3 dalam Babak Kedua melibatkan memasukkan "10 hingga 100" contoh ke dalam prompt. Namun menjelang 2024, tetingkap konteks (panjang input yang boleh diproses sekaligus) syarikat-syarikat telah berkembang pesat, membolehkan pemprosesan ratusan ribu token. Justeru, Google DeepMind menjalankan eksperimen mudah — apakah yang berlaku jika bilangan contoh ditingkatkan kepada ratusan hingga ribuan? Hasilnya, didapati prestasi terus meningkat dengan ketara merentasi pelbagai tugas termasuk terjemahan, ringkasan, dan penaakulan. Selain itu, mereka menunjukkan bahawa walaupun menggunakan "Reinforced ICL" yang menggunakan rantaian pemikiran yang dijana oleh model itu sendiri sebagai contoh, dan "Unsupervised ICL" yang hanya menyenaraikan banyak soalan tanpa memberikan jawapan contoh pun, masih menghasilkan kesan positif — sebagai penyelesaian kepada masalah kekurangan contoh buatan manusia. Tanpa bergantung pada penalaan halus, hanya dengan mengalirkan banyak contoh ke dalam konteks, model boleh disesuaikan dengan tugas baharu.

Jadi, apakah "many-shot jailbreak" Anthropic? Ini adalah sisi gelap yang berbahaya daripada prinsip yang sama. Para penyelidik Anthropic mendapati bahawa apabila mereka memasukkan ratusan dialog palsu yang "menjawab soalan berbahaya dengan sopan" ke dalam prompt untuk model yang telah dilatih dengan selamat, model tersebut akan terbawa-bawa oleh konteks itu dan akhirnya mematuhi permintaan berbahaya yang sepatutnya ditolak. Aspek yang menakutkan adalah bahawa keberkesanannya meningkat mengikut hukum kuasa terhadap bilangan contoh — ini adalah tepat sifat sejagat yang dimiliki oleh pembelajaran dalam konteks. Lebih-lebih lagi, serangan ini bukan sahaja berkesan terhadap Claude milik Anthropic sendiri, malah turut berkesan terhadap model OpenAI dan Google DeepMind. Ini adalah pelajaran berat dalam penyelidikan keselamatan — "ciri yang mudah" berupa tetingkap konteks yang panjang menjadi permukaan serangan baharu secara langsung.

Apabila membaca kedua-dua karya ini berdampingan, hakikat AI moden menjadi jelas. Pembelajaran dalam konteks ditemui pada GPT-3 (Babak Kedua), mekanismenya dijelaskan melalui litar Transformer (induction head dalam babak ini), dan dengan many-shot, ia disahkan sebagai "fenomena yang mengikut hukum kuasa, semakin kuat seiring peningkatan skala." Sama seperti hukum penskalaan mengawal "pembelajaran" model, hukum kuasa turut mengawal "pembelajaran dalam konteks." Dan kuasa yang sama boleh digunakan untuk perluasan keupayaan (DeepMind) mahupun pemusnahan keselamatan (Anthropic). Dualiti inilah sebabnya Anthropic, yang melihat keupayaan dan keselamatan secara serentak, sengaja mendedahkan kaedah serangan untuk memberi amaran kepada industri.

Scaling Monosemanticity (2024, Anthropic) — Mengekstrak "komponen makna" daripada Claude dalam pengeluaran

Penutup Babak Ketiga, dan makalah kesepuluh dalam tulisan ini, ialah "Scaling Monosemanticity: Extracting Interpretable Features from Claude 3 Sonnet" yang diumumkan oleh Anthropic pada Mei 2024. Ini merupakan penyelidikan monumental di mana cita-cita interpretabiliti mekanikal yang bermula dalam bab litar Transformer akhirnya terzahir pada model besar sebenar yang beroperasi dalam persekitaran pengeluaran — Claude 3 Sonnet.

Inti permasalahannya terletak pada sifat rumit yang dikenali sebagai "pertindihan (superposition)". Neuron-neuron individu dalam rangkaian neural tidak memberikan respons yang kemas kepada satu konsep seperti "anjing" atau "kesedihan" sebagaimana yang diharapkan oleh manusia. Setiap neuron berada dalam keadaan polisemantik di mana ia bertindak balas kepada puluhan konsep yang tidak berkaitan secara serentak, dan inilah halangan terbesar yang menghalang penyahsulitan model. Dalam penyelidikan pendahulu 2023 bertajuk "Towards Monosemanticity", Anthropic telah menunjukkan melalui model kecil bahawa kaedah pengekod automatik jarang (Sparse Autoencoder / SAE) boleh mengurai aktiviti neuron yang berbelit-belit menjadi "ciri (feature) yang sepadan dengan satu makna". Persoalan dalam makalah ini ialah "adakah kaedah ini boleh diskala daripada model mainan kepada model gergasi sebenar?"

Jawapannya adalah ya. Anthropic berjaya mengekstrak ciri-ciri monosemantik (monosemantic) berjuta-juta bilangan daripada aktiviti lapisan tengah Claude 3 Sonnet menggunakan pendekatan pembelajaran kamus. Ciri-ciri tersebut bersifat abstrak yang menakjubkan dan merentasi bahasa serta gaya. Sebagai contoh, ciri yang sepadan dengan "Golden Gate Bridge" memberikan respons sama ada dalam bahasa Inggeris atau bahasa Jepun, mahupun terhadap gambar jambatan. Yang lebih penting, ciri-ciri ini bukan sahaja boleh diperhatikan sebagai keadaan model, malah tingkah lakunya boleh dipandu dengan menguatkan aktiviti secara buatan. Apabila pasukan penyelidik menaikkan "ciri Golden Gate Bridge" ke tahap maksimum, Claude mula meyakini dirinya sebagai jambatan tersebut tidak kira apa yang ditanya, dan menghubungkan setiap topik dengan jambatan — inilah demo "Golden Gate Claude" yang sempat diterbitkan secara terbuka dan mencetuskan kehebohan.

Perkara yang dianggap paling penting dari sudut penyelidikan ialah penemuan ciri-ciri yang berkait langsung dengan keselamatan. Anthropic menemui ciri-ciri yang sepadan dengan tingkah laku yang memang ingin dipantau — seperti penipuan, pengampu (sycophancy), prejudis, penghasilan bahan berbahaya, dan kelemahan kod. Jika keadaan dalaman model yang "cuba berbohong" dapat ditangkap sebagai ciri dan dimanipulasi, maka keselamatan AI berpotensi melangkah dari tahap "menapis keluaran selepas hakikat" ke tahap "membaca dan mengawal niat dalaman secara langsung". Walau bagaimanapun, makalah ini dengan jujur mengakui batasannya. Sebagai contoh, walaupun dinamakan "ciri Golden Gate Bridge", sebahagian besar situasi ciri itu diaktifkan tidak ada kaitan dengan jambatan, dan ia benar-benar mewakili jambatan hanya pada kurang daripada 10% kes apabila aktiviti berada pada tahap yang sangat tinggi — terdapat perangkap ilusi ketenangan dalam perbuatan manusia memberi nama kepada ciri. Namun begitu, makalah ini membuktikan bahawa impian "membaca kotak hitam sebagai litar" yang diwar-warkan dalam bab litar Transformer boleh menjadi kenyataan walaupun pada model mutakhir. Babak Ketiga telah menyempurnakan kisah keupayaan sebagai "kisah kefahaman dan kawalan".

Tinjauan keseluruhan aliran dan pandangan ke hadapan dari sini

Setelah selesai membaca kesepuluh makalah ini, marilah kita lihat gambaran keseluruhannya sekali lagi. Kisah tiga babak ini bukan sekadar kumpulan penemuan yang berdiri sendiri, melainkan sebuah sungai besar yang saling mengutip, mengkritik, dan meneruskan satu sama lain. Babak Pertama: Google meletakkan asas dengan Transformer, DeepMind menunjukkan prinsip "melampaui manusia melalui pembelajaran pengukuhan permainan sendiri" (AlphaGo Zero) dan jangkauan "menyelesaikan masalah sains semula jadi yang sukar dengan AI" (AlphaFold). Babak Kedua: OpenAI mengatakan bahawa "skala itulah yang melahirkan kecerdasan" di atas asas tersebut, menjadikannya hukum (hukum penskalaan), membuktikannya (GPT-3), dan membuka paksi skala baru yang disebut "berfikir semasa inferens" (o1). Babak Ketiga: Anthropic membangun sistem pemahaman dan kawalan terhadap kuasa besar yang dilahirkan oleh Babak Kedua — dengan "membaca apa yang berlaku di dalamnya sebagai litar (litar Transformer, Monosemanticity), mendidik melalui maklum balas AI itu sendiri (Constitutional AI), dan menghadapi keambiguan kuasa tersebut secara langsung (many-shot)."

Dua benang merah yang mengikat sungai ini tersingkap dengan indah. Pembelajaran pengukuhan terus mengalir dalam bentuk yang berubah — dari permainan sendiri AlphaGo Zero, kepada RLAIF dalam Constitutional AI, hingga pembelajaran penaakulan o1 — meletakkan gagasan "model menilai keluarannya sendiri untuk memperbaiki dirinya" sebagai teras AI moden. Pembelajaran dalam konteks ditemukan dalam GPT-3, mekanismenya diurai melalui induktion heads, diperluas sebagai hukum kuasa melalui many-shot, dan divisualisasikan sebagai ciri dalam Monosemanticity — kitaran ideal sains berupa penemuan, penjelasan, perluasan, dan pemerhatian yang dilalui hanya dalam beberapa tahun. Dan Transformer terus menjadi asas segalanya — bukan sahaja teks, malah protein (Evoformer) sekalipun. "Attention Is All You Need" adalah kebenaran yang literal.

Dilihat dari dalam Silicon Valley, yang paling terasa ialah bahawa ini bukan sahaja "sejarah makalah" tetapi juga "sejarah perpindahan manusia." Kedelapan pengarang Transformer meninggalkan Google dan menjadi pohon keturunan industri itu sendiri; para penyelidik yang menerajui hukum penskalaan dan GPT-3 meninggalkan OpenAI untuk mendirikan Anthropic. Mereka yang mengejar kemampuan dan mereka yang mempersoalkan keselamatan berasal dari makmal yang sama, saling mengutip makalah satu sama lain sambil mengibarkan bendera yang berbeza — ketegangan inilah yang telah mendorong evolusi bidang ini. Dan ketegangan itu, pada bulan Jun 2026 ini, tercermin pula di pasaran modal. Pada Mei 2026, Anthropic mengumpulkan $65 bilion (kira-kira 10 trilion yen) melalui Siri H, mencapai penilaian sekitar $965 bilion (kira-kira 154 trilion yen), melampaui saingan lamanya OpenAI (jumlah pengumpulan terbaru sekitar $122 bilion ≈ 20 trilion yen, penilaian sekitar $852 bilion ≈ 136 trilion yen) buat pertama kali, menjadi permulaan AI paling bernilai di dunia, dan dilaporkan telah bersiap untuk IPO. Pencarian ilmu yang bermula dari 10 makalah kini menggerakkan modal yang setara dengan saiz ekonomi sebuah negara.

Jadi, ke mana arah tuju dari sini? Saya ingin menyatakan tiga pandangan saya. Pertama, persaingan di mana "pemahaman" mengejar ketinggalan "kemampuan" akan semakin serius. Interpretabiliti yang dibuka oleh Monosemanticity baru menyinari sebahagian kecil model. Namun, semakin AI terlibat dalam keputusan penting masyarakat, semakin tinggi nilai teknologi yang dapat menjelaskan "mengapa ia menjawab begitu" dari dalam, serta mengesan dan mengawal keadaan dalaman yang berbahaya. Sejauh mana eksponen pemahaman dapat berjalan seiring dengan eksponen kemampuan adalah soal teras lima tahun ke hadapan. Kedua, paksi penskalaan akan terus bertambah. Setelah waktu latihan dan waktu inferens, "paksi masa tindakan" di mana ejen mencuba secara autonomi dalam jangka masa panjang adalah medan perang seterusnya. Malah, Claude Opus 4.8 yang muncul pada Mei 2026 dilengkapi dengan keupayaan menjalankan sehingga 1,000 sub-ejen secara selari, bersaing dengan GPT-5.5 dalam kemampuan menyelesaikan tugas jangka panjang. Di sebalik "masa untuk berfikir" yang dibuka oleh o1, terdapat "masa untuk terus bergerak."

Ketiga, dan yang paling penting, saya ingin menekankan bahawa apa yang ditunjukkan oleh 10 makalah ini bukanlah "titik akhir" melainkan "metodologi." Keberanian untuk percaya kepada hukum kuasa yang indah dan mengambil pertaruhan besar, kegigihan untuk tidak menyerah pada kotak hitam tetapi membacanya sebagai litar, disiplin untuk mempersoalkan keselamatan dengan semangat yang sama seperti kemampuan — walaupun teknologi individu akhirnya menjadi usang, metodologi ini akan terus melahirkan 10, 100 makalah berikutnya. Apa yang diwariskan dari DeepMind kepada OpenAI, lalu kepada Anthropic, bukanlah seni bina atau persamaan matematik tertentu, melainkan sikap itu sendiri — "menghadapi misteri terdalam alam semula jadi dan kecerdasan secara langsung, dengan alat bernama pengiraan." Makalah permata yang akan mengubah sejarah AI seterusnya sedang ditulis di suatu makmal di suatu tempat pada saat ini. Jika kita menelusuri sumbernya, kita pasti akan tiba di kesepuluh makalah dalam tulisan ini.