Claude Opus 4.8, rilis resmi. Harga tetap sama. Peningkatan kejujuran (Honesty), lompatan kemampuan agen, dan kontrol upaya (Effort Control)

Pada Kamis, 28 Mei 2026, Anthropic resmi merilis versi terbaru dari LLM unggulannya, "Claude Opus 4.8". Harganya dipertahankan sama dengan Opus 4.7 generasi sebelumnya, yaitu 5 dolar (sekitar 775 yen) per 1 juta token input / 25 dolar (sekitar 3.875 yen) per 1 juta token output, sementara skornya meningkat secara signifikan menjadi 69,2% pada SWE-Bench Pro (4.7 sebesar 64,3%) dan 1890 poin pada GDPval (4.7 sebesar 1753 poin). Sebagai fitur baru, terdapat peningkatan kejujuran (Honesty) yang membuat "probabilitas membiarkan cacat pada kode menjadi sekitar seperempat dibandingkan generasi sebelumnya", serta "Effort Contr" (Kontrol Upaya) pada claude.ai dan Cowork

Bobot "Versi Minor" yang Datang dalam Siklus 41 Hari

Anthropic, melalui blog resminya "Introducing Claude Opus 4.8", meluncurkan Opus 4.8 pada 28 Mei, hanya 41 hari setelah Opus 4.7 (dirilis 17 April 2026). Kecepatan ini secara jelas melampaui ritme pembaruan "dalam hitungan bulan" yang selama ini dianut perusahaan tersebut. TechCrunch melaporkannya sebagai "a much faster upgrade cycle than normal for Anthropic (siklus pembaruan yang jauh lebih cepat dari biasanya bagi Anthropic)", sementara Axios turut mencantumkan bahwa rilis umum model kelas atas yang belum diumumkan, "Mythos", akan menyusul "dalam beberapa minggu ke depan (in the coming weeks)".

Berbagai media menunjukkan bahwa di balik kecepatan ini terdapat persaingan tiga arah dengan GPT-5.5 milik OpenAI dan Gemini 3.1 Pro milik Google, serta persaingan IPO dalam tahun ini, tepat setelah Anthropic menggalang dana sebesar 30 miliar dolar (sekitar 4,65 triliun yen) pada Seri G di Februari 2026 dengan valuasi post-money 380 miliar dolar (sekitar 58,9 triliun yen). Yahoo Finance memasang judul "IPO race with OpenAI heats up (persaingan IPO dengan OpenAI memanas)", dan menempatkan rilis Opus 4.8 sebagai bukti kekuatan produk di tengah persaingan ini.

Dari sudut pandang insinyur, rilis "nomor minor" ini didistribusikan dengan cepat dalam bentuk identifier API claude-opus-4-8, dan pada level SDK pun konstanta seperti Model.ClaudeOpus4_8 (C#), anthropic.ModelClaudeOpus4_8 (Go), dan Model.CLAUDE_OPUS_4_8 (Java) langsung ditambahkan. Artinya, kode yang sudah menggunakan Opus 4.7 dirancang agar dapat berjalan hanya dengan mengganti ID model-nya saja, sehingga biaya migrasi nyaris nol. Hal ini mencerminkan strategi Anthropic yang "menyandang nama versi minor, tetapi dengan kesiapan rilis setingkat versi mayor".

Benchmark: +4,9 poin dibanding generasi sebelumnya dalam agentic coding, namun kenyataannya masih kalah di Terminal-Bench

Metrik yang paling patut diperhatikan adalah skor "SWE-Bench Pro" yang mengukur kemampuan agentic coding. Menurut tabel yang dirangkum OfficeChai dari angka resmi, Opus 4.8 meraih 69,2%, Opus 4.7 sebesar 64,3%, OpenAI GPT-5.5 sebesar 58,6%, dan Google Gemini 3.1 Pro sebesar 54,2%, sehingga Opus 4.8 berhasil unggul lebih dari 10 poin atas para pesaingnya di SWE-Bench Pro.

Pada OSWorld-Verified yang mengukur operasi komputer secara agentic, skornya 83,4% (4.7 sebesar 82,8%, GPT-5.5 sebesar 78,7%, Gemini 3.1 Pro sebesar 76,2%), dan pada GDPval yang dikembangkan OpenAI untuk mengukur performa kerja berbasis pengetahuan, skornya 1890 poin (4.7 sebesar 1753 poin, GPT-5.5 sebesar 1769 poin), menunjukkan keunggulan praktis yang jauh meninggalkan pesaing dalam konteks agen. Pada versi penggunaan alat (tool use) dari "Humanity's Last Exam" yang menguji kemampuan penalaran multi-domain, hasilnya 57,9% (4.7 sebesar 54,7%), dan pada versi tanpa alat hasilnya dipublikasikan sebesar 49,8%. Analisis keuangan agentic (Finance Agent v2) sebesar 53,9%, evaluasi agen peramban Online-Mind2Web sebesar 84%, dan menurut blog resmi Anthropic, pada "Super-Agent benchmark" semua kasus diselesaikan secara end-to-end, serta mencatatkan "pencapaian pertama" berupa melampaui 10% untuk pertama kalinya pada "all-pass standard" dalam tolok ukur agen hukum (legal agent benchmark).

Namun, ada pula angka yang harus dicermati dengan saksama oleh para insinyur Silicon Valley di sini. Pada Terminal-Bench 2.1 (autonomous coding di atas terminal), GPT-5.5 unggul dengan 78,2% dibandingkan Opus 4.8 yang sebesar 74,6%. Dengan kata lain, jika kita memisahkan hanya "tugas otonom yang dapat diselesaikan sepenuhnya di atas shell", masih ada area di mana pihak OpenAI memiliki keunggulan. Secara keseluruhan memang Opus 4.8 yang unggul, tetapi untuk jenis operasi agen yang dapat diselesaikan sepenuhnya di CLI, komitmen penuh pada GPT-5.5 juga layak dipertimbangkan — itulah penilaian jujurnya. Niko Grupen, applied research head di Harvey yang dikutip oleh majalah Inc., berkomentar bahwa "kami mencatatkan skor tertinggi sepanjang masa pada tolok ukur agen hukum internal kami", dan pandangan bahwa Opus 4.8 unggul satu langkah di depan dalam kasus penggunaan perusahaan yang membutuhkan penalaran konteks panjang kini semakin mengakar.

Kejujuran (Honesty) — "Tingkat Pembiaran Cacat Kode" akibat halusinasi turun menjadi seperempat

Peningkatan yang paling banyak diberitakan terkait Opus 4.8 adalah perbaikan pada aspek "Honesty (kejujuran)". Menurut blog resmi Anthropic dan pemberitaan cryptobriefing, Opus 4.8 menjadi "sekitar empat kali lebih kecil kemungkinannya (around four times less likely) untuk meloloskan cacat yang terdapat dalam kode yang ditulisnya sendiri tanpa menunjukkannya, dibandingkan dengan Opus 4.7". Tom's Guide dalam judulnya mengungkapkannya sebagai "far less likely to 'fake' answers (jauh lebih kecil kemungkinannya untuk 'mengarang' jawaban)", dan majalah Inc. menilainya sebagai "its most honest model yet (model paling jujur yang pernah dibuat perusahaan ini)".

Inti dari peningkatan ini bukan sekadar "akurasi fakta", melainkan peningkatan presisi metakognisi. Mengikuti ungkapan resmi Anthropic, Opus 4.8 menjadi lebih kuat dalam "kecenderungan untuk menandai ketidakpastian terhadap pekerjaannya sendiri (more likely to flag uncertainties about its work)", dan lebih lemah dalam "kecenderungan untuk membuat klaim tanpa dasar (less likely to make unsupported claims)". Dari sudut pandang seorang insinyur, hal ini berarti dalam tinjauan kode "kemungkinannya meningkat untuk melakukan pemeriksaan diri apakah ia memiliki kelalaian sebelum membubuhkan stempel LGTM".

Bagi para pengembang yang telah menggunakan Opus 4.7 ke bawah, pasti pernah mengalami "ketika meminta Claude 'periksa seluruh PR dan tunjukkan jika ada masalah', ia menjawab dengan percaya diri 'tidak ada masalah', tetapi ternyata gagal di CI". Pada Opus 4.8, dapat diharapkan bahwa jenis "kelalaian yang berasal dari rasa percaya diri berlebih" ini berkurang secara signifikan. Sebagai tips praktis, ada baiknya untuk sementara melepaskan prompt instruksi yang selama ini ditulis secara defensif seperti "jangan sampai ada yang terlewat. sebutkan semua bagian yang mencurigakan", lalu mengamati respons mentahnya. Manfaat dari "prompt hack yang mendorong skeptisisme diri" yang dahulu wajib pada generasi sebelumnya kini seharusnya relatif memudar, seiring kemampuan itu telah terinternalisasi pada sisi model. Dalam evaluasi penyelarasan (alignment) pun, Anthropic menjelaskan bahwa "tingkat kemunculan perilaku yang tidak selaras (misaligned) menurun secara signifikan, mencapai level yang setara dengan model Mythos yang belum dirilis".

Effort Control — Mengontrol "kedalaman berpikir" dalam 5 tingkat dengan satu model

Bersamaan dengan Opus 4.8, perubahan operasional terbesar bagi para engineer adalah formalisasi parameter "Effort". Menurut dokumentasi API resmi Anthropic (platform.claude.com/docs/en/build-with-claude/effort), effort memiliki 5 tingkatan: low／medium／high（default）／xhigh／max, dan merupakan parameter yang mengontrol "jumlah token yang dihabiskan Claude untuk menghasilkan respons". Parameter ini sebagian sudah diperkenalkan di Opus 4.7, tetapi pada Opus 4.8 panduan rekomendasi dalam dokumentasi resmi telah dituangkan secara eksplisit.

Jika kita uraikan panduan resmi tersebut, pembagiannya adalah sebagai berikut: low untuk "tugas yang singkat dan ruang lingkupnya jelas" atau penggunaan sub-agent, medium untuk "hasil yang cukup baik dengan biaya yang ditekan", high sebagai default untuk "penalaran kompleks, coding yang sulit, dan tugas agentik", xhigh sebagai "titik awal yang direkomendasikan untuk pekerjaan coding dan agent" sekaligus saat menangani "tugas berdurasi panjang lebih dari 30 menit" dan "anggaran berskala jutaan token", sedangkan max hanya untuk "masalah tingkat frontier". Anthropic sendiri secara eksplisit menyatakan bahwa max juga memiliki risiko "terjebak dalam pemikiran berlebihan (overthinking) dan menurunkan kualitas pada output terstruktur", sehingga bukan peluru perak.

Sebagai kiat dalam implementasi, jika memanggil melalui curl, sematkan effort: "xhigh" di dalam output_config:

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-8",
    "max_tokens": 65536,
    "messages": [{"role":"user","content":"…"}],
    "output_config": {"effort": "xhigh"}
  }'

Sebagai rekomendasi kuat dari Anthropic resmi, disebutkan bahwa "ketika menjalankan dengan xhigh atau max, pastikan untuk mengambil max_tokens yang besar. Mulai dengan 64k token, lalu sesuaikan (tuning) sesuai kebutuhan". Hal ini karena saat sub-agent atau pemanggilan tool berantai, jika max_tokens terlalu kecil, agent akan terputus di tengah proses berpikir. Parameter budget_tokens yang banyak digunakan pada Opus 4.6 menjadi direncanakan untuk dihentikan (deprecated), dan pada Opus 4.7／4.8 kombinasi adaptive thinking（thinking: {type: "adaptive"}）dan effort menjadi yang utama. Pada Opus 4.8, thinking: {type: "enabled", budget_tokens: N} manual tidak didukung dan akan mengembalikan error 400, jadi perlu diperhatikan bahwa saat migrasi, jika menjalankannya dengan pengaturan budget lama yang masih tertinggal akan menimbulkan masalah.

Di claude.ai maupun Cowork (pengalaman untuk tim dari lini eks-Anthropic Console), UI pemilihan effort juga ditambahkan di samping selektor model. Tersedia pilihan extra（setara dengan xhigh pada API）dan max, dengan default high. Rekomendasi resminya adalah "extra ditujukan untuk tugas sulit dan alur kerja asinkron berdurasi panjang". Poin penting lainnya adalah penjelasan resmi bahwa dibandingkan default Opus 4.7, default high pada Opus 4.8 menjadi "performa lebih baik dengan jumlah token yang sama".

Dynamic Workflows — Menjalankan ratusan subagen dalam satu sesi

"Dynamic Workflows" yang diperkenalkan pada Claude Code diberi status pratinjau riset (research preview) dan dirilis untuk paket Enterprise／Team／Max. Menurut penjelasan resmi Anthropic, ini adalah fitur di mana model besar seperti Opus "merencanakan, mengeksekusi, dan memverifikasi ratusan subagen paralel dalam satu sesi tunggal". Secara konkret, Claude Code disebut mampu menjalankan "migrasi berskala codebase, dari kickoff hingga merge, dengan melintasi ratusan ribu baris kode sambil menggunakan suite pengujian yang sudah ada sebagai pengganti benchmark".

Yang menarik dari desain ini dari sudut pandang seorang insinyur adalah arsitekturnya: setiap subagen berjalan dalam "jendela konteks (context window) yang independen", dan hanya "mengirim kembali informasi yang relevan saja" ke orkestrator utama. Ini adalah orkestrasi LLM bergaya Map-Reduce yang khas, dan artinya pola implementasi yang tidak mencemari konteks orkestrator utama kini disediakan sebagai primitif di sisi API.

Use case praktis yang dilaporkan adalah jenis pekerjaan yang seharusnya "dibuat oleh manusia dengan mengawasi ratusan PR", seperti misalnya "migrasi seluruh codebase dari React 17→19", "penambahan anotasi tipe Python secara menyeluruh", atau "penulisan ulang massal dari DSL internal ke skema GraphQL". Hingga era Opus 4.7, sisi pemanggil perlu menuliskan sendiri "logika untuk mendekomposisi tugas raksasa", tetapi Opus 4.8 + Dynamic Workflows membuat sisi Claude yang mengambil alih baik dekomposisi maupun verifikasi.

Bagi insinyur teknologi di Silicon Valley, ada dua pengamatan penting di sini. Pertama, keberadaan Dynamic Workflows memperkuat alasan mengapa max_tokens Opus 4.8 direkomendasikan untuk "dimulai dari 64k". Karena agregasi hasil subagen saja sudah memakan puluhan ribu token, max_tokens sebesar 16k untuk orkestrator utama jelas tidak memadai. Kedua, ini secara eksplisit menunjukkan jalur bagaimana ambisi Anthropic untuk "menjadikan Claude sebagai kontraktor refactor・migrasi codebase" diwujudkan bukan melalui tool, melainkan melalui kombinasi model＋runtime. Ini akan menjadi pengalaman pengembangan yang lebih "bernuansa agen otonom yang kuat", berbeda dari wrapper di lapisan IDE seperti GitHub Copilot atau Cursor.

Kekuatan dahsyat Messages API — entri system kini bisa dimasukkan "ke dalam array pesan"

Perubahan pada Messages API yang diperkenalkan bersamaan dengan Opus 4.8 terlihat sederhana, tetapi sebenarnya mengubah pengalaman pengembang secara signifikan. Selama ini system prompt hanya dapat ditentukan di bagian awal permintaan API, tetapi mulai dari Opus 4.8, kini "system entry dapat dicampurkan ke dalam array messages". Dalam penjelasan resmi Anthropic, hal ini memungkinkan operasi di mana "instruksi kepada Claude dapat diperbarui di tengah tugas, tanpa merusak prompt cache dan tanpa perlu melewati giliran pengguna (user turn)".

Apa arti hal ini dari sudut pandang seorang insinyur. Selama ini, ketika hendak melakukan "penambahan/penghapusan izin", "penggantian variabel lingkungan", atau "mengaktifkan/menonaktifkan tool" di tengah eksekusi agen otonom berdurasi panjang, satu-satunya pilihan adalah membuat ulang dengan system prompt baru atau memanipulasi user turn. Cara pertama merusak prompt cache sehingga biaya dan latensi melonjak, sementara cara kedua mencemari log percakapan dan menyulitkan proses debug.

Dengan kombinasi Opus 4.8 + Messages API baru, misalnya alur seperti "pada system prompt awal hanya izin baca → menambahkan entry system mid-task pada saat fase verifikasi selesai untuk memberikan izin tulis → mencabut izin tulis setelah selesai" kini dapat diimplementasikan tanpa merusak prompt cache. Cara membacanya yang tepat adalah: kontrol akses dan toggle kapabilitas untuk agen yang berjalan lama kini didukung sebagai primitif API. Bagi tim yang menyediakan tool secara dinamis melalui server MCP (Model Context Protocol), ini merupakan perubahan dengan dampak operasional yang sangat besar.

Fast Mode — Apa Artinya Kecepatan 2,5 Kali Lipat dengan Harga 1/3 dari Generasi Sebelumnya

"Fast Mode" pada Opus 4.8 ditetapkan dengan harga publik resmi Anthropic sebesar 10 dolar per 1 juta token input (sekitar 1.550 yen) dan 50 dolar per 1 juta token output (sekitar 7.750 yen). Sebagaimana dinyatakan secara jelas baik oleh Axios maupun TechCrunch, ini memberikan throughput 2,5 kali lipat dengan biaya 2 kali lipat dari mode standar. 9to5Mac menyebutkan bahwa "Fast Mode pada era Opus 4.6 memiliki premi 6 kali lipat dari standar," artinya "jika sebelumnya harga untuk kecepatan adalah 6 kali lipat, pada Opus 4.8 cukup 2 kali lipat saja," sehingga diungkapkan sebagai "3 times cheaper (sepertiga dari harga)."

Dalam artikel yang ditulis cryptobriefing sebelum rilis resmi, dilakukan analisis skeptis yang menyatakan "ini adalah rumor yang belum dipastikan pada saat publikasi, dan perubahan dari 6 kali menjadi 2 kali merupakan pergeseran strategi harga yang radikal." Namun, pada saat rilis resmi tanggal 28 Mei, beberapa media primer (Anthropic resmi, TechCrunch, Axios, 9to5Mac) melaporkan angka ini secara seragam, sehingga dapat dianggap sebagai informasi yang sudah pasti. Blog resmi Anthropic sendiri secara langsung menulis "Fast mode … is now three times cheaper than it was for previous models."

Interpretasi dari sudut pandang Silicon Valley adalah sebagai berikut. Situasi di mana Fast Mode sebaiknya digunakan adalah "alur kerja interaktif dengan pengguna yang memiliki tuntutan latensi tinggi," misalnya pelengkapan inline di dalam IDE, UI chat untuk pengguna akhir, dan kasus penggunaan semacam gateway API dengan tuntutan latensi rendah. Sebaliknya, "situasi di mana ingin memprioritaskan biaya daripada kecepatan" seperti agen otonom yang berjalan dalam batch malam hari, migrasi basis kode jangka panjang, dan pembuatan dokumen, sebaiknya dijalankan tetap dengan mode standar. Struktur di mana Anthropic mewujudkan harga yang tidak berubah pada mode "standar" sekaligus memisahkan "nilai kecepatan" sebagai penagihan dengan poros tersendiri melalui Fast Mode, merupakan desain cerdik yang mendorong pihak pemanggil untuk melakukan optimalisasi sesuai kegunaan.

Penetapan Harga yang Dipertahankan Menunjukkan "Permainan Adopsi" Anthropic

Merilis Opus 4.8 dengan harga yang sama seperti Opus 4.7 merupakan pesan yang jelas bagi kalangan pengguna enterprise. Yahoo Finance menulis bahwa "customizable effort settings help users manage token consumption (pengaturan effort yang dapat disesuaikan membantu pengguna mengelola konsumsi token)," dan Axios menganalisis bahwa hal ini "reflects growing customer demand for cost-effective AI solutions (mencerminkan meningkatnya permintaan pelanggan terhadap solusi AI yang hemat biaya)."

Yang menarik di sini adalah strategi Anthropic yang, alih-alih "menurunkan harga per token," justru menurunkan harga riil per token dengan menyediakan "model yang dapat memberikan hasil yang sama dengan lebih sedikit token, pada harga per token yang sama." Pernyataan dalam blog resmi Opus 4.8 yang berbunyi "coding tasks, this effort level spends a similar number of tokens as Opus 4.7's default, but with better performance (pada tugas pemrograman, tingkat effort ini menghabiskan jumlah token yang serupa dengan default Opus 4.7, tetapi dengan performa yang lebih baik)" menunjukkan esensi dari strategi tersebut. Dalam bisnis SaaS dengan penagihan berbasis token, "menaikkan kualitas sambil mempertahankan harga di permukaan" adalah bentuk penurunan harga yang paling efektif.

Dari sisi bisnis, laporan SaaStr per Februari 2026 memberitakan bahwa pendapatan tahunan setara (ARR) Anthropic telah mencapai 14 miliar dolar (sekitar 2,17 triliun yen). Angka ini tumbuh 14 kali lipat hanya dalam 14 bulan, dari sekitar 1 miliar dolar pada Desember 2024. Dalam CNBC Disruptor 50 2026, Anthropic menduduki peringkat pertama, dan per Mei, beredar bocoran dari kalangan Bloomberg bahwa perusahaan ini "sedang membahas penggalangan dana setidaknya 30 miliar dolar (sekitar 4,65 triliun yen) dengan valuasi pra-pendanaan (pre-money) di atas 900 miliar dolar (sekitar 139,5 triliun yen)" (kompilasi Sacra). Mempertahankan harga Opus 4.8 sepatutnya dibaca sebagai langkah untuk "menurunkan hambatan adopsi" demi melanjutkan lintasan pertumbuhan semacam ini.

Perbandingan Sikap Pemberitaan Tiap Media

Meninjau pemberitaan tentang Opus 4.8, perbedaan sudut pandang di antara berbagai media terlihat begitu jelas dan menarik. TechCrunch menempatkan "alat Dynamic Workflows" sebagai poros utama, dan memposisikannya dalam kerangka "dinamika persaingan yang menyusul rilis terbaru Codex dari OpenAI dan Gemini Flash dari Google". Axios menekankan keterkaitannya dengan model yang belum dirilis, Mythos, dan menyajikan perspektif yang bersifat peta jalan: "Opus 4.8 belum menyamai Mythos, tetapi rilis umum model setara Mythos akan hadir dalam beberapa minggu mendatang". Yahoo Finance mengangkat kerangka "IPO race", dengan menampilkan konteks pamer kekuatan produk di tengah persaingan penawaran saham publik dengan OpenAI.

Tom's Guide dan 9to5Mac menekankan perbaikan dari sisi pengalaman, yaitu "lebih jujur" dan "halusinasi berkurang", dengan sasaran konsumen umum dan pengembang Mac. Majalah Inc. menjadikan pesan "model paling jujur" sebagai porosnya, dan dari sudut pandang pengguna bisnis mengutip studi kasus penerapan oleh Harvey. cryptobriefing menerbitkan baik artikel skeptis menjelang rilis resmi maupun artikel ulasan setelah rilis, dan secara khusus menunjukkan sikap berhati-hati terhadap perubahan mendadak pada struktur harga Fast Mode, tetapi pada hari rilis telah memperbaikinya menjadi informasi yang sudah dipastikan.

Geeky Gadgets, pada tahap kebocoran, menyebarkan informasi yang belum terverifikasi bahwa "pembaruan tokenizer berpotensi meningkatkan konsumsi token sekitar 30%". Dalam berbagai sumber primer setelah rilis resmi, tidak ditemukan keterangan yang jelas mengenai hal ini. Blog resmi Anthropic tidak menyinggung adanya perubahan tokenizer, dan bahkan ketika memeriksa selisih pada API SDK, tidak ada perubahan pada API penghitungan token di sisi pengguna; oleh karena itu, untuk saat ini wajar memperlakukan kebocoran dari Geeky Gadgets sebagai "belum terverifikasi". Hingga saat artikel ini ditulis, tidak ada sumber informasi primer independen yang dapat dikonfirmasi untuk mendukung dugaan kenaikan 30% tersebut.

Di kawasan berbahasa Jepang, hingga saat penulisan artikel ini (2026-05-29), liputan khusus yang mendalam dari surat kabar besar masih sedikit, dan masih berada pada tahap menerjemahkan sumber primer berbahasa Inggris. Media seperti Nikkei Shimbun maupun Toyo Keizai Online diperkirakan baru akan mengulasnya secara mendalam beberapa hari lagi.

Hal yang Harus Dilakukan Sekarang oleh Para Insinyur Teknologi Silicon Valley (Kumpulan Tips Praktis)

Pertama, jika Anda hendak memindahkan basis kode yang sudah ada ke Opus 4.8, cukup ganti ID model dari claude-opus-4-7 menjadi claude-opus-4-8 dan kode akan berjalan. Namun, bagian yang secara eksplisit menyatakan thinking: {type: "enabled", budget_tokens: N} akan menghasilkan error 400, sehingga perlu ditulis ulang menjadi kombinasi thinking: {type: "adaptive"} ＋ output_config.effort. Tim yang memiliki kode lama dengan budget_tokens yang tersebar di mana-mana sebaiknya menyaringnya dengan grep secara menyeluruh sebelum menjalankan uji regresi.

Selanjutnya, perancangan operasional untuk pengaturan effort. Jika beban kerja produksi dikelompokkan secara garis besar, pedoman praktis penulis adalah: "interaktif dengan pengguna (chat, autocomplete, antarmuka percakapan)" menggunakan medium atau low, "tinjauan kode・pembuatan kode" menggunakan high atau xhigh, dan "batch malam hari・migrasi basis kode・analisis keuangan yang kompleks" menggunakan xhigh atau max. Peringatan resmi dari Anthropic bahwa "max menyebabkan pemikiran berlebihan pada keluaran terstruktur" sangat penting, dan memilih max secara sembrono dalam situasi seperti keluaran ketat berbasis skema JSON justru akan menurunkan kualitas.

max_tokens saat menggunakan xhigh／max aman jika dimulai dari 64k sesuai rekomendasi resmi. Pada Go SDK milik Anthropic ditentukan dalam bentuk anthropic.OutputConfigEffortXhigh, sedangkan pada Python SDK dalam bentuk output_config={"effort": "xhigh"}. Bila digunakan pada API streaming, karena fase pemikiran menjadi lebih panjang, perlu diperhatikan pengaturan timeout di frontend (terutama keep-alive HTTP/2 dan timeout default 30 detik pada API gateway).

Jika Anda ingin mencoba Dynamic Workflows, sangat disarankan untuk memulai dari pekerjaan migrasi pada "repositori yang memiliki rangkaian uji (test suite) yang lengkap". Sebagaimana Anthropic sendiri menulis "existing test suites as a benchmark (rangkaian uji yang sudah ada sebagai pengganti tolok ukur)", uji menjadi ground truth bagi jaminan kualitas. Menjalankan migrasi besar-besaran pada basis kode yang minim uji berisiko membuat subagen memproduksi secara massal "kode yang berjalan tetapi salah secara semantik".

Fitur baru pada Messages API (mid-task system entry) menunjukkan kekuatan sejatinya bila digunakan untuk toggle izin tool secara dinamis, penambahan konteks di tengah pekerjaan yang berlangsung lama, dan penggantian prompt dalam pengujian A/B. Nilai esensialnya adalah tidak merusak prompt cache, dan pola di mana prompt sistem yang panjang dilemparkan terlebih dahulu agar di-cache, lalu instruksi tambahan berupa selisih ditambahkan melalui mid-task system entry di tahap berikutnya, tampaknya akan menjadi praktik terbaik baru.

Terakhir, pemilihan penggunaan Fast Mode. Memilih Fast Mode hanya pada jalur produksi yang memiliki persyaratan latensi untuk pengguna akhir, serta menetapkan tool internal・pemrosesan batch pada mode standar, adalah yang paling efisien dari segi biaya. Pengoperasian dua jalur di dalam produk yang sama, yaitu "untuk pengguna menggunakan claude-opus-4-8 + Fast Mode, untuk internal menggunakan claude-opus-4-8 mode standar", yang dirutekan pada lapisan API gateway, adalah pendekatan yang realistis.

Prospek ke Depan — Mythos dan Seterusnya

Seperti yang disebutkan Anthropic sendiri dalam blog resmi Opus 4.8, ada model yang belum dirilis bernama "Mythos" yang berada di atas Opus 4.8 dan sudah menanti. Saat ini model tersebut hanya disediakan untuk mitra terbatas dalam penggunaan keamanan siber yang disebut "Project Glasswing," tetapi diumumkan bahwa "begitu pengembangan safeguard di sisi keamanan siber selesai, model ini diperkirakan akan tersedia untuk pelanggan umum dalam beberapa minggu." Axios secara eksplisit menyatakan "Opus 4.8 still underperforms compared to Mythos (bahkan Opus 4.8 pun belum menyamai Mythos)," sehingga keberadaan model yang lebih unggul ini merupakan informasi yang sudah pasti.

Dari sudut pandang engineer, perkiraan yang realistis adalah bahwa pada saat Mythos masuk ke API standar, "perlu dilakukan evaluasi ulang terhadap struktur latensi dan biaya aplikasi yang dibangun dengan Opus 4.8." Mythos berpotensi memiliki biaya 5–10 kali lipat mode standar, kemungkinan hanya khusus xhigh/max, atau dirancang dengan konfigurasi penyebaran yang terbatas hanya untuk operasi berorientasi agen tertentu; bagaimanapun juga, akan tiba momen di mana dibutuhkan konfigurasi operasional yang memisahkan antara "workload yang berjalan stabil dengan Opus 4.8" dan "masalah baru yang hanya bisa diselesaikan dengan Mythos."

Selain itu, di sisi pesaing, OpenAI GPT-5.6 (berdasarkan informasi bocoran dijadwalkan pada Juni 2026) dan versi mendatang Google Gemini diperkirakan akan diluncurkan secara beruntun. Hampir dapat dipastikan bahwa artikel perbandingan Opus 4.8 vs GPT-5.6 akan menjadi medan pertempuran utama media teknologi mulai Juni dan seterusnya, dan pada saat itu "apa yang bisa dibuat / sudah dibuat dengan Opus 4.8" akan langsung berkaitan dengan daya saing baik startup maupun enterprise di Silicon Valley.

Opus 4.8 adalah rilis dengan ambang yang sangat rendah untuk diterapkan ke dalam pekerjaan, karena memenuhi tiga unsur sekaligus: "harga tetap, kemampuan meningkat, dan perluasan primitif untuk developer." Bagi para engineer di Silicon Valley, justru lebih sulit mencari alasan untuk tidak mulai bergerak sekarang.