Claude Opus 4.8, dikeluarkan secara rasmi. Harga kekal sama. Peningkatan kejujuran (Honesty), lonjakan keupayaan ejen, dan Kawalan Usaha (Effort Control)

Anthropic secara rasmi melancarkan versi baharu LLM unggulannya, "Claude Opus 4.8", pada Khamis, 28 Mei 2026. Harganya dikekalkan sama seperti generasi sebelumnya, Opus 4.7, iaitu 5 dolar (kira-kira 775 yen) bagi setiap 1 juta token input / 25 dolar (kira-kira 3,875 yen) bagi setiap 1 juta token output, namun skornya meningkat dengan ketara, mencatatkan 69.2% pada SWE-Bench Pro (4.7 ialah 64.3%) dan 1890 mata pada GDPval (4.7 ialah 1753 mata). Sebagai ciri baharu, terdapat peningkatan dari segi kejujuran (Honesty) yang menjadikan "kebarangkalian membiarkan kecacatan dalam kod berkurangan kepada kira-kira satu perempat berbanding generasi sebelumnya", serta "Effort Control" (Kawalan Usaha) pada claude.ai dan Cowork

Bobot "Versi Minor" yang datang dalam kitaran 41 hari

Anthropic, melalui blog rasmi mereka "Introducing Claude Opus 4.8", memperkenalkan Opus 4.8 pada 28 Mei, hanya 41 hari selepas Opus 4.7 (dilancarkan pada 17 April 2026). Ini merupakan kelajuan yang jelas mengatasi kadar kemas kini "berskala beberapa bulan" yang sebelum ini diamalkan oleh syarikat tersebut. TechCrunch melaporkan "a much faster upgrade cycle than normal for Anthropic (kitaran naik taraf yang jauh lebih pantas daripada kebiasaan bagi Anthropic)", manakala Axios turut menyatakan bahawa pelancaran umum model peringkat lebih tinggi yang belum didedahkan, "Mythos", bakal menyusul "in the coming weeks (dalam beberapa minggu akan datang)".

Pelbagai media menunjukkan bahawa di sebalik momentum kelajuan ini terdapat persaingan tiga penjuru dengan GPT-5.5 daripada OpenAI dan Gemini 3.1 Pro daripada Google, serta persaingan IPO dalam tahun ini, sebaik sahaja Anthropic mengumpul dana sebanyak 30 bilion dolar (kira-kira 4.65 trilion yen) pada Siri G pada Februari 2026 dengan penilaian pasca-wang sebanyak 380 bilion dolar (kira-kira 58.9 trilion yen). Yahoo Finance menyiarkan tajuk utama "IPO race with OpenAI heats up (persaingan IPO dengan OpenAI semakin memuncak)", dan meletakkan pelancaran Opus 4.8 sebagai bukti keupayaan produk dalam persaingan ini.

Dari sudut pandangan jurutera, pelancaran "nombor minor" ini diedarkan dengan pantas dalam bentuk pengecam API claude-opus-4-8, dan pada peringkat SDK pula, pemalar seperti Model.ClaudeOpus4_8 (C#), anthropic.ModelClaudeOpus4_8 (Go), dan Model.CLAUDE_OPUS_4_8 (Java) turut ditambah serta-merta. Ini bermakna kod sedia ada yang menggunakan Opus 4.7 direka bentuk supaya berfungsi hanya dengan menukar ID model, menjadikan kos peralihan hampir kepada sifar. Ini mencerminkan strategi Anthropic yang "walaupun menggelarkan dirinya sebagai versi minor, namun sikap penghantarannya bertaraf major".

Penanda aras: +4.9pt berbanding generasi terdahulu dalam pengekodan agentik, namun realitinya masih tewas dalam Terminal-Bench

Metrik yang paling patut diberi perhatian ialah skor "SWE-Bench Pro" yang mengukur keupayaan pengekodan agentik. Menurut jadual yang disusun oleh OfficeChai berdasarkan angka rasmi, Opus 4.8 mencatatkan 69.2%, Opus 4.7 sebanyak 64.3%, OpenAI GPT-5.5 sebanyak 58.6%, dan Google Gemini 3.1 Pro sebanyak 54.2%, menjadikan Opus 4.8 memperoleh pendahuluan lebih 10 mata berbanding pesaing dalam SWE-Bench Pro.

Dalam OSWorld-Verified yang mengukur pengendalian komputer secara agentik, ia mencatatkan 83.4% (4.7 sebanyak 82.8%, GPT-5.5 sebanyak 78.7%, Gemini 3.1 Pro sebanyak 76.2%), manakala dalam GDPval yang dibangunkan oleh OpenAI untuk mengukur prestasi kerja berpengetahuan, ia memperoleh 1890 mata (4.7 sebanyak 1753 mata, GPT-5.5 sebanyak 1769 mata) — meninggalkan jauh syarikat lain dari segi keupayaan praktikal dalam konteks agen. Dalam versi penggunaan alat bagi "Humanity's Last Exam" yang menguji kuasa penaakulan pelbagai domain, keputusannya ialah 57.9% (4.7 sebanyak 54.7%), manakala versi tanpa alat mencatatkan 49.8%. Analisis kewangan agentik (Finance Agent v2) mencatatkan 53.9%, penilaian agen pelayar Online-Mind2Web sebanyak 84%, dan menurut blog rasmi Anthropic, dalam "Super-Agent benchmark" ia menyelesaikan kesemua kes secara hujung ke hujung, serta turut mencatatkan satu "pertama" dengan menjadi yang pertama melepasi 10% dalam "all-pass standard" bagi penanda aras agen perundangan.

Namun, terdapat juga angka yang patut diteliti dengan teliti oleh para jurutera Silicon Valley di sini. Dalam Terminal-Bench 2.1 (pengekodan autonomi di atas terminal), GPT-5.5 mendahului dengan 78.2% berbanding 74.6% bagi Opus 4.8. Dengan kata lain, jika kita asingkan hanya "tugas autonomi yang lengkap di atas shell" sahaja, masih terdapat bidang di mana pihak OpenAI mempunyai kelebihan. Dari segi keupayaan menyeluruh, Opus 4.8 mengungguli, tetapi bagi jenis pengendalian agen yang lengkap di CLI, komitmen penuh terhadap GPT-5.5 juga wajar dipertimbangkan — itulah bacaan yang jujur. Niko Grupen, ketua applied research di Harvey yang dipetik oleh majalah Inc., mengulas bahawa "ia mencatatkan skor tertinggi sepanjang masa dalam penanda aras agen perundangan dalaman kami", dan pandangan bahawa Opus 4.8 mengatasi yang lain setapak dalam kes penggunaan korporat yang memerlukan penaakulan konteks teks panjang semakin mantap.

Kejujuran (Honesty) — Kadar "pengabaian kecacatan kod" akibat halusinasi berkurang kepada satu perempat

Penambahbaikan yang paling banyak dilaporkan tentang Opus 4.8 ialah "Honesty (kejujuran)". Menurut blog rasmi Anthropic dan laporan cryptobriefing, Opus 4.8 menjadi "kira-kira satu per empat (around four times less likely) kebarangkalian untuk membiarkan kecacatan yang terkandung dalam kod yang ditulisnya sendiri lalu tanpa menunjukkannya, berbanding Opus 4.7." Tom's Guide menggambarkannya dalam tajuk utama sebagai "far less likely to 'fake' answers (jauh lebih kecil kemungkinan untuk 'memalsukan' jawapan)", manakala majalah Inc. menilainya sebagai "its most honest model yet (model paling jujur setakat ini)."

Intipati penambahbaikan ini bukan sekadar "ketepatan fakta", tetapi terletak pada peningkatan kejituan metakognisi. Mengikut ungkapan rasmi Anthropic, Opus 4.8 menjadi lebih kuat kecenderungan untuk "menandakan ketidakpastian terhadap kerjanya sendiri (more likely to flag uncertainties about its work)" dan lebih lemah kecenderungan untuk "membuat dakwaan tanpa sokongan (less likely to make unsupported claims)." Dari perspektif jurutera, ini bermaksud bahawa dalam semakan kod, "kebarangkalian untuk memeriksa diri sendiri sama ada terdapat sesuatu yang terlepas pandang sebelum mengecop tanda LGTM telah meningkat."

Jika anda seorang pembangun yang telah menggunakan Claude sehingga Opus 4.7, anda pasti pernah mengalami situasi seperti "apabila saya meminta Claude 'semak keseluruhan PR dan tunjukkan jika ada masalah', ia membalas dengan penuh yakin 'tiada masalah', tetapi rupa-rupanya gagal di CI." Dengan Opus 4.8, jenis "terlepas pandang akibat terlalu yakin" ini dijangka berkurangan dengan ketara. Sebagai petua praktikal, adalah baik untuk anda buat sementara waktu menanggalkan prompt arahan yang sebelum ini anda tulis secara defensif seperti "jangan sekali-kali terlepas pandang. Senaraikan semua bahagian yang mencurigakan", dan melihat respons asalnya. Memandangkan keberkesanan "hack prompt yang menggalakkan keraguan diri" yang wajib pada generasi terdahulu kini telah diserap masuk ke dalam model itu sendiri, manfaatnya sepatutnya menjadi relatif lebih nipis. Dalam penilaian penjajaran (alignment) juga, Anthropic menjelaskan bahawa "kadar berlakunya tingkah laku yang tersasar (misaligned) telah menurun dengan ketara, sehingga mencapai tahap yang setanding dengan model yang belum diterbitkan, Mythos."

Kawalan Usaha (Effort Control) — Mengawal "kedalaman pemikiran" dalam 5 peringkat dengan satu model

Serentak dengan Opus 4.8, perubahan operasi terbesar bagi para jurutera ialah pemformalan parameter "Effort". Menurut dokumentasi API rasmi Anthropic (platform.claude.com/docs/en/build-with-claude/effort), Effort terdiri daripada 5 peringkat — low／medium／high（lalai）／xhigh／max — dan merupakan parameter yang mengawal "jumlah token yang dibelanjakan oleh Claude untuk menjana respons". Ia turut diperkenalkan sebahagiannya dalam Opus 4.7, tetapi dalam Opus 4.8 panduan saranan dalam dokumentasi rasmi telah dinyatakan secara jelas.

Memudahkan panduan rasmi: low adalah untuk "tugasan yang pendek dan jelas skopnya" serta kegunaan subejen, medium untuk "hasil yang agak baik sambil menjimatkan kos", high ialah lalai untuk "penaakulan kompleks, pengekodan yang sukar, dan tugasan agentik", xhigh ialah "titik permulaan yang disarankan untuk kerja pengekodan dan agen" serta apabila mengendalikan "tugasan panjang melebihi 30 minit" dan "bajet berskala berjuta-juta token", manakala max hanya untuk "masalah pada tahap frontier" — itulah pembahagiannya. Anthropic sendiri turut menyatakan dengan jelas bahawa max membawa risiko "terjebak dalam pemikiran berlebihan (overthinking) dan menurunkan kualiti pada output berstruktur", jadi ia bukanlah peluru perak.

Sebagai tip pelaksanaan, apabila memanggil dengan curl, letakkan effort: "xhigh" di dalam output_config:

curl https://api.anthropic.com/v1/messages \
  -H "x-api-key: $ANTHROPIC_API_KEY" \
  -H "anthropic-version: 2023-06-01" \
  -H "content-type: application/json" \
  -d '{
    "model": "claude-opus-4-8",
    "max_tokens": 65536,
    "messages": [{"role":"user","content":"…"}],
    "output_config": {"effort": "xhigh"}
  }'

Sebagai saranan kuat rasmi daripada Anthropic, dinyatakan bahawa "apabila menjalankan dengan xhigh atau max, pastikan anda mengambil max_tokens yang besar. Mulakan dengan 64k token, dan tala mengikut keperluan." Ini kerana apabila subejen atau panggilan alat berantai, max_tokens yang kecil akan menyebabkan ejen terputus di tengah-tengah pemikirannya. Parameter budget_tokens yang digemari dalam Opus 4.6 kini dijadualkan untuk dimansuhkan (deprecated), dan dalam Opus 4.7／4.8 gabungan adaptive thinking（thinking: {type: "adaptive"}）dengan effort menjadi kaedah yang betul. Dalam Opus 4.8, thinking: {type: "enabled", budget_tokens: N} secara manual tidak disokong dan akan mengembalikan ralat 400, jadi perlu diberi perhatian bahawa jika anda menjalankannya dengan tetapan budget sedia ada masih kekal semasa migrasi, ia boleh menyebabkan kemalangan.

Pada claude.ai dan Cowork (pengalaman untuk pasukan dari sistem Anthropic Console lama), satu UI pemilihan Effort turut ditambah di sebelah pemilih model. Pilihan extra（bersamaan dengan xhigh pada API）dan max boleh dibuat, dengan lalai ialah high. "extra adalah untuk tugasan sukar dan aliran kerja tak segerak yang panjang" — itulah saranan rasminya. Satu lagi perkara penting ialah penerangan rasmi yang menyatakan bahawa berbanding lalai Opus 4.7, lalai high Opus 4.8 memberikan "prestasi yang lebih baik dengan jumlah token yang sama".

Dynamic Workflows — Menjalankan beratus-ratus subejen dalam satu sesi tunggal

"Dynamic Workflows (aliran kerja dinamik)" yang diperkenalkan dalam Claude Code dikategorikan sebagai pratonton penyelidikan (research preview), dan telah dibuka untuk pelan Enterprise／Team／Max. Menurut penjelasan rasmi Anthropic, ini ialah fungsi di mana model bersaiz besar seperti Opus "merancang, melaksana dan mengesahkan ratusan subejen selari dalam satu sesi tunggal". Secara khusus, Claude Code dikatakan boleh melaksanakan "migrasi berskala pangkalan kod, daripada permulaan (kickoff) sehingga penggabungan (merge), dengan menggunakan suite ujian sedia ada sebagai penanda aras (benchmark), merentasi ratusan ribu baris kod".

Daripada perspektif jurutera, apa yang menarik tentang reka bentuk ini ialah seni binanya di mana setiap subejen berjalan dalam "tetingkap konteks yang bebas", dan hanya "menghantar kembali maklumat yang berkaitan sahaja" kepada pengatur (orchestrator) utama. Ini ialah orkestrasi LLM bergaya Map-Reduce yang tipikal, dan ia bermakna bahawa corak pelaksanaan yang tidak mencemarkan konteks pengatur utama kini disediakan sebagai primitif di pihak API.

Kes penggunaan praktikal yang dilaporkan termasuk, sebagai contoh, "migrasi keseluruhan pangkalan kod React 17→19", "penambahan menyeluruh anotasi jenis (type annotations) Python", dan "penulisan semula secara pukal daripada DSL dalaman kepada skema GraphQL" — iaitu jenis kerja yang asalnya memerlukan "penghasilan ratusan PR sambil diselia oleh manusia". Sehingga era Opus 4.7, pihak pemanggil perlu menulis sendiri "logik untuk menguraikan tugasan gergasi", tetapi Opus 4.8 + Dynamic Workflows membuatkan pihak Claude mengambil alih kedua-dua penguraian dan pengesahan.

Bagi jurutera teknologi di Silicon Valley, terdapat dua pemerhatian penting di sini. Pertama, kewujudan Dynamic Workflows mengukuhkan sebab mengapa max_tokens Opus 4.8 disyorkan "bermula pada 64k". Memandangkan pengagregatan hasil subejen sahaja pun memakan berpuluh-puluh ribu token, max_tokens sebanyak 16k pada pengatur utama langsung tidak memadai. Kedua, ini secara jelas menunjukkan laluan di mana cita-cita Anthropic untuk "menjadikan Claude sebagai kontraktor refaktor dan migrasi pangkalan kod" direalisasikan melalui gabungan model + masa jalan (runtime), bukannya melalui alat semata-mata. Ia akan menjadi pengalaman pembangunan yang lebih "berwarna ejen autonomi", berbeza daripada pembalut (wrapper) lapisan IDE seperti GitHub Copilot atau Cursor.

Kuasa hebat Messages API — sekarang kita boleh meletakkan entri sistem (system entries) "di dalam susunan mesej"

Perubahan pada Messages API yang dilancarkan serentak dengan Opus 4.8, walaupun kelihatan biasa, sebenarnya mengubah pengalaman pembangun secara besar-besaran. Sebelum ini, system prompt hanya boleh ditentukan di bahagian awal permintaan API, tetapi bermula dari Opus 4.8, "system entry kini boleh dicampurkan ke dalam array messages". Menurut penjelasan rasmi Anthropic, ini membolehkan operasi di mana "arahan kepada Claude boleh dikemas kini di tengah-tengah tugas, tanpa merosakkan prompt cache dan tanpa perlu melalui giliran pengguna (user turn)".

Apakah maksud ini dari sudut pandangan jurutera? Sebelum ini, jika kita mahu melakukan "penambahan/pembuangan kebenaran", "penggantian pemboleh ubah persekitaran", atau "menghidupkan/mematikan alat" semasa pelaksanaan agen autonomi berjangka panjang, satu-satunya pilihan adalah menjana semula dengan system prompt baharu atau mengubah suai giliran pengguna. Pilihan pertama merosakkan prompt cache sehingga menyebabkan kos dan kependaman melonjak naik, manakala pilihan kedua mencemarkan log perbualan dan menyukarkan penyahpepijatan (debugging).

Dengan gabungan Opus 4.8 + Messages API baharu, aliran seperti "system prompt awal hanya memberikan kebenaran membaca → menambah entri system mid-task pada masa fasa pengesahan selesai untuk memberikan kebenaran menulis → menarik balik kebenaran menulis selepas selesai" kini boleh dilaksanakan tanpa merosakkan prompt cache. Cara yang betul untuk mentafsirnya ialah: kawalan akses dan togol keupayaan (capability toggle) bagi agen yang berjalan dalam tempoh panjang kini disokong sebagai primitif API. Bagi pasukan yang menyediakan alat dinamik melalui pelayan MCP (Model Context Protocol), ini adalah perubahan yang membawa impak operasi yang amat besar.

Fast Mode — Apakah maksud kelajuan 2.5 kali ganda pada harga 1/3 daripada generasi sebelumnya?

"Fast Mode" Opus 4.8 telah ditetapkan pada harga rasmi awam Anthropic sebanyak 10 dolar (kira-kira 1,550 yen) bagi setiap 1 juta token input, dan 50 dolar (kira-kira 7,750 yen) bagi setiap 1 juta token output. Sebagaimana yang dinyatakan dengan jelas oleh kedua-dua Axios dan TechCrunch, ini menawarkan daya pemprosesan 2.5 kali ganda pada kadar 2 kali ganda berbanding mod standard. 9to5Mac menyebut bahawa "Fast Mode pada era Opus 4.6 mengenakan premium 6 kali ganda berbanding standard," iaitu dengan maksud "jika sebelum ini kos untuk kelajuan adalah 6 kali ganda, pada Opus 4.8 ia hanya memerlukan 2 kali ganda," lalu diungkapkan sebagai "3 times cheaper (harga satu pertiga)."

Dalam artikel yang ditulis oleh cryptobriefing sebelum pelancaran rasmi, terdapat analisis yang skeptikal yang menyatakan "ini adalah khabar angin yang belum disahkan pada masa penerbitan, dan peralihan dari 6 kali ganda ke 2 kali ganda merupakan perubahan strategi harga yang radikal," tetapi pada masa pelancaran rasmi 28 Mei, beberapa media sumber utama (rasmi Anthropic, TechCrunch, Axios, 9to5Mac) melaporkan angka ini secara seragam, jadi ia boleh dianggap sebagai maklumat yang disahkan. Blog rasmi Anthropic sendiri secara langsung menulis "Fast mode … is now three times cheaper than it was for previous models."

Tafsiran dari sudut pandang Silicon Valley adalah seperti berikut. Situasi di mana Fast Mode patut digunakan ialah "aliran kerja dengan keperluan kependaman tinggi yang interaktif dengan pengguna," contohnya pelengkapan sebaris (inline completion) dalam IDE, UI sembang untuk pengguna akhir, serta kes penggunaan seperti gerbang API (API gateway) yang memerlukan kelewatan rendah. Sebaliknya, "situasi di mana kos lebih diutamakan berbanding kelajuan" seperti ejen autonomi yang dijalankan dalam kelompok waktu malam, migrasi pangkalan kod jangka panjang, dan penjanaan dokumen, seharusnya dijalankan dengan kekal pada mod standard. Struktur di mana Anthropic merealisasikan pengekalan harga melalui "standard," sambil mengasingkan "nilai kelajuan" sebagai pengecasan pada paksi berbeza melalui Fast Mode, merupakan reka bentuk yang bijak yang menggalakkan pihak pemanggil melakukan pengoptimuman mengikut kegunaan.

"Permainan Penggunaan" Anthropic yang Ditunjukkan oleh Pengekalan Harga

Mengeluarkan Opus 4.8 pada harga yang sama dengan Opus 4.7 merupakan mesej yang jelas kepada segmen pengguna gunaan perusahaan (enterprise). Yahoo Finance menulis bahawa "customizable effort settings help users manage token consumption (tetapan effort yang boleh disesuaikan membantu pengguna menguruskan penggunaan token dengan lebih mudah)", manakala Axios menganalisis bahawa ia "reflects growing customer demand for cost-effective AI solutions (mencerminkan permintaan pelanggan yang semakin meningkat terhadap AI yang kos efektif)".

Apa yang menarik di sini ialah strategi Anthropic yang bukannya "menurunkan harga seunit token", sebaliknya menyediakan "model yang mampu menghasilkan keputusan yang sama dengan token yang lebih sedikit pada harga seunit token yang sama", lalu secara berkesan menurunkan harga sebenar seunit. Kenyataan dalam blog rasmi Opus 4.8 yang menyebut "coding tasks, this effort level spends a similar number of tokens as Opus 4.7's default, but with better performance (untuk tugasan pengekodan, tahap effort ini menggunakan jumlah token yang serupa dengan tetapan lalai Opus 4.7, tetapi dengan prestasi yang lebih baik)" menunjukkan inti pati strategi tersebut. Dalam perniagaan SaaS yang mengenakan bayaran berdasarkan token, "meningkatkan kualiti sambil mengekalkan harga permukaan" merupakan bentuk penurunan harga yang paling berkesan.

Dari segi perniagaan, laporan SaaStr setakat Februari 2026 melaporkan bahawa hasil tahunan terlaras (ARR) Anthropic telah mencapai 14 bilion dolar (kira-kira 2.17 trilion yen). Ini merupakan angka pertumbuhan sebanyak 14 kali ganda dalam tempoh hanya 14 bulan, daripada kira-kira 1 bilion dolar setakat Disember 2024. Dalam CNBC Disruptor 50 2026, Anthropic disenaraikan di kedudukan pertama, dan setakat Mei, kebocoran maklumat daripada sumber berkaitan Bloomberg menyatakan bahawa syarikat itu "sedang berunding untuk mengumpul dana sekurang-kurangnya 30 bilion dolar (kira-kira 4.65 trilion yen) pada penilaian pra-wang melebihi 900 bilion dolar (kira-kira 139.5 trilion yen)" (himpunan data Sacra). Pengekalan harga Opus 4.8 wajar ditafsirkan sebagai satu langkah untuk "menurunkan halangan penggunaan" bagi meneruskan trajektori pertumbuhan sebegini.

Perbandingan Pendirian Liputan Setiap Media

Apabila kita meninjau liputan media mengenai Opus 4.8, amat menarik melihat bagaimana perbezaan sudut pandangan setiap media terserlah dengan jelas. TechCrunch menjadikan "alat Dynamic Workflows" sebagai paksi utama, dan meletakkannya dalam rangka kerja sebagai "perkembangan persaingan yang menyusuli pelancaran terkini Codex OpenAI dan Gemini Flash Google". Axios menekankan hubungannya dengan model Mythos yang belum didedahkan, sambil mengemukakan perspektif berorientasikan peta jalan bahawa "Opus 4.8 belum setanding Mythos, tetapi pelancaran umum model setaraf Mythos bakal tiba dalam beberapa minggu lagi". Yahoo Finance pula menggunakan rangka kerja "perlumbaan IPO", dengan menonjolkan konteks tarikan kekuatan produk dalam persaingan tawaran awam saham dengan OpenAI.

Tom's Guide dan 9to5Mac menekankan penambahbaikan dari segi pengalaman seperti "lebih jujur" dan "halusinasi berkurangan" yang ditujukan kepada pengguna umum dan pembangun Mac. Majalah Inc. menjadikan mesej "model yang paling jujur" sebagai paksi, sambil memetik contoh penggunaan Harvey daripada sudut pandang pengguna perniagaan. cryptobriefing menerbitkan kedua-dua artikel skeptikal sebelum pelancaran rasmi dan artikel ulasan selepas pelancaran, dan menunjukkan sikap berhati-hati khususnya berkenaan perubahan mendadak dalam struktur harga Fast Mode, namun telah membetulkannya kepada maklumat yang disahkan pada hari pelancaran.

Geeky Gadgets, pada peringkat kebocoran maklumat, menyebarkan maklumat yang belum disahkan bahawa "kemas kini tokenizer berkemungkinan meningkatkan penggunaan token sebanyak kira-kira 30%". Dalam beberapa sumber maklumat primer selepas pelancaran rasmi, tiada catatan yang jelas ditemui mengenai perkara ini. Memandangkan blog rasmi Anthropic tidak menyebut sebarang perubahan tokenizer, dan melihat perbezaan dalam API SDK pun tiada perubahan pada API kiraan token di pihak pengguna, maka pada masa ini adalah wajar untuk menganggap kebocoran maklumat Geeky Gadgets sebagai "belum disahkan". Pada masa penulisan artikel ini, tiada sumber maklumat primer bebas yang dapat disahkan bagi menyokong dakwaan peningkatan 30% ini.

Dalam kalangan media berbahasa Jepun, pada masa penulisan artikel ini (2026-05-29), liputan khas yang mendalam daripada akhbar utama masih sedikit, dan kita masih berada pada tahap menterjemahkan sumber maklumat primer berbahasa Inggeris. Media seperti Nikkei Shimbun dan Toyo Keizai Online dijangka akan mula mengupas isu ini secara mendalam beberapa hari lagi.

Apa yang Patut Dilakukan Sekarang oleh Jurutera Teknologi Silicon Valley (Koleksi Tip Praktikal)

Pertama sekali, jika anda ingin memindahkan pangkalan kod sedia ada kepada Opus 4.8, ia berfungsi hanya dengan menggantikan ID model daripada claude-opus-4-7 kepada claude-opus-4-8. Walau bagaimanapun, bahagian yang secara eksplisit menyatakan thinking: {type: "enabled", budget_tokens: N} akan menghasilkan ralat 400, jadi anda perlu menulis semula kepada gabungan thinking: {type: "adaptive"} ＋ output_config.effort. Pasukan yang mempunyai kod lama dengan budget_tokens bertaburan di sana sini sepatutnya menapisnya melalui grep secara pukal sebelum menjalankan ujian regresi.

Seterusnya, reka bentuk operasi bagi tetapan effort. Jika beban kerja pengeluaran dibahagikan secara umum, garis panduan praktikal penulis adalah seperti berikut: "jenis interaksi pengguna (chat, autolengkap, antara muka dialog)" ialah medium atau low; "semakan kod・penjanaan kod" ialah high atau xhigh; "kelompok waktu malam・migrasi pangkalan kod・analisis kewangan yang kompleks" ialah xhigh atau max. Amaran rasmi Anthropic bahawa "max menyebabkan pemikiran berlebihan dalam output berstruktur" adalah penting, kerana memilih max secara sambil lewa dalam situasi seperti output ketat skema JSON sebenarnya boleh menurunkan kualiti.

Untuk max_tokens semasa menggunakan xhigh／max, memulakan pada 64k sebagaimana yang disyorkan secara rasmi adalah selamat. Dalam Go SDK Anthropic ia ditetapkan dalam bentuk anthropic.OutputConfigEffortXhigh, manakala dalam Python SDK dalam bentuk output_config={"effort": "xhigh"}. Apabila digunakan dengan API penstriman, oleh sebab fasa pemikiran menjadi lebih panjang, anda perlu berhati-hati dengan tetapan masa tamat (timeout) bahagian hadapan (terutamanya keep-alive HTTP/2 dan masa tamat lalai 30 saat pada gerbang API).

Jika anda ingin mencuba Dynamic Workflows, kami amat mengesyorkan agar anda mulakan dengan kerja migrasi pada "repositori yang mempunyai suite ujian yang lengkap". Sebagaimana yang ditulis sendiri oleh Anthropic, "existing test suites as a benchmark (suite ujian sedia ada sebagai pengganti penanda aras)", ujian menjadi kebenaran asas (ground truth) bagi jaminan kualiti. Jika anda menjalankan migrasi besar-besaran pada pangkalan kod yang ujiannya nipis, terdapat risiko subejen menghasilkan secara berleluasa "kod yang berfungsi tetapi salah dari segi makna".

Ciri baharu Messages API (mid-task system entry) menunjukkan nilai sebenarnya apabila digunakan untuk togol dinamik kebenaran alat, penambahan konteks semasa kerja jangka panjang, dan penggantian prompt dalam ujian A/B. Nilai pada hakikatnya ialah ia tidak merosakkan cache prompt, dan corak di mana anda menghantar prompt sistem yang panjang pada mulanya untuk dicache, kemudian menambah arahan perbezaan dengan mid-task system entry pada peringkat kemudian, sepatutnya akan menjadi amalan terbaik yang baharu.

Akhir sekali, penggunaan Fast Mode secara berbeza. Memilih Fast Mode hanya pada laluan pengeluaran yang mempunyai keperluan latensi untuk pengguna akhir, dan mengekalkan alat dalaman・pemprosesan kelompok pada mod standard, adalah yang paling cekap dari segi kos. Adalah praktikal untuk mengendalikan operasi dua laluan dalam produk yang sama — "untuk pengguna ialah claude-opus-4-8 + Fast Mode, untuk dalaman ialah mod standard claude-opus-4-8" — dengan penghalaan pada lapisan gerbang API.

Tinjauan Masa Depan — Mythos dan Seterusnya

Seperti yang disebutkan sendiri oleh Anthropic dalam blog rasmi Opus 4.8, terdapat model lebih tinggi yang belum didedahkan bernama "Mythos" yang sedang menanti, lebih hebat daripada Opus 4.8. Buat masa ini, ia hanya disediakan kepada rakan kongsi terhad untuk kegunaan keselamatan siber yang dipanggil "Project Glasswing", tetapi telah diumumkan bahawa "sebaik sahaja perlindungan dari segi keselamatan siber selesai dibangunkan, ia dijangka akan disediakan kepada pelanggan umum dalam masa beberapa minggu." Axios secara jelas menyatakan "Opus 4.8 still underperforms compared to Mythos (Opus 4.8 pun masih tidak setanding Mythos)", jadi kewujudan model yang lebih tinggi ini adalah maklumat yang telah disahkan.

Dari sudut pandangan jurutera, pandangan realistik ialah apabila Mythos mula tersedia pada API standard, "perlu dinilai semula struktur latensi dan kos bagi aplikasi yang dibina dengan Opus 4.8." Mythos berkemungkinan mempunyai kos 5 hingga 10 kali ganda mod standard, khusus untuk xhigh/max, atau direka bentuk untuk penggunaan terhad bagi ejen sahaja — walau apa pun, akan tiba ketikanya di mana konfigurasi operasi yang memisahkan antara "beban kerja yang beroperasi secara stabil dengan Opus 4.8" dan "masalah baharu yang hanya dapat diselesaikan dengan Mythos" akan dipersoalkan.

Tambahan pula, di pihak pesaing, OpenAI GPT-5.6 (berdasarkan maklumat bocor, dijangka pada Jun 2026) dan versi seterusnya Google Gemini dijangka dilancarkan secara berturut-turut. Hampir pasti bahawa artikel perbandingan Opus 4.8 vs GPT-5.6 akan menjadi medan pertempuran utama media teknologi mulai Jun dan seterusnya, dan pada ketika itu, "apa yang boleh dibina / telah dibina dengan Opus 4.8" akan menjadi faktor yang berkait terus dengan daya saing kedua-dua syarikat permulaan dan perusahaan di Silicon Valley.

Opus 4.8 ialah keluaran yang mempunyai tiga serangkai lengkap — "harga dikekalkan, keupayaan dipertingkatkan, dan primitif untuk pembangun diperkembangkan" — yang menjadikan halangan untuk penggunaan dalam kerja amat rendah. Bagi jurutera di Silicon Valley, lebih sukar untuk mencari alasan untuk tidak mula bertindak sekarang.