Ringkasan

Dalam artikel semalam, kami memberikan gambaran menyeluruh tentang Claude Opus 4.7 berdasarkan laporan eksklusif The Information dan maklumat yang bocor daripada Google Vertex AI Console. Namun dalam artikel ini, kami akan mendalami butiran ciri-ciri baharu secara menyeluruh dari sudut pandangan jurutera teknologi Silicon Valley, berdasarkan model sebenar yang dilancarkan secara rasmi oleh Anthropic pada 16 April 2026 (waktu tempatan). Opus 4.7 mencatatkan SWE-bench Pro 64.3%, SWE-bench Verified 87.6%, dan CursorBench 70%, mengatasi GPT-5.4 daripada OpenAI dan Gemini 3.1 Pro daripada Google dalam penanda aras utama. Tiga perkara yang paling ketara ialah tahap inferens baharu xhigh, task_budget dalam versi beta awam, serta visi resolusi tinggi natif yang kini tiga kali lebih tajam. Sebaliknya, terdapat beberapa perubahan yang memecahkan keserasian (Breaking Change) pada pangkalan kod sedia ada, termasuk penghapusan sepenuhnya parameter pensampelan seperti temperature dan top_p, pemansuhan Extended Thinking (anggaran fikir tetap), serta penyembunyian kandungan pemikiran secara lalai — kesemua ini memerlukan penalaan semula yang teliti semasa penghijrahan. Harga kekal pada $5 (kira-kira 795 yen) untuk input dan $25 (kira-kira 3,978 yen) untuk output per sejuta token, namun tokenizer baharu menggunakan sehingga 1.35 kali lebih banyak token untuk teks yang sama, menjadikan kos sebenar secara struktur meningkat.


48 Jam Selepas Laporan Bocoran, "Penghancuran dan Penerusan" yang Ditunjukkan oleh Anthropic

Anthropic telah melancarkan Claude Opus 4.7 secara rasmi pada 16 April 2026 (Waktu Pasifik AS), menarik perhatian industri AI generatif. Ini merupakan pengumuman rasmi yang sangat pantas — hanya kira-kira 48 jam selepas The Information menerbitkan laporan eksklusif pada malam 14 April, dan hanya 24 jam selepas ID model bocor di konsol Google Vertex AI. Ramalan "pelancaran 16 April" yang membawa kebarangkalian tersirat 79% di Polymarket terbukti tepat, dan peserta pasaran ramalan menerima bayaran mereka.

Nada blog rasmi *Introducing Claude Opus 4.7* berbeza ketara berbanding pelancaran Opus 4.6 generasi sebelumnya yang menggunakan gaya megah "fajar generasi baharu" — kali ini, nadanya sangat praktikal dan tenang. Anthropic dengan ringkas menyatakan bahawa "Opus 4.7 merupakan peningkatan ketara berbanding Opus 4.6 dan menunjukkan kemajuan yang amat besar dalam tugasan yang paling mencabar," sambil secara terbuka mengakui bahawa "walaupun ia adalah model awam yang paling berkuasa, ia masih belum menandingi Claude Mythos Preview yang belum diumumkan." CNBC melaporkannya sebagai "model AI yang lebih rendah risikonya berbanding Mythos," manakala Axios melaporkan bahawa Anthropic "mengakui ia masih kalah dengan Mythos yang belum didedahkan" — semuanya menyerlahkan strategi Anthropic yang dengan jelas membahagikan "hasil penyelidikan hadapan dalaman" dan "produk komersial" kepada dua lapisan yang berbeza.

Artikel ini meneliti perubahan berdasarkan dokumentasi rasmi Anthropic, siaran media sosial pekerja, dan kenyataan rasmi syarikat rakan kongsi sebagai sumber utama, sambil mengintegrasikan data pengukuran sebenar daripada pasukan kejuruteraan rakan kongsi penggunaan awal seperti CodeRabbit, Warp, Cursor, dan Factory Droids, reaksi komuniti teknikal di Hacker News, serta pandangan VC Silicon Valley — untuk menjelaskan secara menyeluruh "apa yang berubah," "bagaimana ia harus digunakan," dan "bagaimana ia diterima."


Angka rasmi sejurus selepas pelancaran — penanda aras menunjukkan "kemajuan yang kukuh" bukan "perubahan besar secara mendadak"

Berdasarkan angka-angka yang diterbitkan dalam blog rasmi Anthropic, blog rasmi AWS Bedrock, dan blog Google Cloud Vertex AI, penanda aras utama Opus 4.7 adalah seperti berikut.

Penanda Aras Pengkodan

Penanda ArasOpus 4.7Opus 4.6GPT-5.4Gemini 3.1 Pro
SWE-bench Pro64.3%53.4%57.7%54.2%
SWE-bench Verified87.6%80.8%80.6%80.6%
Terminal-Bench 2.069.4%65.4%Tidak didedahkanTidak didedahkan
CursorBench70%58%Tidak didedahkanTidak didedahkan

Peningkatan 10.9 mata peratusan dalam SWE-bench Pro merupakan satu "pergeseran tektonik" yang jelas, memandangkan peningkatan daripada dua generasi sebelumnya hanya berada pada tahap 2 hingga 3 mata peratusan sahaja. Walau bagaimanapun, angka ini masih jauh daripada 93.9% yang dicatatkan oleh Mythos Preview yang belum diterbitkan secara awam. Struktur di mana Anthropic mengisytiharkan "model terkuat yang tersedia secara umum" sambil mengekalkan "model terkuat yang tersimpan" secara dalaman turut terbaca dengan jelas melalui data penanda aras ini.

Multimodal & Tugasan Intelektual

  • GDPVal-AA (Tugasan intelektual bernilai ekonomi): Elo 1753 (GPT-5.4: 1674, Gemini 3.1 Pro: 1314)
  • Finance Agent v1.1: 64.4% (tahap tertinggi dalam industri)
  • GPQA Diamond (Penaakulan peringkat pascasiswazah): 94.2% (hampir setanding dengan GPT-5.4 Pro 94.4% dan Gemini 3.1 Pro 94.3%)
  • Ketajaman Visual XBOW (Visual Acuity): 98.5% (peningkatan ketara daripada 54.5% bagi Opus 4.6)
  • OfficeQA Pro (Penaakulan dokumen): Pengurangan ralat sebanyak 21%
  • Rakuten-SWE-Bench: Kadar penyelesaian tugasan persekitaran pengeluaran meningkat tiga kali ganda

Hasil GPQA Diamond amat menarik perhatian, di mana seperti yang dinyatakan oleh The Next Web, "perbezaan antara model frontier utama telah mengecut ke dalam julat hingar." Zaman persaingan semata-mata berdasarkan skor penaakulan tulen telah berakhir, dan paksi pembezaan telah beralih sepenuhnya kepada "prestasi gunaan," "pelaksanaan ejen," dan "ketepatan multimodal."


【Utama】Butiran Teknikal Ciri Baharu——Diambil Terus daripada Dokumentasi Rasmi Anthropic

Ini adalah bahagian teras artikel ini. Berdasarkan dokumentasi rasmi Anthropic (platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-7), kami akan mengesahkan ciri-ciri baharu menggunakan sumber primer.

1. Tahap Penaakulan xhigh — "Titik Manis antara Kos dan Kecerdasan"

Ciri baharu yang paling ketara dalam Opus 4.7 ialah penambahan 5 tahap pada parameter effort. Sebelum ini terdapat 4 tahap iaitu low / medium / high / max, namun kini xhigh telah ditambah di antara high dan max.

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=12000,
    thinking={"type": "adaptive"},
    output_config={"effort": "xhigh"},
    messages=[{"role": "user", "content": "Refactor this codebase..."}]
)

Boris Cherny, pengarang Claude Code, menyatakan dalam catatannya di X (16 April): "Opus 4.7 uses adaptive thinking instead of thinking budgets. To tune the model to think more/less, we recommend tuning effort." Beliau juga menegaskan bahawa xhigh telah ditetapkan sebagai lalai untuk semua pelan dalam Claude Code. Ini merupakan isyarat penting bagi jurutera — keputusan ini dijelaskan sebagai respons terhadap maklum balas pembangun bahawa "high tidak menangkap kualiti dalam aliran kerja pengekodan agentik."

Panduan rasmi Anthropic mengikut tahap usaha adalah seperti berikut:

TahapKegunaan yang Disyorkan
low / mediumMengutamakan kos dan latensi, tugas berskop sempit
highKeseimbangan antara kecerdasan dan kos, operasi sesi selari
xhigh (lalai Claude Code)Kebanyakan tugas pengekodan dan ejen
maxHanya untuk masalah yang benar-benar sukar. Risiko pemikiran berlebihan dalam pelaksanaan jangka panjang

Menurut analisis Vellum AI, "tahap usaha low Opus 4.7 secara umumnya bersamaan dengan tahap medium Opus 4.6," yang mengesahkan peningkatan menyeluruh berlaku di semua tahap.

2. Task Budgets (Beta Awam) — Penyelesaian Utama untuk Kawalan Ejen

task_budget adalah parameter baharu yang memberitahu model: "sila selesaikan keseluruhan gelung ejen (termasuk pemikiran, panggilan alat, hasil alat, dan output akhir) dalam anggaran token sebanyak ini." Perkara penting ialah ini merupakan konsep yang berbeza secara asasi daripada max_tokens.

response = client.beta.messages.create(
    model="claude-opus-4-7",
    max_tokens=128000,
    output_config={
        "effort": "high",
        "task_budget": {"type": "tokens", "total": 128000},
    },
    messages=[{"role": "user", "content": "Review the codebase..."}],
    betas=["task-budgets-2026-03-13"],
)

Dokumentasi rasmi Anthropic membuat perbezaan yang jelas: "max_tokens ialah had keras token yang dijana setiap permintaan (tidak dimaklumkan kepada model), manakala task_budget ialah had nasihat untuk keseluruhan gelung ejen (dimaklumkan kepada model, yang mengawal sendiri berdasarkan kiraan undur)." Nilai minimum ialah 20,000 token dan pengepala beta task-budgets-2026-03-13 mesti dinyatakan.

Aspek yang paling berguna bagi jurutera ialah model dapat mengesan kiraan undur baki anggaran. Apabila anggaran semakin berkurang, model akan menyempitkan penerokaan dan mengutamakan output penting untuk "melengkapkan tugasan dengan anggun (gracefully)." Komuniti jurutera Silicon Valley mengalu-alukan ini sebagai langkah pencegahan "letupan kos" semasa operasi Claude Code. Walau bagaimanapun, Anthropic sendiri mengesyorkan "jangan tetapkan task_budget untuk tugas ejen terbuka yang mengutamakan kualiti," kerana anggaran yang terlalu ketat boleh menyebabkan tugasan diselesaikan separuh jalan atau ditolak sama sekali.

3. Penglihatan Asli Resolusi Tinggi — 2,576px / 3.75MP

Peningkatan keupayaan penglihatan merupakan lompatan seni bina terbesar dalam Opus 4.7.

  • Resolusi maksimum: 2,576px (sisi panjang, 3.75 megapiksel, lebih daripada 3x berbanding 1,568px/1.15 megapiksel sebelumnya)
  • Ketajaman Visual XBOW: 54.5% → 98.5% (pengecaman teks tunggal dengan ketepatan ultra-tinggi)
  • Persepsi tahap rendah: Peningkatan ketepatan dalam penunjukan, pengukuran, dan pengiraan
  • Penyetempatan imej: Peningkatan pengesanan kotak pembatas dalam imej semula jadi
  • Pemetaan koordinat: Koordinat imej sepadan 1:1 dengan piksel (tiada keperluan pengiraan faktor skala)

"Pemetaan koordinat 1:1" yang terakhir ialah berita baik bagi pembangun ejen yang menjalankan Computer Use (kawalan tetikus oleh Claude) atau analisis tangkapan skrin. Sehingga Opus 4.6, koordinat yang dihasilkan model adalah dalam sistem imej selepas saiz semula dalaman, memerlukan proses penukaran yang menyusahkan untuk memetakannya kepada imej asal. Penghapusan keperluan ini merupakan kemajuan yang signifikan.

Gabriel Anhaia dari Dev.to melaporkan dalam ujian langsung selama 6 jam: "membaca tangkapan skrin terminal yang padat dengan sempurna — setiap baris, kod keluar, cap masa, dan teks kelabu pudar dalam prompt zsh."

Walau bagaimanapun, Anthropic menyatakan dengan jelas: "Imej resolusi tinggi menggunakan lebih banyak token. Lakukan pengurang-sampel terlebih dahulu jika perincian tidak diperlukan." Dari perspektif jurutera, pengurusan resolusi bergantung kepada tujuan imej input menjadi titik pengoptimuman kos baharu.

4. [Perubahan Merosakkan] Penghapusan Penuh Extended Thinking (Pemikiran Anggaran Tetap)

Ini adalah perubahan merosakkan yang memberi kesan kepada paling banyak pangkalan kod dalam Opus 4.7. Mod pemikiran anggaran tetap thinking={"type": "enabled", "budget_tokens": N} yang lama telah ditamatkan dan akan mengembalikan ralat 400 jika dinyatakan. Sebagai gantinya, hanya Adaptive Thinking ({"type": "adaptive"}) yang disokong.

# Sehingga Opus 4.6
thinking = {"type": "enabled", "budget_tokens": 32000}

# Opus 4.7 dan ke atas
thinking = {"type": "adaptive"}
output_config = {"effort": "high"}

Perkara lain yang perlu diberi perhatian ialah Adaptive Thinking adalah MATI secara lalai. Permintaan yang tidak menyatakan medan thinking secara eksplisit akan dilaksanakan tanpa pemikiran. Anthropic menjelaskan dalam penilaian dalaman bahawa "Adaptive Thinking secara konsisten mengatasi Extended Thinking," namun dalam perbincangan Hacker News (47793411), terdapat banyak laporan kritikal seperti "adaptive thinking chooses to not think when it should," dengan rungutan tentang kes di mana model tidak berfikir dalam situasi yang memerlukan pemikiran.

5. [Perubahan Merosakkan] Penghapusan Penuh Parameter Pensampelan

Menetapkan mana-mana nilai bukan lalai untuk temperature, top_p, atau top_k akan menghasilkan ralat 400. Laluan migrasi yang disyorkan ialah meninggalkan parameter ini sepenuhnya daripada permintaan.

Anthropic menyatakan dengan jelas: "Walaupun anda menggunakan temperature=0 untuk determinisme, ini tidak pernah menjamin keidentikan output." Falsafah Anthropic ialah kawalan tingkah laku model harus dilakukan melalui kejuruteraan prompt.

6. [Perubahan Merosakkan] Kandungan Pemikiran Tersembunyi secara Lalai

Secara lalai, blok pemikiran muncul dalam aliran respons, tetapi medan thinking akan kosong. Produk yang mempunyai UI untuk memaparkan proses penaakulan kepada pengguna perlu mendaftar masuk secara eksplisit.

thinking = {
    "type": "adaptive",
    "display": "summarized",  # atau "omitted" (lalai)
}

Anthropic rasmi menyatakan latensi bertambah baik sedikit, tetapi Hacker News membincangkan kemerosotan UX di mana "output mula selepas kesunyian yang lama." Untuk produk dengan UI penstriman, menetapkan "display": "summarized" berkemungkinan besar menjadi keperluan praktikal.

7. Tokenizer Baharu — Sehingga 1.35x Token untuk Input yang Sama

Ini sering terlepas pandang, tetapi merupakan perubahan yang paling menyakitkan bagi jurutera. Opus 4.7 menggunakan tokenizer baharu yang menggunakan 1.0 hingga 1.35x token untuk teks yang sama. Menurut analisis syarikat Finout, data JSON dan berstruktur menunjukkan peningkatan token yang lebih ketara (1.2 hingga 1.35x), manakala prosa Inggeris tulen menunjukkan hampir tiada perubahan.

Walaupun harga per unit kekal sama, kos sebenar meningkat dalam bentuk seperti "permintaan $0.10 menjadi $0.135 dengan Opus 4.7." Finout mencadangkan bahawa "bagi kebanyakan pasukan, jawapan yang betul bukan 'naik taraf ke 4.7' tetapi 'pindahkan separuh trafik ke Sonnet'," dan memberi amaran kepada pengurus kewangan Silicon Valley.

Peningkatan premium request multiplier dalam GitHub Copilot dari 3x untuk Opus 4.6 kepada 7.5x untuk Opus 4.7 (harga promosi sehingga 30 April) juga dijangka mencerminkan peningkatan token ini.

8. Perlindungan Keselamatan Siber Masa Nyata

Opus 4.7 dilengkapi dengan mekanisme untuk mengesan dan menyekat secara automatik penggunaan keselamatan siber yang dilarang atau berisiko tinggi. Bagi pakar keselamatan yang menjalankan penyelidikan kerentanan yang sah, ujian penembusan, dan tujuan pasukan merah, pendaftaran melalui "Cyber Verification Program" baharu (claude.com/form/cyber-use-case) telah disediakan.

Ini direka berpasangan dengan Mythos Preview, dan Anthropic mengakui bahawa "kami menjalankan eksperimen untuk mengurangkan keupayaan siber secara pembezaan semasa latihan agar tidak memberikan keupayaan setara Mythos kepada model awam umum." Help Net Security melaporkan: "Ini bukan penurunan keupayaan model, tetapi penentuan skop yang disengajakan."


Titik-titik Peningkatan Claude Code — Perubahan di Lapangan yang Hanya Difahami oleh Jurutera

Seiring dengan pelancaran Opus 4.7, beberapa peningkatan fungsi turut dilakukan pada bahagian Claude Code.

Penambahan Perintah /ultrareview

Sesi semakan kod khusus yang dijalankan pada tahap kesan max, menganalisis seni bina, logik, keselamatan, prestasi, dan kebolehselenggaraan dalam format berstruktur. Pengguna Pro/Max diberikan kredit percuma 3 kali sebulan.

CodeRabbit menilai melalui 100 PR OSS sebenar dan menyatakan "Opus 4.7 adalah model yang paling tajam." Dalam penilaian pengesanan pepijat, ia memperoleh 68/100 mata, dengan kepadatan pepijat 70% bagi setiap 100 komen (pepijat sebenar, bukan sekadar teguran gaya), 99.1% komen mengandungi rujukan kod sebaris, dan 78% mengandungi diff yang boleh dipakai — menunjukkan keupayaan semakan yang sangat praktikal.

Namun begitu, CodeRabbit turut menyenaraikan beberapa peringatan yang jelas: "pelabelan keterukan yang terlalu ketat (cenderung memberikan label critical walaupun untuk kegagalan yang hanya berkaitan ujian)", "bilangan komen yang berlebihan (purata lebih 19 ulasan per PR)", dan "teguran berulang pada laluan kod yang serupa." Penapisan pasca-proses dianggap wajib semasa pengunaan dalam persekitaran pengeluaran.

Pengembangan Auto Mode

"Auto Mode" (Shift+Tab) — yang membolehkan Claude menjalankan perintah terminal, mengedit fail, dan melakukan pengulangan secara autonomi — sebelum ini terhad kepada pengguna Enterprise/Teams, namun kini turut dibuka kepada pelanggan pelan Max seiring dengan pelancaran Opus 4.7.

Persaraan Bertahap Model Lama

GitHub Copilot mengumumkan bahawa Opus 4.5 dan 4.6 akan dikeluarkan secara beransur-ansur daripada pemilih model pengguna Pro+ dalam tempoh beberapa minggu. Langkah ini dijelaskan sebagai sebahagian daripada usaha peningkatan kebolehpercayaan, namun pengguna enterprise perlu menyediakan pelan migrasi sebelum 30 April.


Perubahan bagi pengguna bukan jurutera — Claude yang "sedikit lebih pendiam dan profesional"

Bagi pengguna perniagaan dan bukan jurutera yang menggunakan Claude.ai atau aplikasi desktop setiap hari, perubahan dalam Opus 4.7 akan ketara seperti berikut.

Perubahan Tingkah Laku (Yang Memerlukan Penulisan Semula Prompt)

Berdasarkan senarai daripada bahagian 'Behavior changes' rasmi Anthropic:

1. Mengikut arahan secara lebih literal: Claude terdahulu cenderung untuk "mengaplikasikan arahan bagi satu item secara tersirat kepada item lain", tetapi Opus 4.7 hanya melakukan apa yang diarahkan. Contohnya, jika anda mengarahkan "tukar ulasan dalam kod ini kepada bahasa Inggeris", ia tidak akan mengubah nama pemboleh ubah melainkan dinyatakan secara eksplisit.

2. Panjang respons diselaraskan secara automatik mengikut kerumitan tugas: Kalibrasi telah dipertingkatkan — soalan pendek mendapat jawapan pendek, soalan kompleks mendapat jawapan panjang. Kecenderungan untuk menjawab dengan tahap keverbosan yang tetap semakin berkurang.

3. Panggilan alat berkurang: Secara lalai, ia cuba menyelesaikan lebih banyak perkara melalui penaakulan. Jika carian web diperlukan, arahan eksplisit adalah berkesan.

4. Nada lebih langsung dan tegas: Berbanding "gaya mesra Claude Opus 4.6", nada penyampaiannya lebih langsung dan bersifat menyatakan pendapat. Penggunaan emoji berkurang, manakala frasa berbentuk arahan seperti "Guard against nil" semakin kerap. CodeRabbit mengeluarkan penilaian kuantitatif iaitu "kadar ketegasan 77.6%, kadar penyangga 16.5%".

5. Laporan kemajuan lebih kerap semasa tugas jangka panjang: Status pertengahan seperti "Sedang memproses X" dan "Akan memproses Y yang tinggal" dimasukkan secara semula jadi.

6. Tidak menjana sub-agen secara lalai: Versi lama cenderung memulakan pemprosesan selari secara automatik, tetapi Opus 4.7 lebih berhati-hati. Jika anda ingin membuat pemprosesan selari, arahan eksplisit diperlukan.

Aj Orbach, Ketua Pegawai Eksekutif (syarikat pembinaan papan pemuka) mengulas: "Deria reka bentuk Opus 4.7 untuk UI yang kaya dengan data adalah pada tahap kualiti yang benar-benar saya hantar." Dalam kalangan pereka di Silicon Valley, perkara ini dibincangkan dalam konteks "AI mula memiliki 'selera'."

Petua Penggunaan (Untuk Bukan Jurutera)

  • "Nyatakan arahan dengan cukup jelas": Jangan bergantung pada jangkaan tersirat — nyatakan panjang, format, dan nada output yang dikehendaki dalam prompt pertama anda.
  • Perhatikan peringkat keberkesanan untuk tugas jangka panjang: Peringkat keberkesanan juga didedahkan kepada pengguna dalam UI Claude.ai. Disarankan untuk menggunakan medium bagi tugas mudah, high bagi tugas pemikiran penting, dan xhigh bagi pengkodan atau analisis yang sukar.
  • Ambil perhatian tentang resolusi tangkapan skrin: Berkat sokongan resolusi tinggi, tangkapan skrin telefon pintar dan imej graf resolusi tinggi kini dapat dibaca dengan tepat. Ketepatan tugas yang memerlukan pembacaan nilai dalam jadual atau paksi carta telah meningkat dengan ketara.


"Teknik dan Petua Rahsia" yang Hanya Diketahui oleh Jurutera — Kaedah yang Ditemui oleh Komuniti

Daripada Hacker News (47793411), urutan tweet Boris Cherny, artikel ujian 6 jam di Dev.to, serta laporan rakan kongsi CodeRabbit/Warp/Vercel/Cursor, kami menyusun petua-petua yang ditemui oleh komuniti kejuruteraan.

Petua 1: Gunakan xhigh secara lazim dan anggap max sebagai pengecualian

Anthropic secara rasmi menyatakan: "Gunakan max hanya untuk masalah yang benar-benar sukar. Untuk operasi yang berjalan lama, ia boleh menjadi kontraproduktif akibat pemikiran berlebihan." Ramai jurutera di Silicon Valley berkongsi pandangan bahawa "jika tersangkut dengan xhigh pada Opus 4.7, anda perlu menyemak semula prompt anda. Menaikkan ke max jarang menyelesaikan masalah."

Petua 2: Gunakan mod perancangan terlebih dahulu

Sejak zaman Opus 4.5, Boris Cherny secara konsisten menyatakan bahawa "hampir sentiasa bermula dengan plan mode adalah petua terbesar," dan prinsip ini tetap berlaku untuk Opus 4.7. Bersetuju dengan rancangan terperinci sebelum memulakan pelaksanaan membolehkan ciri "mengikut arahan secara lebih literal" dalam Opus 4.7 menjadi sekutu terbesar anda.

Petua 3: Buang scaffolding konvensional

Dokumentasi Opus 4.7 menyatakan dengan jelas: "Jika prompt sedia ada mengandungi scaffolding pembetulan seperti double-check the slide layout before returning, buangnya dan tetapkan semula garis dasar." Memandangkan model itu sendiri kini melakukan pengesahan kendiri, arahan defensif yang direka untuk generasi terdahulu sebaliknya boleh mendorong lebihan atau pembetulan berlebihan.

Petua 4: Hidupkan semula ringkasan pemikiran dalam Claude Code

Walaupun kandungan pemikiran disembunyikan secara lalai, pengguna Claude Code boleh menghidupkannya semula melalui tetapan showThinkingSummaries: true. Bagi pengguna API secara langsung, tambahkan "display": "summarized" dalam permintaan.

Petua 5: Kawalan kos untuk konteks 1M

Dengan pemboleh ubah persekitaran CLAUDE_CODE_DISABLE_1M_CONTEXT=1, anda boleh melumpuhkan tetingkap konteks 1M dan mengurangkan kos. Ini berkesan untuk senario yang tidak melibatkan repositori berskala besar.

Petua 6: Model mental "delegasi kepada jurutera"

Blog rasmi Anthropic, *Best practices for using Claude Opus 4.7 with Claude Code*, menyatakan dengan jelas: "Daripada membimbing Opus 4.7 baris demi baris seperti pasangan pengaturcara, gunakannya seperti mendelegasikan tugas kepada jurutera yang berkebolehan." Menyampaikan niat, kekangan, kriteria penerimaan, dan lokasi fail yang berkaitan semuanya pada giliran pertama adalah cara terbaik untuk memaksimumkan autonomi Opus 4.7.

Petua 7: Gunakan cache prompt bersama Sonnet

Menurut analisis Finout, "tuas terbesar untuk kawalan kos Opus ialah cache prompt (pengurangan sehingga 90%)." Selain itu, "bagi kebanyakan pasukan, adalah lebih munasabah untuk mengalihkan separuh trafik ke Sonnet 4.6." Anggaran menunjukkan bahawa beban kerja RAG berharga $652 sebulan boleh dikurangkan kepada $392 dengan Sonnet 4.6.

Petua 8: Bajet tugas hanya untuk tugas tertutup

Anthropic menyatakan dengan jelas: "Jangan tetapkan task_budget untuk tugas agen terbuka di mana kualiti mengatasi kelajuan." Ia hanya patut digunakan secara efektif untuk tugas tertutup dengan skop yang jelas, seperti "selesaikan semakan 100 fail" atau "siapkan rancangan pemfaktoran semula."

Petua 9: Jalankan A/B sebahagian ujian sedia ada dengan 5–10% trafik

Panduan pembangun NxCode mengesyorkan dengan kuat "ujian A/B dengan 5-10% trafik sebelum pelancaran penuh ke pengeluaran." Memandangkan banyak perubahan memerlukan pelarasan semula prompt sedia ada — seperti peningkatan penanda 1.35x dan ketegasan dalam mengikuti arahan — pelancaran berperingkat menjadi prosedur standard untuk meminimumkan risiko.


Data pengukuran sebenar daripada setiap syarikat perusahaan rakan kongsi

Daripada blog rasmi Anthropic dan pengumuman pelbagai syarikat, berikut adalah ringkasan data kuantitatif daripada perusahaan-perusahaan yang menjadi pengguna awal.

  • CodeRabbit: "Model paling tajam", peningkatan recall melebihi 10%, peningkatan relatif pengesanan pepijat sebanyak 24%
  • Warp: "Menyelesaikan pepijat konkurensi yang tidak dapat diselesaikan oleh Opus 4.6" "Menyeluruh secara terukur"
  • Factory Droids: Kadar kejayaan tugas meningkat 10-15%, ralat panggilan alat berkurangan, "tidak berhenti separuh jalan"
  • Cursor: CursorBench 58% → 70% (peningkatan 12 mata)
  • Vercel: "Luar biasa untuk pengekodan satu tembakan" "Tingkah laku baharu yang melakukan pra-pengesahan kod sistem"
  • Box (Ketua AI Yashodha Bhavnani): Panggilan model dikurangkan 56%, panggilan alat dikurangkan 50%, respons dipercepatkan 24%, AI Units dikurangkan 30%
  • Notion: "Notion Agent terasa seperti rakan sepasukan yang sebenar"
  • Rakuten (楽天): Kadar penyelesaian tugas pengeluaran meningkat 3 kali ganda, keuntungan dua digit dalam Kualiti Kod dan Kualiti Ujian
  • Hebbia: Pembuatan keputusan agen untuk RAG, penjanaan slaid, dan penjanaan dokumen telah bertambah baik

Angka-angka Box amat bermakna. Hakikat bahawa panggilan model berkurangan lebih daripada separuh sambil mencapai prestasi yang sama bermakna dari perspektif TCO (Jumlah Kos Pemilikan) perusahaan, kesan ekonomi ini dijangka melampaui peningkatan tokenizer sebanyak 1.35 kali ganda.


Pandangan VC Silicon Valley — "Adakah 800B dilihat sebagai tiket masuk untuk menjadi juara AI, atau satu kegilaan"

Pelancaran Opus 4.7 turut menjadi peristiwa penilaian penting bagi komuniti VC.

Maksud Tawaran Penilaian $800B

Menurut laporan Bloomberg, Yahoo Finance, dan GuruFocus, Anthropic menerima tawaran pelaburan daripada beberapa VC pada penilaian $800B (kira-kira ¥127.2 trilion) seiring dengan pelancaran Opus 4.7. Kadar pengembangan yang melebihi dua kali ganda dalam masa dua bulan dari Siri G pada Februari 2026 ($380B = kira-kira ¥60.42 trilion) adalah amat luar biasa dalam sejarah teknologi. Di pasaran sekunder Caplight, $688B (kira-kira ¥109.39 trilion) merupakan harga dagangan sebenar, mencatatkan kenaikan 75% dalam tempoh tiga bulan.

Di sebalik angka-angka ini terdapat rekod ARR syarikat sebesar $30B (kira-kira ¥4.77 trilion). InvestorPlace menggelarnya "kadar pertumbuhan hasil 10,000% tahun ke tahun" dan meletakkannya sebagai "calon IPO terbesar pada 2026."

Perspektif Tenang Altimeter

Brad Gerstner dari Altimeter Capital menyatakan sekitar 16 April bahawa "FUD terhadap OpenAI telah mencapai kemuncak" dan "adalah bodoh untuk mengetepikan OpenAI," memberi amaran terhadap pandangan yang terlalu tertumpu kepada Anthropic. Beliau berhujah bahawa "pasaran AI adalah bukan sifar-sum. Terdapat ruang yang cukup untuk pelbagai pemenang," dan menyatakan jangkaan bahawa Spud milik OpenAI (model yang belum didedahkan) "setanding dengan Mythos."

Arus perdana VC Silicon Valley menganggap pelancaran Opus 4.7 sebagai "bahan yang mengesahkan momentum Anthropic," namun bersikap berhati-hati dalam menerima penilaian $800B. Anthropic sendiri menahan tawaran tersebut "buat masa ini," dan ini ditafsirkan sebagai sikap menunggu "pertumbuhan perniagaan selanjutnya sebelum IPO."

Apa yang Ditunjukkan oleh Tinjauan CIO a16z

Dalam tinjauan CIO yang dijalankan oleh a16z, bahagian wallet share (bahagian belanjawan AI) OpenAI masih mendominasi pada 56%. Namun Anthropic dan Gemini semakin mengikis bahagian tersebut secara berterusan, dengan ramalan bahawa peralihan ini akan dipercepatkan pada 2026. Analisis dominan menunjukkan bahawa pembahagian — "Anthropic menang dalam kalangan pembangun dan penulis yang mengutamakan ketepatan dan keupayaan pengekodan, manakala OpenAI dan Google menguasai skala pengguna dan kuasa pengedaran" — kekal sebagai struktur asas walaupun selepas pelancaran Opus 4.7.

Impak kepada Saham Berkaitan

Sejurus selepas pelancaran Opus 4.7, pasaran saham menyaksikan Adobe, Figma, dan Wix masing-masing jatuh lebih 2%. Ini sebahagiannya disebabkan oleh laporan bocoran hari sebelumnya yang telah diambil kira dalam harga saham, namun ia juga menunjukkan bahawa senario "Anthropic beralih kepada studio AI sepenuh tumpukan bersama alat reka bentuk AI 'Project Prism'" menjadi bahan kebimbangan pelabur. S&P 500 Software & Services Index telah jatuh kira-kira 26% sejak awal 2026, dengan kebimbangan struktural terhadap SaaS konvensional membebankan keseluruhan sektor.


Analisis Nada Pelbagai Media

  • VentureBeat: "Claude Opus 4.7 merampas semula takhta LLM awam terkuat dengan perbezaan tipis" — menilai kemenangan teknikal secara jelas
  • Axios: "Mengakui tidak setanding Mythos yang belum didedahkan" — menekankan mesej berhati-hati Anthropic
  • CNBC: "Model AI yang lebih rendah risiko berbanding Mythos" — melaporkan dengan fokus utama pada keseimbangan keselamatan × komersial
  • Gizmodo: "Opus 4.7 dilancarkan untuk mengingatkan semua orang betapa hebatnya Mythos" — ulasan bernada sinis
  • TheNextWeb: "Mengatasi GPT-5.4 dan Gemini 3.1 Pro dalam SWE-bench dan penaakulan ejen" — menekankan keunggulan penanda aras
  • The Decoder: "Lompatan pengkodan dan pengurangan sengaja keupayaan siber" — perspektif keselamatan
  • Help Net Security: "Dilengkapi perlindungan keselamatan siber automatik" — penjelasan praktikal untuk industri keselamatan
  • LessWrong: "Opus 4.7 mungkin batu loncatan untuk menonjolkan kehadiran Mythos" — pemerhatian tajam komuniti keselamatan AI
  • 9to5Mac: "Fokus pada kejuruteraan perisian lanjutan" — perspektif ekosistem Apple
  • TechCrunch: "Tawaran penilaian $800B+ daripada VC, Anthropic menangguhkan keputusan" — konteks pengumpulan dana
  • Bloomberg: "Menarik tawaran pelabur dengan penilaian $800B" — perspektif pelabur
  • PYMNTS.com: "Alat reka bentuk Anthropic hampir menyamai Adobe dan Figma" — perspektif media kewangan

Secara keseluruhan, media teknologi khusus menilai secara positif penambahbaikan teknikal sambil memberi perhatian kepada kedudukan membatasi diri iaitu "tidak setanding Mythos". Media kewangan dan pelaburan cenderung memberi tumpuan kepada penilaian $800B dan prospek IPO, serta membincangkan senario peralihan struktur syarikat menjadi "syarikat AI penuh timbunan" di Silicon Valley.


Pendapat Jujur Jurutera yang Diperhatikan di Hacker News

Dalam utas Hacker News 47793411, perbincangan berikut sedang aktif diperdebatkan dalam kalangan komuniti juruteknik.

1. Ketidakjelasan Adaptive Thinking: Terdapat beberapa laporan tentang "tidak berfikir pada situasi yang sepatutnya berfikir". Rasa tidak puas hati mengenai "tidak dapat melumpuhkan Extended Thinking" kekal kuat.

2. Penyembunyian Kandungan Pemikiran: Terdapat kritikan yang menyatakan "Walaupun menggunakan API, mengapa chain-of-thought disembunyikan? Bukankah ini bercanggah dengan komitmen ketelusan awal Anthropic?"

3. Perkongsian Penyelesaian Sementara: Petua seperti "display": "summarized", CLAUDE_CODE_DISABLE_1M_CONTEXT=1, dan /effort xhigh telah dipaparkan, dan pengetahuan yang tidak terdapat dalam dokumentasi rasmi dikongsi dalam komuniti.

4. Laporan Kegagalan Logik: Kes kegagalan khusus seperti "disyorkan untuk berjalan kaki ke kemudahan pencuci kereta" turut dikongsi, dan kebimbangan terhadap "jurang antara skor penanda aras dan pengalaman di lapangan" telah disuarakan.

5. Teori Langkah Balas Penyulingan Pesaing: Spekulasi bahawa "penyembunyian penaakulan mungkin merupakan pertahanan harta intelek untuk mencegah penyulingan (distillation) oleh model pesaing" mendapat sokongan kuat.


Peta Jalan Masa Depan——Bila dan Apa yang Akan Bergerak

Berdasarkan pengumuman rasmi Anthropic dan pelbagai laporan, berikut adalah ringkasan pencapaian utama yang akan datang.

Jangka Pendek (April–Mei 2026)

  • 30 April: Tamat tempoh harga promosi 7.5× GitHub Copilot. Selepas itu, kemungkinan harga penalti atau penetapan semula harga
  • Awal Mei: Kemungkinan Task Budgets beralih daripada beta awam kepada ketersediaan umum (berdasarkan petunjuk daripada pekerja Anthropic)
  • Dalam Mei: Batch kelulusan awal Cyber Verification Program mula diedarkan
  • Mei: Kickoff rasmi Project Glasswing, pengembangan rakan kongsi Mythos Preview semakin giat

Jangka Sederhana (Jun–September 2026)

  • Jun ke atas: Pelancaran Sonnet 4.8 (nama kod yang disahkan melalui kebocoran npm). Dijangka sebagai versi kos-prestasi bagi Opus 4.7
  • Julai ke atas: Penggunaan penuh Claude Managed Agents berasaskan Opus 4.7 dan pendedahan rekod prestasi pelanggan enterprise
  • Akhir Ogos: Kemungkinan penyerahan S-1 Anthropic

Jangka Panjang (Oktober 2026 dan seterusnya)

  • Oktober: Penyenaraian NASDAQ Anthropic (Goldman Sachs, JPMorgan, dan Morgan Stanley sebagai calon penjamin emisi utama)
  • S4: Pengumuman penyelidikan ke arah Opus 4.8 atau Opus 5.0 (kemungkinan pemindahan sebahagian keupayaan Mythos Preview ke model umum)

Garis masa bagi visi "negara genius dalam pusat data" yang kerap diulang oleh CEO Dario Amodei adalah 2026–2027. Opus 4.7 diposisikan sebagai "flagship komersial" yang berperanan sebagai jambatan menuju Mythos.


Kesimpulan — Opus 4.7 adalah Semakan Besar yang Menyamar sebagai "Versi Minor"

Claude Opus 4.7, walaupun menyamar sebagai kemas kini kecil "0.1 naik" dari segi nombor versi, sebenarnya mengandungi perubahan yang sangat besar dari perspektif kejuruteraan — termasuk pemutusan keserasian API, perubahan tokenizer, pembaharuan seni bina inferens (pemaksaan Adaptive Thinking), peningkatan keupayaan visi sebanyak 3 kali ganda, tahap inferens baharu xhigh, dan parameter baharu task_budget.

Bagi jurutera teknologi Silicon Valley, cabaran yang dikemukakan oleh keluaran ini boleh dirangkumkan kepada tiga perkara:

1. Kos Migrasi: Pemutusan keserasian API memerlukan pemfaktoran semula pangkalan kod sedia ada. Khususnya, menghapuskan kebergantungan pada temperature dan top_p, membuang Extended Thinking, dan menjadikan paparan pemikiran sebagai opt-in.

2. Penilaian Semula Kos: Mereka bentuk semula penggunaan cache prompt dan penggunaan bersama Sonnet, dengan mengambil kira "kenaikan kos tersembunyi" iaitu peningkatan tokenizer sebanyak 1.35× dan pengganda GitHub Copilot sebanyak 7.5×.

3. Penalaan Semula Prompt: Pengeksplisitan sejajar dengan "penurutan arahan yang lebih literal", penyingkiran scaffolding lama, dan reka bentuk prompt dengan andaian lalai xhigh.

Sebaliknya, data kuantitatif daripada rakan kongsi penggunaan awal seperti CodeRabbit, Warp, Cursor, Box, Notion, Rakuten, dan lain-lain membuktikan bahawa Opus 4.7 bukan sekadar penambahan skor semata-mata, malah merupakan salah satu naik taraf model yang mampu mencapai peningkatan kualiti, pengurangan kos, dan peningkatan pengalaman pembangun secara serentak dalam aliran kerja pengeluaran sebenar.

Walaupun ada pandangan bahawa "Opus 4.7 adalah batu loncatan menuju Mythos", dalam persekitaran kejuruteraan harian Silicon Valley, model ini akan kekal sebagai flagship buat masa terdekat. Persoalannya bukan "sama ada menggunakannya atau tidak", tetapi "bila, bagaimana, dan dengan reka bentuk semula yang bagaimana untuk menyerapnya ke dalam persekitaran pengeluaran" — kualiti pertimbangan itulah yang akan menentukan daya saing produk berteraskan AI pada separuh kedua tahun 2026.


Sumber