Tóm tắt

Trong bài viết hôm qua, chúng tôi đã trình bày tổng quan về Claude Opus 4.7 dựa trên bài đưa tin độc quyền của The Information và các thông tin rò rỉ từ Google Vertex AI Console. Trong bài viết này, chúng tôi sẽ đi sâu phân tích chi tiết các tính năng mới dựa trên mô hình thực tế được Anthropic chính thức phát hành vào ngày 16 tháng 4 năm 2026 (giờ địa phương), từ góc nhìn của một kỹ sư công nghệ tại Silicon Valley. Opus 4.7 đạt SWE-bench Pro 64,3%, SWE-bench Verified 87,6%, CursorBench 70%, bỏ xa GPT-5.4 của OpenAI và Gemini 3.1 Pro của Google trên các benchmark chính. Đặc biệt đáng chú ý là ba điểm nổi bật: cấp độ suy luận mới xhigh, task_budget hiện ở giai đoạn beta công khai, và tính năng vision độ phân giải cao gốc được cải thiện gấp 3 lần. Tuy nhiên, bản cập nhật này cũng chứa nhiều thay đổi phá vỡ tương thích (Breaking Change) đối với các codebase hiện có, bao gồm việc loại bỏ hoàn toàn các tham số sampling như temperaturetop_p, ngừng hỗ trợ Extended Thinking (tư duy ngân sách cố định), và việc ẩn nội dung tư duy theo mặc định — tất cả đòi hỏi phải tinh chỉnh cẩn thận trong quá trình di chuyển. Giá cả vẫn được giữ nguyên ở mức $5 (khoảng 795 yên) cho đầu vào và $25 (khoảng 3.978 yên) cho đầu ra trên 1 triệu token, nhưng do tokenizer mới tiêu thụ nhiều hơn tới 1,35 lần token cho cùng một đoạn văn bản, chi phí thực tế sẽ tăng lên theo cơ cấu này.

48 giờ sau báo cáo rò rỉ, Anthropic cho thấy sự "phá vỡ và kế thừa"

Anthropic đã chính thức ra mắt Claude Opus 4.7 vào ngày 16 tháng 4 năm 2026 (theo giờ Thái Bình Dương của Mỹ), thu hút sự chú ý của toàn ngành AI tạo sinh. Đây là thông báo chính thức cực kỳ nhanh chóng — chỉ khoảng 48 giờ sau khi The Information đưa tin độc quyền vào tối ngày 14 tháng 4, và chỉ 24 giờ sau khi ID mô hình bị lộ trên bảng điều khiển Google Vertex AI. Dự đoán "ra mắt ngày 16 tháng 4" với xác suất ngầm định 79% trên Polymarket đã trở thành sự thật, và những người tham gia thị trường dự đoán đã nhận được khoản thanh toán của mình.

Giọng điệu của blog chính thức *Introducing Claude Opus 4.7* hoàn toàn trái ngược với tông "mở ra kỷ nguyên mới" hào hứng từng xuất hiện khi ra mắt Opus 4.6 thế hệ trước — lần này rất thực dụng và bình tĩnh. Anthropic lặng lẽ ghi nhận rằng "Opus 4.7 là bước cải tiến đáng kể so với Opus 4.6, đặc biệt thể hiện kết quả vượt trội ở những tác vụ khó nhất", đồng thời thẳng thắn thừa nhận rằng "dù là mô hình mạnh nhất trong số các mô hình công khai, nhưng vẫn chưa sánh được với Claude Mythos Preview chưa được công bố". CNBC đưa tin đây là "mô hình AI ít rủi ro hơn Mythos", còn Axios nhấn mạnh việc Anthropic "thừa nhận không theo kịp Mythos chưa được công bố", làm nổi bật chiến lược phân tầng rõ ràng của Anthropic giữa "thành quả nghiên cứu tiên phong nội bộ" và "sản phẩm thương mại".

Bài viết này tổng hợp các thay đổi dựa trên tài liệu chính thức của Anthropic, bài đăng mạng xã hội của nhân viên, và tuyên bố chính thức từ các đối tác làm nguồn thông tin sơ cấp; sau đó tích hợp dữ liệu thực đo từ đội ngũ kỹ thuật của các đối tác tiên phong như CodeRabbit, Warp, Cursor và Factory Droids, phản hồi từ cộng đồng kỹ sư trên Hacker News, cùng góc nhìn của các nhà đầu tư mạo hiểm tại Silicon Valley — nhằm làm rõ một cách toàn diện: "Điều gì đã thay đổi", "Nên sử dụng như thế nào", và "Được đón nhận ra sao".


Số liệu chính thức ngay sau khi phát hành——Benchmark là "tích lũy vững chắc" chứ không phải "biến động địa chất"

Tổng hợp các số liệu được công bố trên blog chính thức của Anthropic, blog chính thức của AWS Bedrock và blog của Google Cloud Vertex AI, các benchmark chính của Opus 4.7 như sau.

Benchmark liên quan đến lập trình

BenchmarkOpus 4.7Opus 4.6GPT-5.4Gemini 3.1 Pro
SWE-bench Pro64,3%53,4%57,7%54,2%
SWE-bench Verified87,6%80,8%80,6%80,6%
Terminal-Bench 2.069,4%65,4%Không công bốKhông công bố
CursorBench70%58%Không công bốKhông công bố

Mức tăng 10,9 điểm trên SWE-bench Pro là một "sự dịch chuyển kiến tạo" rõ ràng, đặc biệt khi so với mức cải thiện chỉ khoảng 2–3 điểm từ các thế hệ trước đó. Tuy nhiên, con số này vẫn còn cách xa mức 93,9% mà Mythos Preview (chưa công bố) đã ghi nhận. Trên bảng benchmark, có thể thấy rõ cấu trúc mà Anthropic vừa tuyên bố "mạnh nhất trong các mô hình công khai" vừa giữ lại "mạnh nhất bị phong ấn" trong nội bộ.

Đa phương thức & nghiệp vụ tri thức

  • GDPVal-AA (nghiệp vụ tri thức có giá trị kinh tế): Elo 1753 (GPT-5.4: 1674, Gemini 3.1 Pro: 1314)
  • Finance Agent v1.1: 64,4% (mức cao nhất ngành)
  • GPQA Diamond (suy luận cấp độ sau đại học): 94,2% (gần như ngang bằng GPT-5.4 Pro 94,4% và Gemini 3.1 Pro 94,3%)
  • Độ chính xác thị giác XBOW (Visual Acuity): 98,5% (cải thiện đáng kể so với 54,5% của Opus 4.6)
  • OfficeQA Pro (suy luận tài liệu): Giảm 21% lỗi
  • Rakuten-SWE-Bench: Tỷ lệ giải quyết tác vụ môi trường thực tế tăng gấp 3 lần

Điểm thú vị là kết quả GPQA Diamond — như The Next Web đã chỉ ra, "khoảng cách giữa các mô hình frontier hàng đầu đang hội tụ trong phạm vi nhiễu". Kỷ nguyên cạnh tranh thuần túy bằng điểm số suy luận đã kết thúc, và rõ ràng trục khác biệt hóa đã hoàn toàn chuyển sang "hiệu suất ứng dụng", "thực thi agent" và "độ chính xác đa phương thức".


【Chính yếu】Chi tiết kỹ thuật về tính năng mới——Trích dẫn trực tiếp từ tài liệu chính thức của Anthropic

Đây là phần cốt lõi của bài viết. Dựa trên tài liệu chính thức của Anthropic (platform.claude.com/docs/en/about-claude/models/whats-new-claude-4-7), chúng ta sẽ kiểm chứng các tính năng mới từ nguồn đầu tiên.

1. Mức suy luận xhigh — "Điểm cân bằng tối ưu giữa chi phí và trí tuệ"

Tính năng mới đáng chú ý nhất trong Opus 4.7 là việc chia tham số effort thành 5 mức. Trước đây chỉ có 4 mức low / medium / high / max, nay đã bổ sung thêm xhigh nằm giữa highmax.

response = client.messages.create(
    model="claude-opus-4-7",
    max_tokens=12000,
    thinking={"type": "adaptive"},
    output_config={"effort": "xhigh"},
    messages=[{"role": "user", "content": "Refactor this codebase..."}]
)

Boris Cherny, tác giả của Claude Code, đã phát biểu trong bài đăng X của mình (ngày 16 tháng 4) rằng: "Opus 4.7 uses adaptive thinking instead of thinking budgets. To tune the model to think more/less, we recommend tuning effort." và nói rõ rằng Claude Code đã đặt xhigh làm mặc định cho tất cả các gói. Đây là tín hiệu quan trọng với các kỹ sư — đây được giải thích là quyết định đáp lại phản hồi từ các nhà phát triển rằng "high bỏ lỡ chất lượng trong quy trình làm việc agentic coding".

Hướng dẫn chính thức của Anthropic theo từng mức effort như sau:

MứcKhuyến nghị sử dụng
low / mediumƯu tiên chi phí và độ trễ thấp, tác vụ phạm vi hẹp
highCân bằng giữa trí tuệ và chi phí, vận hành phiên song song
xhigh (mặc định Claude Code)Hầu hết các tác vụ coding và agent
maxChỉ dành cho vấn đề thực sự khó. Có nguy cơ suy nghĩ quá mức khi chạy lâu

Theo phân tích của Vellum AI, "mức low của Opus 4.7 tương đương với mức medium của Opus 4.6", xác nhận rằng sự cải tiến đã xảy ra ở tất cả các mức.

2. Task Budgets (Beta công khai) — Giải pháp chính để kiểm soát agent chạy mất kiểm soát

task_budget là tham số mới truyền cho mô hình thông tin "hãy hoàn thành với khoảng ngân sách token này" cho toàn bộ vòng lặp agent (bao gồm suy nghĩ, gọi công cụ, kết quả công cụ và đầu ra cuối cùng). Điều quan trọng là đây là khái niệm về bản chất khác với max_tokens.

response = client.beta.messages.create(
    model="claude-opus-4-7",
    max_tokens=128000,
    output_config={
        "effort": "high",
        "task_budget": {"type": "tokens", "total": 128000},
    },
    messages=[{"role": "user", "content": "Review the codebase..."}],
    betas=["task-budgets-2026-03-13"],
)

Tài liệu chính thức của Anthropic phân biệt rõ ràng: "max_tokensgiới hạn cứng về token được tạo ra cho mỗi yêu cầu (không được truyền cho mô hình), còn task_budgetgiới hạn tư vấn cho toàn bộ vòng lặp agent (được truyền cho mô hình, mô hình nhìn thấy đếm ngược và tự điều chỉnh)". Giá trị tối thiểu là 20.000 token và cần chỉ định beta header task-budgets-2026-03-13.

Điều đặc biệt hữu ích với kỹ sư là mô hình có thể nhận biết đếm ngược ngân sách còn lại. Khi ngân sách giảm, mô hình thu hẹp phạm vi khám phá và ưu tiên đầu ra quan trọng để "hoàn thành một cách graceful (thanh lịch)". Cộng đồng kỹ sư Silicon Valley hoan nghênh tính năng này như biện pháp đối phó với "chi phí chạy mất kiểm soát" khi vận hành Claude Code. Tuy nhiên, bản thân Anthropic khuyến nghị "không nên đặt task_budget cho các tác vụ agent mở ưu tiên chất lượng". Lý do là nếu đặt ngân sách quá chặt, mô hình có thể kết thúc tác vụ dở dang hoặc thậm chí từ chối thực hiện tác vụ.

3. Vision độ phân giải cao gốc — 2.576px / 3,75MP

Cải tiến khả năng nhận diện hình ảnh là bước nhảy vọt về kiến trúc lớn nhất trong Opus 4.7.

  • Độ phân giải tối đa: 2.576px (cạnh dài, 3,75 megapixel, hơn 3 lần so với 1.568px/1,15 megapixel trước đây)
  • XBOW Visual Acuity: 54,5% → 98,5% (độ chính xác siêu cao trong nhận diện văn bản một lần)
  • Nhận thức cấp thấp: Cải thiện độ chính xác khi trỏ, đo lường và đếm
  • Image Localization: Cải thiện phát hiện bounding box trong ảnh tự nhiên
  • Ánh xạ tọa độ: Tọa độ ảnh tương ứng 1:1 với pixel (không cần tính hệ số tỉ lệ)

"Ánh xạ tọa độ 1:1" cuối cùng là tin vui cho các nhà phát triển agent thực hiện Computer Use (cho Claude thao tác chuột) hoặc phân tích screenshot. Cho đến Opus 4.6, tọa độ mô hình xuất ra là hệ tọa độ ảnh sau khi resize nội bộ, đòi hỏi quá trình chuyển đổi phiền phức để ánh xạ sang ảnh thực. Việc loại bỏ điều này mang ý nghĩa rất lớn.

Gabriel Anhaia từ Dev.to báo cáo sau 6 giờ kiểm thử thực tế: "đọc hoàn hảo các screenshot terminal dày đặc — mọi dòng, mã thoát, timestamp, kể cả văn bản màu xám nhạt trong zsh prompt".

Tuy nhiên, Anthropic ghi rõ: "ảnh độ phân giải cao tiêu thụ nhiều token hơn. Nếu không cần chi tiết, hãy downsample trước." Từ góc độ kỹ sư, quản lý độ phân giải theo mục đích sử dụng ảnh đầu vào trở thành điểm tối ưu chi phí mới.

4. [Thay đổi phá vỡ] Loại bỏ hoàn toàn Extended Thinking (suy nghĩ ngân sách cố định)

Thay đổi phá vỡ ảnh hưởng đến nhiều codebase nhất trong Opus 4.7 là điều này. Chế độ suy nghĩ ngân sách cố định thinking={"type": "enabled", "budget_tokens": N} trước đây đã bị loại bỏ và sẽ trả về lỗi 400 nếu chỉ định. Thay vào đó, chỉ Adaptive Thinking ({"type": "adaptive"}) được hỗ trợ.

# Đến Opus 4.6
thinking = {"type": "enabled", "budget_tokens": 32000}

# Từ Opus 4.7 trở đi
thinking = {"type": "adaptive"}
output_config = {"effort": "high"}

Cần lưu ý thêm là Adaptive Thinking mặc định là TẮT. Các yêu cầu không chỉ định rõ trường thinking sẽ chạy không có suy nghĩ. Anthropic giải thích trong đánh giá nội bộ rằng "Adaptive Thinking luôn vượt trội hơn Extended Thinking", nhưng trong các cuộc thảo luận trên Hacker News (47793411), có nhiều báo cáo chỉ trích rằng "adaptive thinking chooses to not think when it should", thể hiện sự bất mãn với các trường hợp mô hình bỏ qua suy nghĩ khi đáng lẽ phải suy nghĩ.

5. [Thay đổi phá vỡ] Loại bỏ hoàn toàn các tham số sampling

Nếu đặt temperature, top_p hoặc top_k sang giá trị khác mặc định, sẽ nhận lỗi 400. Con đường di chuyển được khuyến nghị là bỏ hoàn toàn các tham số này khỏi yêu cầu.

Anthropic nói thẳng: "Dù bạn dùng temperature=0 để có tính xác định, điều đó chưa bao giờ đảm bảo đầu ra giống nhau." Triết lý của Anthropic là nếu muốn kiểm soát hành vi mô hình, hãy thực hiện thông qua prompt engineering.

6. [Thay đổi phá vỡ] Nội dung suy nghĩ mặc định bị ẩn

Theo mặc định, các khối suy nghĩ xuất hiện trong response stream nhưng trường thinking sẽ trống. Các sản phẩm có UI hiển thị quá trình suy luận cho người dùng cần phải opt-in một cách rõ ràng.

thinking = {
    "type": "adaptive",
    "display": "summarized",  # hoặc "omitted" (mặc định)
}

Anthropic chính thức cho biết độ trễ cải thiện nhẹ, nhưng trên Hacker News có thảo luận về UX xấu đi với "đầu ra bắt đầu sau một khoảng im lặng dài". Với các sản phẩm có streaming UI, việc đặt "display": "summarized" gần như là bắt buộc trên thực tế.

7. Tokenizer mới — Tối đa 1,35 lần token cho cùng một đầu vào

Đây là thay đổi dễ bị bỏ qua nhưng đau nhất với kỹ sư. Opus 4.7 sử dụng tokenizer mới, tiêu thụ 1,0 đến 1,35 lần token cho cùng một văn bản. Theo phân tích của Finout, JSON và dữ liệu có cấu trúc tăng token rõ rệt nhất (1,2 đến 1,35 lần), trong khi văn xuôi tiếng Anh thuần túy gần như không thay đổi.

Dù đơn giá bề ngoài không đổi, chi phí thực tế tăng theo kiểu "yêu cầu $0,10 trở thành $0,135 với Opus 4.7". Finout gợi ý rằng "với nhiều team, câu trả lời đúng không phải là 'nâng cấp lên 4.7' mà là 'chuyển một nửa lưu lượng sang Sonnet'", đang gióng lên hồi chuông cảnh báo với các bộ phận tài chính ở Silicon Valley.

Việc premium request multiplier trong GitHub Copilot tăng từ 3 lần (Opus 4.6) lên 7,5 lần (Opus 4.7, giá khuyến mại đến ngày 30 tháng 4) cũng được suy đoán là phản ánh sự gia tăng token này.

8. Biện pháp bảo vệ an ninh mạng thời gian thực

Opus 4.7 được trang bị cơ chế tự động phát hiện và chặn các mục đích sử dụng an ninh mạng bị cấm hoặc rủi ro cao. Đối với các chuyên gia bảo mật với mục đích nghiên cứu lỗ hổng hợp pháp, kiểm thử thâm nhập và red teaming, có hướng dẫn đăng ký "Cyber Verification Program" mới (claude.com/form/cyber-use-case).

Đây là thiết kế đi kèm với Mythos Preview, và Anthropic thừa nhận rằng "đã thực hiện các thí nghiệm để giảm thiểu khả năng cyber một cách khác biệt trong quá trình huấn luyện nhằm không trao cho mô hình công khai khả năng tương đương Mythos". Help Net Security đưa tin rằng "đây không phải là sự suy giảm năng lực của mô hình mà là phạm vi hóa có chủ ý".


Những điểm cải tiến của Claude Code — Những thay đổi thực tế chỉ kỹ sư mới nhận ra

Cùng với việc ra mắt Opus 4.7, Claude Code cũng đã được bổ sung nhiều cải tiến đáng kể.

Bổ sung lệnh /ultrareview

Đây là phiên đánh giá mã nguồn chuyên dụng chạy ở mức hiệu ứng max, phân tích kiến trúc, logic, bảo mật, hiệu năng và khả năng bảo trì theo định dạng có cấu trúc. Người dùng Pro/Max được tặng 3 lần miễn phí mỗi tháng.

CodeRabbit đã đánh giá trên 100 PR OSS thực tế và nhận xét rằng "Opus 4.7 là mô hình sắc bén nhất". Trong bài kiểm tra phát hiện lỗi, mô hình đạt 68/100 điểm, mật độ lỗi trên 100 bình luận đạt 70% (lỗi thực chất chứ không phải nhận xét về phong cách), 99,1% bình luận có tham chiếu mã inline, và 78% chứa diff có thể áp dụng — cho thấy năng lực đánh giá rất thực tiễn.

Tuy nhiên, CodeRabbit cũng nêu rõ một số hạn chế: "Gán nhãn mức độ nghiêm trọng quá khắt khe (có xu hướng đánh critical ngay cả với lỗi chỉ xảy ra trong môi trường test)", "số lượng bình luận quá nhiều (trung bình hơn 19 bình luận mỗi PR)", "chỉ ra trùng lặp ở các đường dẫn mã tương tự". Khi triển khai vào môi trường sản xuất, việc lọc ở bước hậu xử lý được xem là bắt buộc.

Mở rộng Auto Mode

"Auto Mode" (Shift+Tab) — cho phép Claude tự động thực thi lệnh terminal, chỉnh sửa file và lặp lại thao tác — trước đây chỉ dành cho Enterprise/Teams, nay đã được mở cho người dùng gói Max đồng thời với việc ra mắt Opus 4.7.

Loại bỏ dần các mô hình cũ

GitHub Copilot thông báo sẽ dần xóa Opus 4.5 và 4.6 khỏi bộ chọn mô hình của người dùng Pro+ trong vài tuần tới. Động thái này được giải thích là nhằm cải thiện độ tin cậy, tuy nhiên người dùng doanh nghiệp cần lập kế hoạch chuyển đổi trước ngày 30 tháng 4.


Sự thay đổi đối với người dùng không phải kỹ sư——Claude trở nên "ít nói hơn một chút và chuyên nghiệp hơn"

Đối với người dùng doanh nghiệp và người không phải kỹ sư thường xuyên sử dụng Claude.ai hoặc ứng dụng desktop, những thay đổi của Opus 4.7 sẽ thể hiện như sau.

Thay đổi hành vi (những điều cần viết lại prompt)

Liệt kê từ phần 'Behavior changes' chính thức của Anthropic:

1. Tuân thủ chỉ dẫn theo nghĩa đen hơn: Claude trước đây có xu hướng "ngầm áp dụng chỉ dẫn cho một mục sang các mục khác", nhưng Opus 4.7 chỉ làm đúng những gì được nói. Ví dụ, nếu bạn chỉ dẫn "Chuyển comment của code này sang tiếng Anh", nó sẽ không đổi tên biến trừ khi bạn nói rõ.

2. Tự động điều chỉnh độ dài phản hồi theo độ phức tạp của tác vụ: Tăng cường khả năng hiệu chỉnh — trả lời ngắn gọn với câu hỏi đơn giản, trả lời dài hơn với câu hỏi phức tạp. Giảm xu hướng trả lời với độ dài cố định.

3. Giảm số lần gọi công cụ: Mặc định sẽ cố gắng xử lý bằng suy luận nhiều hơn. Nếu cần tìm kiếm web, nên chỉ dẫn rõ ràng.

4. Giọng điệu trực tiếp và quyết đoán hơn: So với "phong cách ấm áp của Claude Opus 4.6", cách diễn đạt trực tiếp và bày tỏ ý kiến hơn. Emoji giảm đi, cách diễn đạt mệnh lệnh như "Guard against nil" tăng lên. CodeRabbit đưa ra đánh giá định lượng là "77,6% tỷ lệ quyết đoán, 16,5% tỷ lệ dè dặt".

5. Báo cáo tiến độ thường xuyên hơn trong các tác vụ dài: Trạng thái trung gian như "Đang thực hiện X" hay "Sẽ xử lý Y còn lại" được chèn vào một cách tự nhiên.

6. Mặc định không tạo sub-agent: Phiên bản cũ có xu hướng tự động bắt đầu xử lý song song, nhưng Opus 4.7 thận trọng hơn. Nếu muốn song song hóa, cần chỉ dẫn rõ ràng.

CEO Aj Orbach (công ty xây dựng dashboard) đánh giá: "Khả năng thiết kế của Opus 4.7 đối với UI giàu dữ liệu đạt chất lượng mà tôi thực sự có thể ship." Trong giới designer Silicon Valley, điều này đang được bàn luận trong bối cảnh "AI bắt đầu có 'taste' (thẩm mỹ)".

Mẹo sử dụng (dành cho người không phải kỹ sư)

  • "Chỉ dẫn đủ rõ ràng": Đừng kỳ vọng ngầm định — hãy nêu rõ độ dài, định dạng và giọng điệu mong muốn ngay trong prompt đầu tiên.
  • Chú ý đến mức độ hiệu quả với các tác vụ dài: Mức độ hiệu quả cũng được hiển thị cho người dùng trên giao diện Claude.ai — nên dùng medium cho tác vụ đơn giản, high cho các tác vụ tư duy quan trọng, và xhigh cho lập trình hoặc phân tích khó.
  • Chú ý đến độ phân giải của ảnh chụp màn hình: Nhờ hỗ trợ độ phân giải cao, ảnh chụp màn hình từ điện thoại và hình ảnh đồ thị sắc nét giờ đây có thể được đọc chính xác hơn. Độ chính xác của các tác vụ đọc số liệu trong bảng hay trục biểu đồ đã được cải thiện đáng kể.


"Mẹo và thủ thuật" chỉ kỹ sư mới biết — Những kỹ thuật được cộng đồng khám phá

Từ Hacker News (47793411), chuỗi tweet của Boris Cherny, bài kiểm thử 6 giờ trên Dev.to, và các báo cáo từ đối tác CodeRabbit/Warp/Vercel/Cursor, chúng ta tổng hợp những mẹo mà cộng đồng kỹ thuật đã khám phá ra.

Mẹo 1: Dùng xhigh thường xuyên, coi max là ngoại lệ

Anthropic chính thức tuyên bố: "Chỉ sử dụng max cho những vấn đề thực sự khó. Với các tác vụ chạy lâu, nó gây phản tác dụng do suy nghĩ quá mức." Nhiều kỹ sư ở Silicon Valley chia sẻ quan điểm: "Nếu xhigh của Opus 4.7 vẫn bị mắc kẹt, hãy xem lại prompt. Việc nâng lên max ít khi giải quyết được vấn đề."

Mẹo 2: Sử dụng plan mode trước tiên

Boris Cherny đã nhất quán chia sẻ từ thời Opus 4.5: "Gần như luôn bắt đầu với plan mode là mẹo lớn nhất," và nguyên tắc này vẫn không thay đổi với Opus 4.7. Khi đã thống nhất về kế hoạch chi tiết trước khi bắt tay vào triển khai, tính năng "tuân theo hướng dẫn theo nghĩa đen hơn" của Opus 4.7 sẽ trở thành lợi thế lớn nhất.

Mẹo 3: Loại bỏ scaffolding (giàn giáo) truyền thống

Tài liệu Opus 4.7 ghi rõ: "Nếu prompt hiện có chứa các scaffolding mang tính sửa chữa như double-check the slide layout before returning, hãy loại bỏ chúng và thiết lập lại baseline." Vì model hiện tự thực hiện kiểm tra bản thân, các câu lệnh phòng thủ dành cho thế hệ cũ lại gây ra sự dư thừa và sửa đổi quá mức.

Mẹo 4: Khôi phục thinking summary trong Claude Code

Theo mặc định, nội dung suy nghĩ bị ẩn, nhưng người dùng Claude Code có thể khôi phục bằng cài đặt showThinkingSummaries: true. Nếu sử dụng API trực tiếp, thêm "display": "summarized" vào request.

Mẹo 5: Kiểm soát chi phí với context 1M

Biến môi trường CLAUDE_CODE_DISABLE_1M_CONTEXT=1 cho phép vô hiệu hóa cửa sổ context 1M token để giảm chi phí. Hữu ích trong các tình huống không cần xử lý repository lớn.

Mẹo 6: Mental model "ủy quyền cho kỹ sư"

Blog chính thức của Anthropic *Best practices for using Claude Opus 4.7 with Claude Code* nêu rõ: "Thay vì hướng dẫn Opus 4.7 từng dòng như một pair programmer, hãy sử dụng nó như cách bạn ủy quyền cho một kỹ sư có năng lực." Truyền đạt đầy đủ ý định, ràng buộc, tiêu chí chấp nhận và vị trí các file liên quan ngay từ lượt đầu tiên sẽ phát huy tối đa tính tự chủ của Opus 4.7.

Mẹo 7: Kết hợp prompt cache với Sonnet

Theo phân tích của Finout: "Đòn bẩy lớn nhất để kiểm soát chi phí Opus là prompt cache (giảm tới 90%)." Hơn nữa, "với nhiều team, việc chuyển một nửa lượng traffic sang Sonnet 4.6 sẽ hợp lý hơn." Số liệu ước tính cho thấy workload RAG tốn $652/tháng có thể giảm xuống còn $392 với Sonnet 4.6.

Mẹo 8: Task budget chỉ dành cho closed-ended task

Anthropic chính thức khẳng định: "Không đặt task_budget cho các tác vụ agent mở (open-ended) nơi chất lượng quan trọng hơn tốc độ." Chỉ nên áp dụng hiệu quả cho các closed-ended task có phạm vi rõ ràng như "hoàn thành review 100 file" hay "hoàn thành kế hoạch refactoring."

Mẹo 9: Chạy A/B test một phần với 5-10% traffic

Hướng dẫn dành cho developer của NxCode khuyến nghị mạnh mẽ "chạy A/B test với 5-10% traffic trước khi triển khai toàn diện trên production." Do có nhiều thay đổi yêu cầu điều chỉnh lại prompt hiện có—như tokenizer tăng 1,35 lần hay việc tuân theo hướng dẫn chặt chẽ hơn—nên triển khai theo giai đoạn đã trở thành quy trình chuẩn để giảm thiểu rủi ro.


Dữ liệu đo thực tế từ các doanh nghiệp đối tác

Từ blog chính thức của Anthropic và các thông báo của từng công ty, dưới đây là tổng hợp dữ liệu định lượng từ các doanh nghiệp áp dụng sớm.

  • CodeRabbit: "Mô hình sắc bén nhất", cải thiện recall hơn 10%, cải thiện tương đối 24% trong phát hiện lỗi
  • Warp: "Giải quyết được lỗi concurrency mà Opus 4.6 không giải quyết được", "철저하게 đo lường được"
  • Factory Droids: Tỷ lệ thành công tác vụ tăng 10-15%, giảm lỗi gọi công cụ, "không dừng lại nửa chừng"
  • Cursor: CursorBench từ 58% → 70% (cải thiện 12 điểm)
  • Vercel: "Ấn tượng với one-shot coding", "hành vi mới thực hiện chứng minh trước cho code hệ thống"
  • Box (Yashodha Bhavnani, Giám đốc AI): Giảm 56% lượt gọi mô hình, giảm 50% lượt gọi công cụ, tăng tốc phản hồi 24%, giảm 30% AI Units
  • Notion: "Notion Agent cảm giác như một thành viên nhóm thực sự"
  • Rakuten: Tỷ lệ giải quyết tác vụ thực tế tăng gấp 3 lần, đạt mức tăng hai chữ số về Code Quality và Test Quality
  • Hebbia: Cải thiện ra quyết định tác nhân trong RAG, tạo slide và tạo tài liệu

Các con số của Box đặc biệt có ý nghĩa. Việc đạt được hiệu suất tương đương trong khi giảm hơn một nửa lượt gọi mô hình đồng nghĩa với việc, từ góc độ TCO (Tổng chi phí sở hữu) doanh nghiệp, có thể kỳ vọng hiệu quả kinh tế vượt qua mức tăng tokenizer 1,35 lần.


Phản ứng của các VC Silicon Valley — "Liệu 800 tỷ có được xem là tấm vé vào cửa để trở thành nhà vô địch AI, hay chỉ là sự điên rồ?"

Việc phát hành Opus 4.7 cũng là một sự kiện đánh giá quan trọng đối với cộng đồng VC.

Ý nghĩa của đề nghị định giá $800 tỷ

Theo các báo cáo từ Bloomberg, Yahoo Finance và GuruFocus, song song với việc phát hành Opus 4.7, Anthropic đã nhận được nhiều đề nghị đầu tư từ các VC với mức định giá $800 tỷ (khoảng 127,2 nghìn tỷ yên). Tốc độ tăng trưởng hơn gấp đôi chỉ trong 2 tháng kể từ vòng Series G vào tháng 2 năm 2026 (định giá $380 tỷ, tương đương khoảng 60,42 nghìn tỷ yên) là điều cực kỳ hiếm có trong lịch sử công nghệ. Trên thị trường thứ cấp Caplight, mức giá giao dịch thực tế là $688 tỷ (khoảng 109,39 nghìn tỷ yên), ghi nhận mức tăng 75% trong vòng 3 tháng.

Đằng sau những con số này là thành tích ARR $30 tỷ (khoảng 4,77 nghìn tỷ yên) của công ty. InvestorPlace đánh giá đây là "tốc độ tăng trưởng doanh thu 10.000% so với năm trước" và xếp Anthropic vào vị trí "ứng cử viên IPO lớn nhất năm 2026".

Góc nhìn thận trọng của Altimeter

Ông Brad Gerstner của Altimeter Capital đã phát biểu vào khoảng ngày 16 tháng 4 rằng "FUD nhắm vào OpenAI đã đạt đỉnh" và "việc loại bỏ OpenAI là điều ngu ngốc", đồng thời cảnh báo về cái nhìn tập trung một chiều vào Anthropic. Ông cho rằng "thị trường AI không phải trò chơi tổng bằng không, có đủ chỗ cho nhiều người chiến thắng", và bày tỏ kỳ vọng rằng mô hình Spud (chưa công bố) của OpenAI "có thể sánh ngang với Mythos".

Phần lớn các VC ở Silicon Valley coi việc phát hành Opus 4.7 là "bằng chứng xác nhận đà tăng trưởng của Anthropic", nhưng vẫn thận trọng trong việc chấp nhận mức định giá $800 tỷ. Bản thân Anthropic cũng đang "tạm thời" tạm hoãn các đề nghị, và mức định giá được hiểu là đang chờ đợi "sự tăng trưởng kinh doanh hơn nữa trước IPO".

Điều mà cuộc khảo sát CIO của a16z cho thấy

Trong cuộc khảo sát CIO do a16z thực hiện, wallet share (tỷ lệ ngân sách AI) của OpenAI vẫn chiếm đa số với 56%. Tuy nhiên, Anthropic và Gemini đang dần xâm chiếm thị phần này, và có dự báo rằng sự dịch chuyển đó sẽ tăng tốc vào năm 2026. Phân tích chủ đạo cho rằng cấu trúc phân chia thị trường cơ bản vẫn được duy trì ngay cả sau khi phát hành Opus 4.7: "Anthropic thắng ở phân khúc nhà phát triển và nhà văn coi trọng độ chính xác và năng lực lập trình, trong khi OpenAI và Google nắm giữ quy mô người tiêu dùng và sức phân phối".

Tác động lan rộng đến các cổ phiếu liên quan

Ngay sau khi phát hành Opus 4.7, thị trường chứng khoán chứng kiến Adobe, Figma và Wix mỗi công ty giảm hơn 2%. Điều này một phần do ảnh hưởng của các tin tức rò rỉ ngày hôm trước đã được phản ánh vào giá cổ phiếu, nhưng cũng cho thấy kịch bản "Anthropic chuyển đổi thành AI studio toàn ngăn xếp cùng với công cụ thiết kế AI 'Project Prism'" đang trở thành yếu tố gây lo ngại cho các nhà đầu tư. S&P 500 Software & Services Index đã giảm khoảng 26% kể từ đầu năm 2026, với những lo ngại cơ cấu về SaaS truyền thống đang đè nặng lên toàn bộ lĩnh vực này.


Phân tích quan điểm của các tờ báo truyền thông

  • VentureBeat: "Claude Opus 4.7 giành lại vị trí LLM công khai mạnh nhất với khoảng cách sít sao" — đánh giá rõ ràng chiến thắng kỹ thuật
  • Axios: "Thừa nhận chưa đạt đến Mythos chưa được công bố" — nhấn mạnh thông điệp tự kiềm chế của Anthropic
  • CNBC: "Mô hình AI ít rủi ro hơn Mythos" — đưa tin chủ yếu tập trung vào cân bằng an toàn × thương mại
  • Gizmodo: "Anthropic ra mắt Opus 4.7 để nhắc mọi người nhớ Mythos ấn tượng đến mức nào" — bình luận mang tính châm biếm
  • TheNextWeb: "Vượt qua GPT-5.4 và Gemini 3.1 Pro trên SWE-bench và suy luận tác nhân" — nhấn mạnh ưu thế benchmark
  • The Decoder: "Bước nhảy vọt trong lập trình và cắt giảm có chủ đích năng lực tấn công mạng" — góc nhìn bảo mật
  • Help Net Security: "Tích hợp biện pháp bảo vệ an ninh mạng tự động" — giải thích thực tiễn hướng đến ngành bảo mật
  • LessWrong: "Opus 4.7 có thể chỉ là bàn đạp để làm nổi bật sự hiện diện của Mythos" — nhận xét sắc bén từ cộng đồng an toàn AI
  • 9to5Mac: "Tập trung vào kỹ thuật phần mềm tiên tiến" — góc nhìn từ hệ sinh thái Apple
  • TechCrunch: "Nhận đề nghị định giá $800B+ từ VC, Anthropic tạm hoãn" — bối cảnh huy động vốn
  • Bloomberg: "Thu hút đề nghị từ nhà đầu tư với mức định giá $800B" — góc nhìn nhà đầu tư
  • PYMNTS.com: "Công cụ thiết kế của Anthropic tiệm cận Adobe và Figma" — góc nhìn từ truyền thông tài chính

Nhìn chung, các phương tiện truyền thông chuyên về công nghệ đánh giá tích cực những cải tiến kỹ thuật, đồng thời chú ý đến định vị tự hạn chế "chưa đạt đến Mythos". Truyền thông tài chính và đầu tư có xu hướng tập trung vào mức định giá $800B và triển vọng IPO, thảo luận về kịch bản chuyển đổi cơ cấu sang "công ty AI toàn diện" (full-stack AI company) ở Thung lũng Silicon.


Tâm sự thật lòng của các kỹ sư được ghi nhận trên Hacker News

Trong luồng thảo luận Hacker News 47793411, các luận điểm sau đây đang được cộng đồng kỹ thuật tranh luận sôi nổi.

1. Sự thiếu minh bạch của Adaptive Thinking: Có nhiều báo cáo về việc "không suy nghĩ khi đáng ra phải suy nghĩ". Sự bất mãn về việc "không thể vô hiệu hóa Extended Thinking" vẫn còn rất sâu sắc.

2. Ẩn nội dung suy nghĩ: Có những chỉ trích rằng "Dù đang dùng API, tại sao chain-of-thought lại bị ẩn đi? Điều này có phải là vi phạm cam kết minh bạch ban đầu của Anthropic không?"

3. Chia sẻ các giải pháp thay thế: Các mẹo như "display": "summarized", CLAUDE_CODE_DISABLE_1M_CONTEXT=1, /effort xhigh được đăng tải, và những kiến thức không có trong tài liệu chính thức đang được cộng đồng chia sẻ với nhau.

4. Báo cáo về lỗi logic: Các trường hợp thất bại cụ thể như "được khuyên đi bộ đến cơ sở rửa xe" cũng được chia sẻ, và sự lo ngại về "khoảng cách giữa điểm benchmark và cảm nhận thực tế" đã được bày tỏ.

5. Giả thuyết về biện pháp chống chưng cất từ đối thủ cạnh tranh: Suy đoán rằng "việc ẩn quá trình suy luận có phải là biện pháp bảo vệ sở hữu trí tuệ nhằm ngăn chặn việc chưng cất (distillation) bởi các mô hình cạnh tranh không?" đang nhận được sự ủng hộ mạnh mẽ.


Lộ trình sắp tới — Khi nào, cái gì sẽ hoạt động

Dựa trên các thông báo chính thức của Anthropic và nhiều nguồn tin tức, dưới đây là tổng hợp các mốc quan trọng sắp tới.

Ngắn hạn (tháng 4–5/2026)

  • 30 tháng 4: Kết thúc giá khuyến mãi 7,5× của GitHub Copilot. Sau đó có khả năng áp dụng giá phạt hoặc điều chỉnh lại
  • Đầu tháng 5: Task Budgets có thể chuyển từ beta công khai sang phát hành chính thức (theo gợi ý từ nhân viên Anthropic)
  • Trong tháng 5: Đợt phê duyệt đầu tiên của Cyber Verification Program bắt đầu được phân phối
  • Tháng 5: Khởi động chính thức Project Glasswing, triển khai đối tác Mythos Preview được đẩy mạnh

Trung hạn (tháng 6–9/2026)

  • Từ tháng 6: Ra mắt Sonnet 4.8 (tên mã đã được xác nhận qua rò rỉ npm). Được kỳ vọng là phiên bản tối ưu chi phí của Opus 4.7
  • Từ tháng 7: Triển khai toàn diện Claude Managed Agents dựa trên Opus 4.7 và công bố kết quả khách hàng doanh nghiệp
  • Cuối tháng 8: Khả năng Anthropic nộp hồ sơ S-1

Dài hạn (từ tháng 10/2026 trở đi)

  • Tháng 10: Anthropic niêm yết trên NASDAQ (Goldman Sachs, JPMorgan, Morgan Stanley là các ứng viên bảo lãnh phát hành chính)
  • Q4: Thông báo nghiên cứu hướng tới Opus 4.8 hoặc Opus 5.0 (khả năng chuyển một số năng lực của Mythos Preview sang mô hình công khai)

Dòng thời gian cho tầm nhìn "quốc gia thiên tài trong trung tâm dữ liệu" mà CEO Dario Amodei liên tục đề cập là giai đoạn 2026–2027. Opus 4.7 được định vị là "flagship thương mại", đóng vai trò cầu nối dẫn đến Mythos.


Kết luận — Opus 4.7 là một bản đại tu mang vỏ bọc "phiên bản nhỏ"

Claude Opus 4.7, dù được ngụy trang như một bản nâng cấp nhỏ "tăng 0.1 số phiên bản", nhưng thực chất chứa đựng những thay đổi cực kỳ lớn từ góc độ kỹ thuật: phá vỡ tương thích API, thay đổi tokenizer, làm mới kiến trúc suy luận (bắt buộc Adaptive Thinking), tăng gấp 3 khả năng nhận diện hình ảnh, cấp độ suy luận mới xhigh, tham số mới task_budget và nhiều hơn nữa.

Đối với các kỹ sư công nghệ ở Silicon Valley, bản phát hành này đặt ra ba thách thức chính:

1. Chi phí di chuyển: Do phá vỡ tương thích API, cần phải tái cấu trúc codebase hiện có. Đặc biệt là loại bỏ sự phụ thuộc vào temperature, top_p, xóa bỏ Extended Thinking, và opt-in hóa việc hiển thị quá trình suy luận.

2. Đánh giá lại chi phí: Thiết kế lại việc sử dụng prompt cache và kết hợp với Sonnet, dựa trên "chi phí tăng ẩn" từ tokenizer tăng 1,35× và GitHub Copilot 7,5× multiplier.

3. Tinh chỉnh lại prompt: Làm rõ ràng hơn để phù hợp với "tuân theo chỉ dẫn theo nghĩa đen hơn", loại bỏ scaffolding cũ, và thiết kế prompt với tiền đề mặc định xhigh.

Mặt khác, dữ liệu định lượng từ các đối tác áp dụng sớm như CodeRabbit, Warp, Cursor, Box, Notion, Rakuten xác nhận rằng Opus 4.7 không chỉ đơn thuần là cải thiện điểm số — mà là một trong số ít bản nâng cấp mô hình có thể đồng thời đạt được cải thiện chất lượng thực chất, giảm chi phí và nâng cao trải nghiệm nhà phát triển trong quy trình làm việc thực tế.

Có quan điểm cho rằng "Opus 4.7 chỉ là bàn đạp cho Mythos", nhưng trong thực tế kỹ thuật hàng ngày tại Silicon Valley, đây sẽ là flagship tạm thời thống trị. Vấn đề không phải là "dùng hay không dùng" mà là "khi nào, bằng cách nào, và cùng với thiết kế lại như thế nào để tích hợp vào production" — chất lượng của quyết định đó sẽ quyết định sức cạnh tranh của các sản phẩm AI-native trong nửa cuối năm 2026.


Nguồn