DeepMind, OpenAI đến Anthropic. Những bài báo quý giá đã thay đổi lịch sử AI

Từ Transformer năm 2017 đến phân tích nội bộ Claude năm 2024, chúng ta sẽ đọc xuyên suốt 10 bài báo đã tạo nên khung xương của AI hiện đại, dưới góc nhìn của một nhà nghiên cứu AI tại Silicon Valley. Với cấu trúc ba hồi: "Kiến trúc và Học tăng cường" của Google/DeepMind, "Quy mô và Sự nổi hiện" của OpenAI, và "An toàn và Khả năng diễn giải" của Anthropic — mỗi bài báo sẽ được giải thích một cách dễ hiểu nhất có thể kèm theo các ví dụ cụ thể, và cuối cùng sẽ nhìn lại toàn bộ dòng chảy cùng triển vọng tương lai. Tính đến tháng 6 năm 2026, các công ty do chính những nhà nghiên cứu đã viết nên các bài báo này dẫn dắt — đứng đầu là Anthropic (định giá khoảng 965 tỷ đô la, tương đương khoảng 154 nghìn tỷ yên) và OpenAI (khoảng 852 tỷ đô la, tương đương khoảng 136 nghìn tỷ yên) —

Lời mở đầu — Đọc AI hiện đại như một "câu chuyện ba màn" được vẽ nên bởi 10 bài nghiên cứu

Khi làm việc trong lĩnh vực nghiên cứu AI tại Silicon Valley, người ta đôi khi bị ám bởi một cảm giác kỳ lạ: hầu hết những công nghệ mà chúng ta đang sử dụng như điều hiển nhiên đều có thể truy nguồn về chỉ khoảng mười bài báo. Chatbot, dự đoán cấu trúc protein, chương trình đánh bại con người trong cờ vây, hay các mô hình suy luận "nghĩ rồi mới trả lời" — tất cả đều được xây dựng trên một số ít ý tưởng mang tính quyết định. Mười bài báo được giới thiệu trong bài viết này chính là những "viên ngọc quý" đó.

Khi đọc những bài báo này theo ba hồi lớn, câu chuyện về AI hiện đại sẽ hiện ra rõ ràng hơn nhiều. Hồi thứ nhất là Google và DeepMind. Bài báo "Attention Is All You Need" mà Google công bố năm 2017 đã khai sinh ra kiến trúc "Transformer" — nền tảng mà mọi AI tạo sinh ngày nay đều dựa vào. Cũng trong năm 2017, DeepMind ra mắt "AlphaGo Zero" — một hệ thống tự học cờ vây mà không cần ván cờ của con người — và đến năm 2021 là "AlphaFold", giải quyết bài toán 50 năm về dự đoán cấu trúc protein. Chủ đề ở đây là kiến trúc mới, "tự cải thiện" thông qua học tăng cường, và ứng dụng vào khoa học.

Hồi thứ hai là OpenAI. OpenAI đã hệ thống hóa thành quy luật một giả thuyết đơn giản nhưng lúc đó chưa ai thực sự tin — "càng lớn càng thông minh" — qua bài báo "Scaling Laws" năm 2020, rồi chứng minh điều đó qua "GPT-3" cùng năm. Tại đây, thế giới được biết đến một hiện tượng kỳ lạ gọi là "học trong ngữ cảnh" (in-context learning): chỉ cần cho mô hình xem vài ví dụ là nó có thể xử lý được tác vụ mới. Và đến năm 2024, OpenAI ra mắt mô hình suy luận o1 — "suy nghĩ trước khi trả lời" — mở rộng trục scaling từ thời điểm huấn luyện sang thời điểm suy luận.

Hồi thứ ba là Anthropic. Anthropic được thành lập năm 2021 bởi những nhà nghiên cứu rời khỏi OpenAI với ngọn cờ "trước khi nâng cao năng lực, hãy hiểu và làm cho mô hình an toàn trước." Họ đã đưa ra thế giới: "mechanistic interpretability" (khả năng diễn giải cơ học) — mổ xẻ nội tâm Transformer như các mạch điện; "Constitutional AI" — vô hại hóa mô hình bằng phản hồi từ chính AI; "many-shot learning" — mở rộng học trong ngữ cảnh lên hàng trăm ví dụ; và "Scaling Monosemanticity" — trích xuất các "đặc trưng" mà con người có thể hiểu được từ Claude trong môi trường thực tế. Câu chuyện về năng lực quay trở lại thành câu chuyện về sự hiểu biết và kiểm soát.

Mục tiêu của bài viết này không chỉ đơn thuần là tóm tắt lần lượt từng bài báo. Điều tôi muốn làm là, từ góc nhìn bên trong, kết nối lại cách mười bài báo này liên kết với nhau, trích dẫn lẫn nhau, và tạo ra những làn sóng dịch chuyển nhân sự cùng những xung đột tư tưởng như thế nào trong cộng đồng nghiên cứu tại Silicon Valley. Người đọc chú tâm sẽ nhận ra hai sợi chỉ đỏ xuyên suốt cả ba hồi. Một là "học tăng cường" — sợi chỉ kéo dài từ tự đấu trong AlphaGo Zero, qua RLAIF của Constitutional AI, đến huấn luyện suy luận của o1. Hai là "học trong ngữ cảnh" — được phát hiện trong GPT-3, cơ chế được làm sáng tỏ qua các mạch Transformer, mở rộng bởi many-shot learning, và được trực quan hóa trong Monosemanticity. Vậy, hãy bắt đầu từ màn mở đầu của hồi thứ nhất.

Attention Is All You Need (2017, Google) — Nền tảng mà tất cả các AI tạo sinh đều dựa trên

Trước tiên, hãy bắt đầu với bài báo được trích dẫn nhiều nhất trong AI hiện đại. "Attention Is All You Need" do 8 nhà nghiên cứu của Google Brain công bố năm 2017 đã loại bỏ "mạng nơ-ron hồi quy (RNN)" vốn là phương pháp chủ đạo trong dịch máy và các lĩnh vực khác, đồng thời giới thiệu một thiết kế mới gọi là Transformer — xử lý văn bản chỉ bằng "cơ chế chú ý (attention)". Dịch thẳng tên bài là "Chú ý là tất cả". Lúc bấy giờ trông có vẻ như một câu đùa khiêu khích, nhưng ngày nay đó đã là sự thật theo đúng nghĩa đen.

Hãy xem xét một ví dụ cụ thể. Để máy tính hiểu câu "Anh ấy câu cá ở bờ sông (bank)", máy cần phán đoán xem "bank" là ngân hàng hay bờ sông, dựa vào từ "câu cá" ở xa trong câu. RNN truyền thống đọc từng từ từ trái sang phải theo thứ tự, nên khó nắm bắt mối quan hệ giữa các từ ở xa nhau, và vì xử lý tuần tự nên không thể tính toán song song. Cơ chế tự chú ý của Transformer cho phép tất cả các từ trong câu cùng lúc "nhìn bao quát" lẫn nhau, tính toán trực tiếp trọng số chú ý cho từng từ. Từ "câu cá" nhìn vào "bank" rồi phán đoán "à, đây là bờ sông" và gán trọng số tương ứng. Quá trình này được thực hiện đồng thời từ nhiều góc nhìn (chú ý đa đầu — multi-head attention), còn thông tin về thứ tự từ được bổ sung riêng dưới dạng "mã hóa vị trí (positional encoding)".

Thiết kế này mang hai hàm ý cách mạng. Thứ nhất, vì toàn bộ câu có thể được xử lý song song một lần, nên có thể tận dụng tối đa sức mạnh của GPU. Mô hình lớn trong bài báo chỉ cần huấn luyện 3,5 ngày trên 8 GPU NVIDIA P100 đã đạt điểm BLEU 28,4 trên bộ chuẩn WMT 2014 cho dịch Anh-Đức và 41,8 cho dịch Anh-Pháp — hiệu suất cao nhất lúc bấy giờ — với lượng tính toán ít hơn rất nhiều. Thứ hai, chính tính song song này đã cho phép về mặt vật lý chiến lược mở rộng quy mô "cứ làm lớn thêm" trong thời gian sau. Nếu không có Transformer, GPT-3 và Claude cũng không thể tồn tại.

Điều thú vị khi nhìn từ bên trong Thung lũng Silicon là cuộc sống sau đó của 8 tác giả bài báo này. Tất cả họ đều rời Google và trở thành những doanh nhân, nhà nghiên cứu giữ vai trò cốt lõi trong ngành AI hiện đại. Noam Shazeer đồng sáng lập Character.AI — một AI hội thoại (sau đó trở về Google dẫn dắt Gemini), Aidan Gomez là CEO của Cohere, Ashish Vaswani và Niki Parmar đồng sáng lập Essential AI, Llion Jones đồng sáng lập Sakana AI, Jakob Uszkoreit đồng sáng lập Inceptive chuyên thiết kế mRNA, Illia Polosukhin chuyển sang NEAR Protocol trong lĩnh vực blockchain, còn Łukasz Kaiser chuyển sang OpenAI. Danh sách tác giả của một bài báo đã trở thành "sơ đồ gia phả" của các startup AI thập niên 2020. Ngoài ra, Google Brain và DeepMind — hai tổ chức đã tạo ra bài báo này — đã sáp nhập vào tháng 4 năm 2023, và hiện nay là một tổ chức duy nhất mang tên "Google DeepMind". Những công trình của DeepMind trong chương tiếp theo cũng là câu chuyện dưới cùng một mái nhà đó.

Mastering the game of Go without human knowledge (2017, DeepMind) — "Thiên tài từ trang giấy trắng" không bắt chước con người chút nào

Vào tháng 10 năm 2017, DeepMind công bố trên tạp chí Nature bài báo "Làm chủ trò chơi Go mà không cần kiến thức của con người (Mastering the game of Go without human knowledge)". Nhân vật xuất hiện ở đây, AlphaGo Zero, là người kế thừa của AlphaGo thế hệ đầu tiên đã đánh bại kỳ thủ hàng đầu thế giới Lee Sedol vào năm trước, nhưng có một điểm khác biệt quyết định. Trong khi AlphaGo thế hệ đầu đã học một lượng lớn ván cờ của các kỳ thủ chuyên nghiệp người, AlphaGo Zero chỉ được trao cho luật chơi cờ vây, và hoàn toàn không sử dụng dữ liệu đối cục của con người, chỉ thông qua việc tự đấu với chính mình mà trở nên mạnh hơn.

Để hiểu điều này kỳ lạ đến mức nào, hãy thử nghĩ bằng một ví dụ minh họa. Một người không được ai dạy, không xem bất kỳ ván cờ nào, chỉ được trao bàn cờ, quân cờ và cuốn sách luật, rồi nhốt mình trong phòng tự đánh với bản thân liên tục, và khi bước ra vài ngày sau thì đánh bại kỳ thủ mạnh nhất lịch sử với tỉ số 100 thắng 0 thua — đó chính xác là những gì AlphaGo Zero đã làm. Bắt đầu từ trạng thái "trang giấy trắng" ban đầu chỉ đặt quân ngẫu nhiên, chỉ dùng những kinh nghiệm tự tạo ra qua việc tự đấu làm thầy, dần dần tự ghi đè lên chính mình. Theo bài báo, chỉ sau 3 ngày từ khi bắt đầu học, nó đã vượt qua phiên bản đánh bại Lee Sedol (AlphaGo Lee) với tỉ số 100-0, và sau 40 ngày đạt đến Elo ước tính 5.185, vượt trội tất cả các phiên bản trước đó.

Cốt lõi kỹ thuật nằm ở sự kết hợp tuyệt vời giữa học tăng cường và tìm kiếm. AlphaGo Zero dự đoán "xác suất nước đi tiếp theo" và "tỉ lệ thắng ở thế cờ này" bằng một mạng nơ-ron duy nhất. Và mỗi ván cờ, nó thực hiện việc đọc trước gọi là Tìm kiếm Cây Monte Carlo (MCTS), rồi dùng kết quả đọc trước đó làm "mẫu mực tốt hơn" để huấn luyện mạng. Khi mạng trở nên mạnh hơn, việc tìm kiếm cũng sắc bén hơn, và tìm kiếm sắc bén lại tạo ra dữ liệu huấn luyện tốt hơn — vòng lặp tự tăng cường này đã tạo ra sức mạnh siêu phàm mà không cần đến giàn giáo bên ngoài là kiến thức của con người. Đáng chú ý là AlphaGo Zero đã tự tái khám phá joseki (những hình thế tốt mà con người mất hàng trăm năm để tìm ra), và thậm chí còn sáng tạo ra những joseki mới mà con người chưa biết.

Từ góc nhìn của Silicon Valley, tầm bắn thực sự của bài báo này không phải là cờ vây. Đó là bằng chứng cho nguyên lý "miễn là có thể định nghĩa được phần thưởng, chỉ cần học tăng cường thông qua tự đấu là có thể vượt qua con người". DeepMind đã tổng quát hóa phương pháp này, phát triển thành AlphaZero chinh phục cờ vây, cờ vua và shogi bằng cùng một thuật toán, rồi tiếp tục phát triển thành MuZero học mà không cần đến cả luật chơi. Và tư tưởng "siêu việt thông qua tự cải thiện" này xuất hiện lại nhiều lần trong nửa sau bài viết này dưới những hình thức khác nhau. Trong Constitutional AI của Anthropic — nơi AI tự tạo ra phản hồi để vô hại hóa bản thân — cũng như trong o1 của OpenAI — nơi tự tạo ra chuỗi suy luận và tinh chỉnh bằng phần thưởng — đều mang gen di truyền của AlphaGo Zero. Học tăng cường chính là phục bút đầu tiên xuyên suốt bài viết này.

Dự đoán cấu trúc protein với độ chính xác cao bằng AlphaFold (2021, DeepMind) — "Bài toán khó 50 năm của sinh học" được AI giải quyết

Một cột mốc vàng khác mà DeepMind đã tạo ra là nghiên cứu "Dự đoán cấu trúc protein độ chính xác cao bằng AlphaFold" được công bố trên tạp chí Nature năm 2021. Điều này khác biệt hoàn toàn về ý nghĩa lịch sử so với các trò chơi như cờ vây, bởi vì bài toán khó 50 năm trong sinh học đã được AI giải quyết trực tiếp. Năm 2024, việc Demis Hassabis và John Jumper của DeepMind nhận Giải Nobel Hóa học cho thành tựu này đã nói lên tầm quan trọng của nó (một nửa giải thưởng được trao cho David Baker của Đại học Washington vì đã thiết kế protein mới bằng tính toán).

Vậy bài toán khó ở đây là gì? Protein là một "chuỗi" gồm 20 loại axit amin nối tiếp nhau, nhưng chuỗi đó gấp lại tức thời thành cấu trúc không gian ba chiều phức tạp bên trong tế bào, và "hình dạng" đó chính là thứ quyết định chức năng. Enzyme, kháng thể, cơ bắp — tất cả đều hoạt động nhờ hình dạng. Tuy nhiên, "bài toán gấp protein" — tức là dự đoán cấu trúc không gian cuối cùng từ trình tự axit amin — có số lượng tổ hợp quá lớn đến mức thiên văn, và kể từ khi bài toán này được đề cập trong bối cảnh Giải Nobel năm 1972, nó đã được coi là bài toán chưa giải được lớn nhất trong sinh học suốt nửa thế kỷ. Trước đây, việc xác định một cấu trúc bằng phân tích tinh thể tia X hay các phương pháp tương tự tốn từ vài tháng đến vài năm và chi phí khổng lồ.

Sự đột phá của AlphaFold2 nằm ở mạng nơ-ron mới có tên Evoformer. Mạng này lấy hai nguồn thông tin — "tập hợp các trình tự protein tương tự được tích lũy qua quá trình tiến hóa (căn chỉnh đa trình tự, MSA)" và "bảng quan hệ khoảng cách giữa các axit amin" — rồi tinh chỉnh chúng qua nhiều lần lặp bằng cơ chế chú ý (ở đây cũng vận dụng tư tưởng Transformer từ chương trước), và cuối cùng xuất ra tọa độ ba chiều trong một lần. Điểm mấu chốt là một kỹ thuật hình học: hiệu chỉnh mối quan hệ giữa hai axit amin thông qua tính nhất quán "tam giác" đi qua axit amin thứ ba. Tại cuộc thi dự đoán cấu trúc protein thế giới CASP14 năm 2020, AlphaFold2 đạt điểm GDT trung vị 92.4 — trên thang 100 điểm, gần như không thể phân biệt với cấu trúc thực nghiệm — áp đảo tất cả đối thủ còn lại và được đánh giá là "bài toán về cơ bản đã được giải quyết".

Điều khiến công trình này khác biệt so với các thành tựu kỹ thuật thông thường là tầm ảnh hưởng xã hội của nó về sau. DeepMind đã công bố rộng rãi các cấu trúc được dự đoán, và Cơ sở Dữ liệu Cấu trúc Protein AlphaFold hiện có khoảng 200 triệu cấu trúc — tương đương gần như toàn bộ protein đã biết — được đăng ký, với hơn 2 triệu nhà nghiên cứu tại 190 quốc gia sử dụng. "Tiền đề" của mọi lĩnh vực trong khoa học sự sống đã thay đổi, từ phát triển thuốc, thiết kế enzyme, cho đến nghiên cứu kháng kháng sinh và sốt rét. Là một nhà nghiên cứu tại Silicon Valley, điều tôi muốn nhấn mạnh là AlphaFold đã chứng minh một cách rõ nét nhất rằng "AI không chỉ là đồ chơi thao túng ngôn ngữ, mà còn là công cụ có thể giải quyết những bài toán khoa học tự nhiên mà nhân loại chưa giải được". Việc Hassabis lấy AlphaFold làm điểm khởi đầu để thành lập công ty dược phẩm Isomorphic Labs, rồi năm 2024 phát triển lên AlphaFold 3 — có khả năng dự đoán không chỉ protein mà còn cả phức hợp với DNA, RNA và các phân tử nhỏ — đã nói lên tầm với rộng lớn của nó.

Scaling Laws for Neural Language Models (2020, OpenAI) — Biến "càng lớn càng thông minh" thành quy luật

Từ đây chúng ta chuyển sang màn hai — câu chuyện của OpenAI. Tháng 1 năm 2020, Jared Kaplan và các đồng nghiệp tại OpenAI công bố một bài báo thoạt nhìn có vẻ khô khan nhưng thực chất đã định hình toàn bộ chiến lược AI hiện đại: "Scaling Laws for Neural Language Models" (Các quy luật tỷ lệ cho mô hình ngôn ngữ thần kinh). Nói gọn lại, luận điểm cốt lõi là: "Độ thông minh của mô hình ngôn ngữ (tức độ nhỏ của sai số dự đoán) cải thiện liên tục theo một 'quy luật lũy thừa' đẹp đến bất ngờ, phụ thuộc vào kích thước mô hình, lượng dữ liệu và lượng tính toán."

Điều gì làm cho phát hiện này trở nên đáng kinh ngạc? Thông thường, nghiên cứu và phát triển là một canh bạc — không ai biết điều gì sẽ xảy ra cho đến khi thực sự thử. Nhưng Kaplan và cộng sự đã huấn luyện hơn 200 mô hình với số tham số trải dài qua 7 bậc độ lớn, rồi vẽ hiệu suất lên đồ thị — và nhận ra rằng các điểm dữ liệu xếp thành gần như một đường thẳng (đường thẳng trên đồ thị log-log, tức quy luật lũy thừa). Điều này có nghĩa là: từ kết quả thực nghiệm trên các mô hình nhỏ, người ta có thể dự đoán trước hiệu suất của các mô hình khổng lồ chưa được xây dựng. Giống như dự báo thời tiết — "nếu đầu tư ngần này tài nguyên tính toán, mô hình sẽ thông minh đến mức đó." Điều này cũng trở thành công cụ để biện minh cho các quyết định kinh doanh liên quan đến đầu tư lớn.

Các hàm ý cụ thể cũng rất ấn tượng. Bài báo gợi ý rằng để sử dụng hiệu quả nhất một ngân sách tính toán nhất định, nên ưu tiên tăng kích thước mô hình hơn là tăng dữ liệu (phân bổ tối ưu: số tham số tăng theo lũy thừa khoảng 0,73 của lượng tính toán, còn lượng dữ liệu tăng theo lũy thừa 0,27). Bài báo còn khẳng định rằng "mô hình càng lớn thì học được càng nhiều từ ít dữ liệu hơn (hiệu quả mẫu cao hơn)." Thông điệp "khi nghi ngờ, hãy làm to hơn" này đã thúc đẩy canh cược vào GPT-3 ngay sau đó — mô hình khổng lồ chưa từng có trong lịch sử. GPT-3 ở chương tiếp theo chính là cuộc thử nghiệm thực chứng hoành tráng đầu tiên của quy luật tỷ lệ này.

Tuy nhiên, với tư cách một nhà nghiên cứu trung thực, cần phải thêm một hậu ký quan trọng. Năm 2022, Hoffman và các đồng nghiệp tại DeepMind, qua nghiên cứu mang tên "Chinchilla", đã chỉ ra rằng phân bổ tối ưu của Kaplan và cộng sự là lệch. Với cùng một ngân sách tính toán, cách tối ưu là tăng tham số và dữ liệu theo tỷ lệ gần bằng nhau (mỗi thứ tăng theo khoảng lũy thừa 0,5 của lượng tính toán) — và các mô hình khổng lồ thời đó, kể cả GPT-3, đều "quá lớn nhưng thiếu dữ liệu huấn luyện." Trên thực tế, Chinchilla với 70 tỷ tham số đã vượt trội Gopher với 280 tỷ tham số — lớn gấp 4 lần. Nguyên nhân chính của sự sai lệch, theo phân tích về sau, nằm ở việc Kaplan và cộng sự đã đếm tham số không bao gồm lớp embedding, cũng như cài đặt tốc độ học. Quy luật tỷ lệ không phải là chân lý bất biến — nó đã được hiệu chỉnh và ngày càng chính xác hơn qua nhiều lần sửa đổi. Chính quá trình tự sửa chữa đó, theo tôi, mới là bằng chứng cho sức khỏe của lĩnh vực này.

Language Models are Few-Shot Learners (2020, OpenAI) — Người khổng lồ học bằng cách "chỉ cần xem vài ví dụ"

Lý thuyết về quy luật tỷ lệ đã được minh chứng một cách ngoạn mục trước mắt thế giới qua bài báo GPT-3 công bố năm 2020: "Các mô hình ngôn ngữ là những người học ít mẫu (Language Models are Few-Shot Learners)". Nghiên cứu đoạt giải bài báo xuất sắc nhất tại NeurIPS 2020 này đã chứng minh rằng một mô hình ngôn ngữ khổng lồ với 175 tỷ tham số — lớn hơn 10 lần so với bất kỳ mô hình không thưa nào trước đó — có thể đạt được những năng lực nằm ngoài mọi dự đoán.

Năng lực đó chính là sợi chỉ đỏ thứ hai xuyên suốt bài viết này: học trong ngữ cảnh (in-context learning). Hãy giải thích bằng một ví dụ. Trong học máy thông thường, muốn mô hình dịch được thì cần phải "huấn luyện thêm (tinh chỉnh)" bằng dữ liệu dịch thuật. Nhưng GPT-3 thì khác. Chỉ cần viết vào prompt vài ví dụ như "sea otter → loutre de mer, cheese → fromage", rồi kết thúc bằng "dog →", mô hình sẽ tự điền "chien" mà không cần bất kỳ quá trình huấn luyện bổ sung nào. Không cập nhật trọng số, chỉ đọc ngữ cảnh được cung cấp rồi tự suy ra tại chỗ rằng "à, đây là tác vụ dịch Anh-Pháp". Bài báo đánh giá điều này một cách hệ thống qua ba cấp độ: "zero-shot" — không cho xem ví dụ nào, "one-shot" — cho xem một ví dụ, và "few-shot" — cho xem từ 10 đến 100 ví dụ.

Những gì GPT-3 thể hiện vô cùng đa dạng. Ngoài dịch thuật, hỏi đáp và điền vào chỗ trống, mô hình còn xử lý được cả những tác vụ đòi hỏi "suy luận tức thời" như giải mã từ đảo chữ (anagram), dùng một từ mới vừa được tạo ra trong câu, hay thực hiện phép cộng ba chữ số. Không ai dạy mô hình "phép cộng" một cách tường minh, thế nhưng khi đọc lượng văn bản khổng lồ, nó đã tự hình thành bên trong những quy luật số học. Hiện tượng "khi tăng quy mô, các năng lực chưa từng được huấn luyện bỗng dưng xuất hiện" này — sau này được gọi là sự nổi sinh (emergence) — chính là cú sốc lớn nhất mà GPT-3 mang lại cho cộng đồng nghiên cứu.

Nhìn lại từ góc độ Silicon Valley, GPT-3 còn là bài báo đã xóa nhòa ranh giới giữa "nghiên cứu" và "sản phẩm". Ý tưởng về một API đa năng này đã dẫn thẳng đến ChatGPT, và với việc ra mắt ChatGPT vào cuối năm 2022, AI tạo sinh đã trở thành một hiện tượng của xã hội đại chúng. Đồng thời, GPT-3 để lại hai bài toán cho nửa sau của bài viết này. Thứ nhất, "tại sao học trong ngữ cảnh lại xảy ra, cơ chế bên trong là gì?" — câu trả lời nằm ở nghiên cứu khả năng diễn giải của Anthropic từ chương tiếp theo. Thứ hai, "nếu tăng 'vài ví dụ' của few-shot lên 'vài trăm ví dụ' thì sẽ thế nào?" — điều này dẫn đến chương về học many-shot. GPT-3 vừa là câu trả lời, vừa là một kho chứa đựng những câu hỏi khổng lồ.

Learning to Reason with LLMs (2024, OpenAI) — "Suy nghĩ trước khi trả lời" đã mở ra một trục mở rộng quy mô mới

Là tác phẩm thứ ba của OpenAI, tôi muốn đề cập đến báo cáo kỹ thuật "Learning to Reason with LLMs" về mô hình suy luận o1 được công bố vào tháng 9 năm 2024. Báo cáo này đã bổ sung một trục hoàn toàn mới vào quan niệm thông thường về scaling — vốn cho rằng "mô hình càng lớn, tính toán huấn luyện càng nhiều thì càng thông minh". Cụ thể, đó là trục "càng cho mô hình suy nghĩ lâu trước khi trả lời (tăng tính toán tại thời điểm suy luận) thì càng thông minh".

Hãy xét một ví dụ trực quan. Với một bài toán khó, tỷ lệ trả lời đúng sẽ hoàn toàn khác nhau giữa việc con người trả lời ngay lập tức theo phản xạ và việc dành 10 phút suy nghĩ kỹ lưỡng, viết ra các bước trung gian trên giấy. Các mô hình ngôn ngữ truyền thống, có thể nói, đã trả lời mọi câu hỏi theo phản xạ tức thì. Điều o1 thực hiện là triển khai một "chuỗi suy nghĩ (chain of thought)" dài bên trong trước khi đưa ra câu trả lời — đặt ra giả thuyết, kiểm tra lại, nhận ra sai lầm và thay đổi hướng tiếp cận. Hơn nữa, để dạy cách suy nghĩ này một cách hiệu quả, thay vì bắt chước các mẫu do con người viết, học tăng cường quy mô lớn đã được sử dụng. Mô hình được cho giải bài toán, những suy luận đúng đắn được thưởng điểm, để mô hình tự khám phá cách "suy nghĩ có năng suất (productive)". Ở đây cũng cần chú ý rằng dòng dõi "học tăng cường thông qua tự cải thiện" kế thừa từ AlphaGo Zero đang phát huy tác dụng.

Kết quả thật ấn tượng. Tại AIME 2024 — vòng sơ loại của Kỳ thi Toán học Mỹ — trong khi GPT-4o thế hệ trước chỉ giải được trung bình 12% (1,8 trong 15 câu), o1 đã đạt 74% với một lần trả lời, 83% với đa số phiếu từ 64 lần thử, và lên tới 93% khi lấy mẫu 1.000 lần rồi chọn lọc bằng bộ chấm điểm đã được huấn luyện. Tại Codeforces lập trình thi đấu, o1 lọt vào top 11% (bách phân vị 89), và cũng sánh ngang với chuyên gia trong các bài toán khoa học cấp tiến sĩ. Và đồ thị quan trọng nhất mà bài báo trình bày là mối quan hệ log-tuyến tính: "tăng thời gian suy nghĩ (tính toán suy luận) theo cấp số nhân thì tỷ lệ trả lời đúng tăng tuyến tính". Đây là lần đầu tiên được chứng minh rõ ràng rằng có thể làm mô hình thông minh hơn theo hai trục độc lập: tính toán lúc huấn luyện và tính toán lúc suy luận.

Với tư cách nhà nghiên cứu, tôi muốn nhấn mạnh hai điểm quan trọng của bài báo này. Thứ nhất, trong bối cảnh lo ngại đang lan rộng trong ngành rằng "dữ liệu huấn luyện đang cạn kiệt và scaling đang chạm trần" sau Chinchilla, o1 đã mở ra một dư địa tăng trưởng hoàn toàn mới gọi là "tính toán tại thời điểm suy luận". Điều này đã thay đổi cả logic huy động vốn lẫn nhu cầu về chip bán dẫn. Thứ hai, dòng dõi của o1 được tiếp nối sang các mô hình suy luận như o3 về sau, và tính đến năm 2026, các mô hình hàng đầu của mọi công ty đều được thiết kế dựa trên tiền đề "suy nghĩ". Claude Opus 4.8 của Anthropic và GPT-5.5 của OpenAI được đề cập sau đây đều đang sống trong thế giới "inference-time scaling" này. Những gì OpenAI trong màn thứ hai đã vẽ ra là một bản đồ scaling phong phú hơn — rằng "scale không chỉ có một hướng mà có nhiều trục".

A Mathematical Framework for Transformer Circuits (2021, Anthropic) — Giải mã "hộp đen" như những "mạch điện"

Chúng ta bước vào Hồi thứ ba — câu chuyện về Anthropic. Anthropic được thành lập vào năm 2021 bởi những nhà nghiên cứu từng dẫn dắt GPT-3 và các định luật tỷ lệ tại OpenAI — anh em Dario Amodei và Daniela Amodei, cùng Jared Kaplan, tác giả chính của các định luật tỷ lệ — với triết lý "trước khi tăng năng lực một cách mù quáng, hãy hiểu và làm cho mô hình trở nên an toàn trước đã." Tư tưởng đó được thể hiện thuần túy nhất qua bài báo công bố tháng 12 năm 2021: "A Mathematical Framework for Transformer Circuits" (Khung Toán học cho Mạch Transformer).

Hãy dùng một phép ẩn dụ để giải thích vấn đề mà bài báo đặt ra. Các mô hình ngôn ngữ lớn là những khối gồm hàng trăm tỷ con số — bạn đưa đầu vào, nhận đầu ra, nhưng "điều gì đang xảy ra" bên trong thì không ai biết; đó là một hộp đen khổng lồ. Điều mà tác giả Nelson Elhage và các đồng nghiệp hướng tới là giải mã ngược hộp đen này thành những "mạch (circuit)" mà con người có thể hiểu được — giống như việc dịch ngược một chương trình đã biên dịch để phục hồi mã nguồn. Lĩnh vực này được gọi là khả năng diễn giải cơ học (mechanistic interpretability), và Anthropic đã trở thành người tiên phong trong đó.

Bài báo trước tiên không phân tích các mô hình lớn thực sự, mà thay vào đó phân tích triệt để các mô hình đồ chơi cực kỳ nhỏ — "0 lớp, 1 lớp, 2 lớp" — chỉ có cơ chế chú ý. Góc nhìn được giới thiệu ở đây thật thanh lịch. Bên trong Transformer có một kênh truyền thông chung gọi là "luồng dư (residual stream)", nơi mỗi đầu chú ý đọc thông tin ra và ghi kết quả tính toán trở lại — hoạt động như một "bảng thông báo" bên trong mô hình. Hơn nữa, hoạt động của từng đầu chú ý có thể được phân tách thành hai phần: "mạch quyết định từ nào cần chú ý (mạch QK)" và "mạch quyết định đọc và ghi gì từ nơi được chú ý (mạch OV)." Hộp đen bắt đầu hiện ra như một tổ hợp các bộ phận có thể diễn giải được.

Phát hiện lớn nhất của bài báo là "đầu quy nạp (induction heads)". Đây là mạch xuất hiện lần đầu tiên trong mô hình 2 lớp, hoạt động theo kiểu sao chép-dán: "nếu vừa thấy mẫu 'A thì B', thì khi A xuất hiện tiếp theo, hãy dự đoán B." Thoạt nhìn có vẻ bình thường, nhưng đây chính là ứng viên hàng đầu cho cơ chế đằng sau "học trong ngữ cảnh (in-context learning)" mà GPT-3 đã thể hiện trong chương trước. Thực vậy, trong nghiên cứu tiếp theo năm 2022, Anthropic đã chỉ ra rằng thời điểm các đầu quy nạp hình thành bên trong mô hình trùng khớp với thời điểm khả năng học trong ngữ cảnh xuất hiện. Nói cách khác, chương này là sự hồi đáp cho một phục bút: ở Hồi thứ hai, OpenAI đã "khám phá" một hiện tượng kỳ lạ; ở Hồi thứ ba, Anthropic đã đưa ra "lời giải thích cơ học" cho nó. Bài báo này chính là điểm ngoặt — nơi câu chuyện về năng lực gấp lại thành câu chuyện về sự hiểu biết.

Constitutional AI: Harmlessness from AI Feedback (2022, Anthropic) — Phát minh "Hiến pháp" để AI huấn luyện AI

Tác phẩm tiêu biểu thứ hai của Anthropic là "Constitutional AI: Tính vô hại thông qua phản hồi từ AI", công bố vào tháng 12 năm 2022. Đây là phương pháp huấn luyện tạo nền tảng cho sản phẩm Claude của Anthropic, và đánh dấu một bước chuyển quan trọng cả về mặt thực tiễn lẫn tư tưởng: "Để làm cho AI trở nên an toàn, không cần thiết phải để con người liên tục gán nhãn từng đầu ra có hại một."

Hãy giải thích bối cảnh. Phương pháp an toàn hóa tiêu chuẩn được sử dụng trong ChatGPT và các mô hình khác là "Học tăng cường từ phản hồi con người (RLHF)", trong đó con người thực hiện thủ công hàng chục nghìn phán định về nội dung có hại hay vô hại. Tuy nhiên, phương pháp này tốn kém, và còn tồn tại vấn đề đạo đức khi những người làm việc phải tiếp xúc với lượng lớn nội dung có hại, đồng thời tiêu chí xác định điều gì là có hại cũng thiếu minh bạch. Câu hỏi của Anthropic là: liệu có thể đặt ra trước các tiêu chí dưới dạng một "hiến pháp (constitution)" được ghi rõ ràng, rồi để chính AI tự thực hiện công việc rèn giũa hay không?

Cơ chế gồm hai giai đoạn. Ở giai đoạn đầu (học có giám sát), mô hình được chủ động đặt câu hỏi có hại để tạo ra các câu trả lời nguy hiểm, sau đó chính mô hình đó tự phê bình rằng "câu trả lời vừa rồi có vấn đề theo nguyên tắc ○○ của hiến pháp", rồi viết lại câu trả lời. Mô hình sau đó được tinh chỉnh dựa trên các phản hồi vô hại đã được viết lại. Ở giai đoạn thứ hai (học tăng cường), mô hình tạo ra hai câu trả lời, rồi chính AI tự phán định câu nào phù hợp với hiến pháp hơn để tạo dữ liệu sở thích, và dùng đó làm phần thưởng để huấn luyện tiếp. Vì phần thưởng được tạo ra từ phản hồi của AI thay vì nhãn của con người, phương pháp này được gọi là RLAIF (Reinforcement Learning from AI Feedback). Hiến pháp gồm khoảng 16 nguyên tắc tham chiếu từ Tuyên ngôn Nhân quyền Quốc tế và các văn bản khác, bao phủ các khía cạnh như tính hợp pháp, mức độ gây hại, công bằng và giọng điệu.

Điều xuất sắc của bài báo này là nó đưa ra một giải pháp mới cho sự đánh đổi giữa an toàn và hữu ích. Với các phương pháp truyền thống, việc tăng cường vô hại hóa thường khiến mô hình rơi vào né tránh thái quá — từ chối mọi thứ với câu trả lời "Tôi không thể trả lời câu hỏi đó". Mô hình được huấn luyện bằng Constitutional AI, thay vì im lặng trước các yêu cầu có hại, đã trở thành trợ lý "vô hại nhưng không né tránh" — giải thích lý do tại sao không thể đáp ứng trong khi vẫn duy trì đối thoại. Từ góc độ của các nhà nghiên cứu, ở đây cũng thấy rõ tư tưởng "tự cải thiện" kể từ thời AlphaGo Zero — mô hình phê bình đầu ra của chính mình, sửa đổi nó, và tự huấn luyện bản thân dựa trên sở thích của chính mình. Anthropic sau đó đã phát triển phương pháp này thành thử nghiệm "Constitutional AI tập thể", phản ánh ý kiến của công dân nói chung vào hiến pháp, và thậm chí đi sâu vào vấn đề quản trị: ai sẽ quyết định các giá trị của AI và quyết định như thế nào.

Many-Shot In-Context Learning (2024, DeepMind) và Many-shot Jailbreaking (2024, Anthropic) — Ánh sáng và bóng tối của học tập trong ngữ cảnh

Chương này đề cập đến "Many-shot Learning" — kỹ thuật đã đẩy học trong ngữ cảnh lên một tầm quy mô mới vào năm 2024.

Trước tiên, hãy nắm bắt bản thân hiện tượng này. Học few-shot mà GPT-3 ở Màn hai đã thể hiện là việc đưa "10 đến 100" ví dụ vào prompt. Thế nhưng đến năm 2024, cửa sổ ngữ cảnh (độ dài đầu vào có thể xử lý cùng lúc) của các công ty đã tăng vọt, cho phép xử lý hàng trăm nghìn token. Google DeepMind khi đó đã tiến hành một thí nghiệm đơn giản — điều gì xảy ra nếu tăng số ví dụ lên từ vài trăm đến vài nghìn? Kết quả cho thấy hiệu suất tiếp tục cải thiện đáng kể trên nhiều tác vụ khác nhau như dịch thuật, tóm tắt và suy luận. Hơn nữa, để giải quyết vấn đề cạn kiệt các ví dụ do con người chuẩn bị, họ còn chứng minh rằng "Reinforced ICL" — sử dụng chính chuỗi suy nghĩ do mô hình tạo ra làm mẫu — cũng có hiệu quả, cũng như "Unsupervised ICL" — chỉ xếp hàng loạt bài toán mà không cần cung cấp đáp án mẫu. Mà không cần tinh chỉnh, chỉ đơn giản đưa một lượng lớn ví dụ vào ngữ cảnh, ta có thể thích nghi mô hình với các tác vụ mới.

Vậy "Many-shot Jailbreaking" của Anthropic là gì? Đây là mặt nguy hiểm của cùng một nguyên lý đó. Các nhà nghiên cứu của Anthropic đã phát hiện rằng, khi nhồi hàng trăm lượt hội thoại giả mạo — trong đó mô hình "lịch sự trả lời các câu hỏi nguy hiểm" — vào prompt của một mô hình đã được huấn luyện an toàn, mô hình sẽ bị kéo theo ngữ cảnh đó và thậm chí đáp ứng cả những yêu cầu có hại mà đáng ra phải từ chối. Điều đáng sợ là hiệu quả của nó tăng theo luật lũy thừa với số lượng ví dụ — đây chính xác là bản chất phổ quát mà học trong ngữ cảnh sở hữu. Hơn nữa, cuộc tấn công này không chỉ có hiệu quả với Claude của chính Anthropic, mà còn với các mô hình của OpenAI và Google DeepMind. Đây là bài học nặng nề của nghiên cứu an toàn: "tính năng tiện lợi" là cửa sổ ngữ cảnh dài, tự nó trở thành bề mặt tấn công mới.

Đọc hai bài viết này song song, ta thấy được bản chất của AI hiện đại. Học trong ngữ cảnh được phát hiện với GPT-3 (Màn hai), cơ chế của nó được làm sáng tỏ qua các mạch Transformer (induction head trong màn này), và với many-shot, nó được xác nhận là "hiện tượng tuân theo luật lũy thừa — càng tăng quy mô càng mạnh hơn". Cũng như định luật tỷ lệ chi phối "quá trình học" của mô hình, luật lũy thừa cũng chi phối cả "học trong ngữ cảnh". Và cùng một lực lượng đó có thể được sử dụng cho cả việc mở rộng năng lực (DeepMind) lẫn phá vỡ an toàn (Anthropic). Chính tính lưỡng nghĩa này là lý do Anthropic — vốn nhìn nhận đồng thời cả năng lực lẫn an toàn — đã cố ý công bố phương pháp tấn công để cảnh báo toàn ngành.

Scaling Monosemanticity (2024, Anthropic) — Trích xuất "các thành phần ý nghĩa" từ Claude trong môi trường sản xuất

Màn kết của hồi thứ ba, và cũng là bài luận thứ mười trong loạt bài này, chính là nghiên cứu "Scaling Monosemanticity: Trích xuất các đặc trưng có thể diễn giải từ Claude 3 Sonnet" do Anthropic công bố vào tháng 5 năm 2024. Đây là một nghiên cứu mang tính lịch sử, khi tham vọng về khả năng diễn giải cơ học đã nảy sinh từ chương về mạch Transformer cuối cùng đã được hiện thực hóa trên mô hình lớn thực sự đang vận hành trong môi trường sản xuất — Claude 3 Sonnet.

Cốt lõi của vấn đề nằm ở một thuộc tính phức tạp được gọi là "chồng chất (superposition)". Mỗi tế bào thần kinh riêng lẻ trong mạng neural không phản ứng rõ ràng với một khái niệm duy nhất như "con chó" hay "nỗi buồn" theo cách con người mong đợi. Một tế bào thần kinh có thể phản ứng đồng thời với hàng chục khái niệm không liên quan — trạng thái đa nghĩa (polysemantic) này là rào cản lớn nhất cản trở việc giải mã mô hình. Trong nghiên cứu tiền nhiệm năm 2023 "Towards Monosemanticity", Anthropic đã chứng minh trên mô hình nhỏ rằng có thể dùng phương pháp bộ mã hóa tự động thưa (Sparse Autoencoder — SAE) để tháo gỡ hoạt động rối ren của các tế bào thần kinh thành các "đặc trưng (feature) tương ứng với một nghĩa duy nhất". Câu hỏi đặt ra trong bài luận này là: "Liệu phương pháp này có thể mở rộng từ mô hình đồ chơi sang mô hình khổng lồ thực sự không?"

Câu trả lời là có. Anthropic đã thành công trong việc trích xuất hàng triệu đặc trưng đơn nghĩa (monosemantic) từ hoạt động của lớp trung gian trong Claude 3 Sonnet, theo cách tiếp cận của học từ điển. Những đặc trưng đó mang tính trừu tượng đáng kinh ngạc và vượt qua ranh giới ngôn ngữ lẫn phong cách. Ví dụ, đặc trưng tương ứng với "Cầu Cổng Vàng" phản ứng bất kể đó là tiếng Anh hay tiếng Nhật, hay ảnh chụp cây cầu. Quan trọng hơn, những đặc trưng này không chỉ cho phép quan sát trạng thái của mô hình, mà còn có thể điều khiển hành vi bằng cách tăng cường mức độ kích hoạt một cách nhân tạo. Khi nhóm nghiên cứu đẩy "đặc trưng Cầu Cổng Vàng" lên mức tối đa, Claude bắt đầu tin rằng mình chính là cây cầu đó dù được hỏi về bất cứ điều gì, và kéo mọi chủ đề về cây cầu — đó chính là bản demo "Golden Gate Claude" từng được công bố tạm thời và gây chú ý rộng rãi.

Điều mà tôi cho là quan trọng nhất từ góc độ nghiên cứu là việc tìm thấy các đặc trưng liên quan trực tiếp đến an toàn. Anthropic đã phát hiện các đặc trưng tương ứng với những hành vi mà ta thực sự muốn giám sát: lừa dối, nịnh hót (xu nịnh), thiên kiến, chế tạo vật liệu nguy hiểm, và lỗ hổng bảo mật trong mã nguồn. Nếu có thể nắm bắt và thao túng trạng thái nội tâm "đang cố nói dối" của mô hình dưới dạng đặc trưng, thì an toàn AI có thể tiến từ giai đoạn "kiểm duyệt đầu ra sau khi tạo ra" sang giai đoạn "đọc trực tiếp ý định bên trong và kiểm soát nó". Tuy nhiên, bài luận cũng thành thật thừa nhận những hạn chế. Chẳng hạn, dù đặt tên là "đặc trưng Cầu Cổng Vàng", phần lớn các trường hợp đặc trưng đó được kích hoạt lại không liên quan đến cây cầu — chỉ dưới 10% số lần kích hoạt ở mức cực cao mới thực sự biểu thị cây cầu. Hành động con người đặt tên cho các đặc trưng có một cái bẫy: ảo giác về sự an tâm. Dẫu vậy, bài luận này đã chứng minh rằng giấc mơ "đọc hộp đen như một mạch điện" được nêu ra trong chương về mạch Transformer hoàn toàn có thể trở thành hiện thực ngay cả với các mô hình tiên tiến nhất. Hồi thứ ba đã hoàn thành câu chuyện về năng lực thành "câu chuyện về sự hiểu biết và kiểm soát".

Nhìn lại toàn bộ quy trình và quan điểm về những bước tiếp theo

Sau khi đọc xong cả 10 tác phẩm, hãy cùng nhìn lại toàn bộ bức tranh một lần nữa. Câu chuyện ba hồi này không phải là tập hợp rời rạc của những khám phá độc lập, mà là một dòng sông lớn — trích dẫn nhau, phê bình nhau, và tiếp nối nhau. Hồi thứ nhất: Google đặt nền móng với Transformer, DeepMind trình bày nguyên lý "vượt qua con người bằng học tăng cường tự đối kháng" (AlphaGo Zero) và tầm với "giải quyết các bài toán khoa học tự nhiên bằng AI" (AlphaFold). Hồi thứ hai: OpenAI hệ thống hóa trên nền móng đó thành định luật "chính quy mô tạo ra trí thông minh" (định luật tỷ lệ), kiểm chứng nó (GPT-3), rồi mở ra một trục quy mô mới — "suy nghĩ trong lúc suy luận" (o1). Hồi thứ ba: Anthropic, đứng trước sức mạnh khổng lồ mà hồi thứ hai tạo ra, đã xây dựng một hệ thống lý giải và kiểm soát: "đọc những gì xảy ra bên trong như đọc mạch điện (Transformer Circuits, Monosemanticity), huấn luyện bằng phản hồi của chính AI (Constitutional AI), và nhìn thẳng vào tính hai mặt của sức mạnh đó (Many-shot)."

Hai sợi chỉ xuyên suốt dòng sông này đã được thu hồi một cách hoàn hảo. Học tăng cường — từ tự đối kháng của AlphaGo Zero, qua RLAIF của Constitutional AI, đến học suy luận của o1 — tiếp tục biến đổi hình dạng mà chảy mãi, đưa tư tưởng "mô hình tự đánh giá đầu ra của mình để tự cải thiện" vào trung tâm của AI hiện đại. Học trong ngữ cảnh được phát hiện trong GPT-3, cơ chế được giải mã qua induction heads, mở rộng thành định luật lũy thừa trong Many-shot, và được trực quan hóa thành các đặc trưng trong Monosemanticity — một chu kỳ lý tưởng của khoa học: phát hiện, giải thích, mở rộng, quan sát — được hoàn thành chỉ trong vài năm. Và Transformer vẫn là nền tảng của tất cả, từ văn bản đến protein (Evoformer). "Attention Is All You Need" — đúng theo nghĩa đen.

Nhìn từ bên trong Thung lũng Silicon, điều tôi cảm nhận sâu sắc là đây vừa là "lịch sử của những bài báo" vừa là "lịch sử của những con người di chuyển." Tám tác giả của Transformer rời Google và trở thành chính cái cây phả hệ của ngành. Những nhà nghiên cứu dẫn dắt định luật tỷ lệ và GPT-3 rời OpenAI để sáng lập Anthropic. Những người đuổi theo năng lực và những người đặt câu hỏi về an toàn xuất thân từ cùng một phòng thí nghiệm, trích dẫn lẫn nhau trong các bài báo nhưng giương lên những ngọn cờ khác nhau — chính căng thẳng này đã thúc đẩy sự tiến hóa của lĩnh vực. Và sự căng thẳng đó, vào tháng 6 năm 2026, đang được phản chiếu trực tiếp lên thị trường vốn. Vào tháng 5 năm 2026, Anthropic huy động được 65 tỷ đô la (khoảng 10 nghìn tỷ yên) trong vòng Series H, đạt định giá khoảng 965 tỷ đô la (khoảng 154 nghìn tỷ yên), lần đầu tiên vượt qua đối thủ lâu năm OpenAI (huy động gần đây khoảng 122 tỷ đô la ≈ 20 nghìn tỷ yên, định giá khoảng 852 tỷ đô la ≈ 136 nghìn tỷ yên) để trở thành startup AI có giá trị nhất thế giới, và được đưa tin là đang chuẩn bị IPO. Hành trình tri thức bắt đầu từ 10 bài báo, nay đang vận hành một lượng vốn tương đương quy mô kinh tế của một quốc gia.

Vậy từ đây, con đường dẫn đến đâu? Tôi muốn trình bày ba nhận định của mình. Thứ nhất, cuộc đua "hiểu biết" bắt kịp "năng lực" sẽ bước vào giai đoạn thực sự. Khả năng diễn giải mà Monosemanticity khai mở mới chỉ soi sáng một phần nhỏ của mô hình. Nhưng càng khi AI thâm nhập sâu vào các quyết định quan trọng của xã hội, giá trị của công nghệ "giải thích từ bên trong tại sao lại trả lời như vậy" và "phát hiện, kiểm soát các trạng thái nội tâm nguy hiểm" càng tăng vọt. Liệu chúng ta có thể cho hàm mũ của hiểu biết chạy song song với hàm mũ của năng lực đến mức nào — đó sẽ là câu hỏi cốt lõi trong 5 năm tới. Thứ hai, các trục quy mô sẽ tiếp tục gia tăng. Tiếp nối thời gian huấn luyện và thời gian suy luận, "trục thời gian hành động" — nơi các tác nhân tự chủ thử nghiệm trong thời gian dài — là chiến trường tiếp theo. Thực tế, Claude Opus 4.8 ra mắt vào tháng 5 năm 2026 đã được trang bị khả năng chạy song song tới 1.000 subagent, đang cạnh tranh với GPT-5.5 về khả năng hoàn thành các tác vụ dài hạn. Phía sau "thời gian suy nghĩ" mà o1 khai mở, là "thời gian hành động liên tục."

Thứ ba, và quan trọng nhất, tôi muốn nhấn mạnh rằng điều 10 bài báo này thể hiện không phải là "điểm đến" mà là "phương pháp luận." Dũng khí tin vào định luật lũy thừa đẹp đẽ mà đặt cược lớn; sự kiên trì không từ bỏ hộp đen mà đọc nó như đọc mạch điện; kỷ luật đặt câu hỏi về an toàn với cùng nhiệt huyết như về năng lực — dù các công nghệ riêng lẻ rồi sẽ lỗi thời, phương pháp luận này sẽ tiếp tục sinh ra 10 bài tiếp theo, 100 bài tiếp theo. Những gì được truyền trao từ DeepMind sang OpenAI, rồi đến Anthropic, không phải là một kiến trúc hay công thức cụ thể nào, mà chính là thái độ "trực tiếp đối mặt với những bí ẩn sâu sắc nhất của tự nhiên và trí thông minh bằng công cụ tính toán." Bài báo quý giá tiếp theo sẽ thay đổi lịch sử AI đang được viết ra ở một phòng thí nghiệm nào đó ngay lúc này. Nếu truy tìm nguồn cội của nó, chắc chắn sẽ dẫn về 10 bài báo trong bài viết này.