Tóm tắt
AI sẽ chắt lọc những "bí quyết công việc" (tri thức ngầm) vốn chỉ tồn tại trong đầu của các nhân viên lành nghề, từ các thao tác trên màn hình, video ghi hình và nhật ký công việc được thu thập liên tục, để tự động chuyển thành Quy trình tác nghiệp chuẩn (SOP). Hơn nữa, chính tác nhân AI sẽ đọc bản quy trình đó, trực tiếp vận hành các hệ thống nội bộ để hoàn tất công việc. Một ngăn xếp (stack) công nghệ mới gồm bốn lớp là Screen-to-SOP, Video-to-SOP, Passive Capture và Agentic SOP đang nổi lên một cách nhanh chóng vào nửa đầu năm 2026. Bài viết này sẽ sắp xếp các sản phẩm tiêu biểu của bốn lĩnh vực này theo cách dễ hiểu dành cho người mới bắt đầu, đồng thời giải thích một cách tổng hợp về việc các quỹ đầu tư mạo hiểm hàng đầu ở Thung lũng Silicon nhìn nhận điều này ra sao và đang phân bổ nguồn vốn như thế nào.
Toàn cảnh quy trình tạo SOP được phác họa bởi 4 lĩnh vực
Tính đến tháng 5 năm 2026, thị trường AI xoay quanh quy trình thao tác nghiệp vụ (SOP, Standard Operating Procedure) đã được hiểu như một "đường ống" (pipeline) gồm bốn lớp liên kết với nhau. Nằm ở vị trí hạ nguồn nhất là Screen-to-SOP, công nghệ quan sát từng thao tác trên màn hình mà những người lành nghề thực hiện hằng ngày và ngay lập tức tạo ra bản hướng dẫn từng bước. Tiếp theo là Video-to-SOP, công nghệ phân tích hồi cứu các video đã ghi lại hoặc các cuộc họp Zoom được tích lũy trong quá khứ và chuyển chúng thành SOP dạng văn bản. Xa hơn về phía thượng nguồn là Passive Capture, liên tục hấp thụ dữ liệu xung quanh ngay cả khi người dùng đang làm việc mà không ý thức về điều đó, và xây dựng đồ thị tri thức từ những bản ghi nghiệp vụ thô "không được viết trong sổ tay chính thức" như nội dung email, ticket hỗ trợ, hội thoại Slack, lịch sử chỉnh sửa tập tin. Và cuối cùng, Agentic SOP là lớp mà tại đó tác nhân AI trực tiếp "đọc và thực thi" các bản hướng dẫn quy trình được trích xuất theo cách này.
Bốn lớp này không phải quan hệ cạnh tranh, mà đúng hơn là quan hệ bổ trợ cho nhau. Screen-to-SOP và Video-to-SOP đều tạo bản hướng dẫn quy trình khởi đầu từ một thao tác "ghi lại" rõ ràng, nhưng Passive Capture là cơ chế tích lũy thông tin ngay cả khi nhân viên không nhấn nút ghi hình, nên khối lượng tri thức làm mẫu số lớn hơn hẳn nhiều bậc. Còn Agentic SOP là bên tiêu thụ "phần mô tả nghiệp vụ có thể đọc được bằng máy" mà ba lớp này tạo ra. Như Sonya Huang và Pat Grady, các đối tác của Sequoia Capital, đã nhiều lần nhấn mạnh trong bài phát biểu chính tại AI Ascent 2026 vào tháng 4 năm 2026, chuỗi luồng này tượng trưng cho sự chuyển dịch từ thời đại mà "phần mềm chỉ mô tả" sang "thời đại mà phần mềm giao nộp công việc đã hoàn thành như một sản phẩm thành quả". Họ gọi thị trường này là "Services-as-a-Software", và lập luận rằng thị trường dịch vụ toàn cầu (ước tính 10 nghìn tỷ USD, tương đương khoảng 1.550 nghìn tỷ yên) sẽ được mở ra cho các công ty tác nhân AI như một TAM lớn hơn mười lần so với thị trường phần mềm truyền thống (khoảng 600 tỷ USD mỗi năm, tương đương khoảng 93 nghìn tỷ yên).
Dưới đây sẽ đi sâu vào nội dung cụ thể của từng lĩnh vực trong bốn lĩnh vực này qua các sản phẩm và bối cảnh sử dụng cụ thể.
Screen-to-SOP — Từ việc ghi lại thao tác màn hình theo thời gian thực đến tự động hóa việc tạo sổ tay hướng dẫn
Screen-to-SOP là danh mục có lịch sử lâu đời nhất và đã đạt được thành công thương mại lớn. Người dùng chỉ cần thao tác hệ thống nghiệp vụ như bình thường, tiện ích mở rộng trình duyệt hoặc ứng dụng desktop thường trú sẽ ghi lại từng thao tác nhấp chuột, cuộn trang và nhập văn bản, rồi ngay khi nhấn nút kết thúc, nó sẽ xuất ra một tài liệu hướng dẫn quy trình kèm ảnh chụp màn hình. Nói rằng nhân viên kế toán chỉ cần lách cách thao tác 30 bước phát hành hóa đơn là "Sổ tay phát hành hóa đơn phiên bản 2026-05" được tạo tự động, thì sẽ dễ hình dung.
Người dẫn đầu thực tế của ngành trong lĩnh vực này là Scribe ở San Francisco. Ngày 10 tháng 11 năm 2025, công ty này đã huy động được 75 triệu USD (khoảng 11,6 tỷ yên) trong vòng gọi vốn Series C do StepStone Group dẫn dắt, đưa định giá sau đầu tư đạt 1,3 tỷ USD (khoảng 201,5 tỷ yên). Các nhà đầu tư hiện hữu gồm Amplify Partners, Redpoint Ventures, Tiger Global, Morado Ventures và New York Life Ventures cũng đã rót thêm vốn. Theo bài đưa tin ngày 10 tháng 11 năm 2025 của TechCrunch, vào thời điểm tổng số vốn huy động lũy kế đạt khoảng 150 triệu USD (khoảng 23,3 tỷ yên), Scribe đã công bố sản phẩm mới "Scribe Optimize". Optimize không chỉ dừng lại ở việc tạo tài liệu hướng dẫn quy trình, mà còn liên tục khai thác luồng công việc của nhân viên trên đám mây, trực quan hóa các điểm nóng về trùng lặp công việc, làm lại, và các ứng viên có thể tự động hóa. Nếu sản phẩm truyền thống của công ty (hiện được đổi thương hiệu thành "Scribe Capture") là một sản phẩm "tạo ra từng tài liệu hướng dẫn riêng lẻ", thì Optimize là một sản phẩm "vẽ ra bản đồ nghiệp vụ của toàn tổ chức và đề xuất phương án cải tiến"; xu hướng Scribe đang cố gắng lột xác từ một công cụ SOP định giá trên 1 tỷ USD thành một nền tảng trí tuệ quy trình lớn hơn là rất rõ ràng. Hiện tại Scribe chỉ hỗ trợ các ứng dụng SaaS dạng trình duyệt, nhưng đã nêu rõ trong lộ trình về việc mở rộng sang các ứng dụng kế thừa dạng mainframe hoặc dùng phím chức năng.
Tango là cái tên được biết đến rộng rãi như đối thủ kế cận Scribe, với trụ sở chính cũng đặt tại San Francisco. Thành lập năm 2020, công ty đã huy động được 5,7 triệu USD (khoảng 880 triệu yên) trong vòng hạt giống do Wing VC dẫn dắt vào tháng 8 năm 2021, 14 triệu USD (khoảng 2,2 tỷ yên) trong vòng Series A do Tiger Global dẫn dắt vào tháng 6 năm 2022, tổng cộng khoảng 19,7 triệu USD (khoảng 3,05 tỷ yên). Đặc điểm nổi bật là sự góp mặt của các quỹ đầu tư mạo hiểm mang đậm tính chiến lược như General Catalyst, Slack Fund, Atlassian Ventures, GSV Ventures; theo dữ liệu của PitchBook và Crunchbase, tính đến thời điểm tháng 5 năm 2026, nó vẫn được 25.000 nhóm sử dụng. Điểm khác biệt của Tango là nó phủ lại tài liệu hướng dẫn đã tạo lên màn hình nghiệp vụ đang hoạt động ở chế độ "Guide Me", và khi nhân viên mới thao tác theo đó, hướng dẫn thực hành sẽ tiến triển theo thời gian thực. Trong khi Scribe có thế mạnh ở "việc xây dựng cơ sở tri thức tĩnh", thì Tango thiên về "hướng dẫn tức thời tại hiện trường (Digital Adoption)"; trên thực tế, hai công ty tạo thành thế đối đầu của hai ông lớn.
Trong phân khúc này, các thế lực hiện hữu vốn đã tồn tại lâu dài trong mảng doanh nghiệp cũng đang tìm cách phản công. Whatfix có trụ sở tại Ấn Độ và San Francisco đã huy động được 125 triệu USD (khoảng 19,4 tỷ yên) trong vòng Series E vào tháng 9 năm 2024, gom được tổng cộng hơn 139 triệu USD (khoảng 21,5 tỷ yên). Năm 2026, họ đã tung ra một nhóm tác nhân (agent) mang tên "Authoring Agent", "Guidance Agent", "Insights Agent", và chuyển dịch sang DAP (Digital Adoption Platform) dạng tác nhân, trong đó AI liên tục tự động viết lại hướng dẫn trên giao diện được chồng trực tiếp lên màn hình thao tác của hệ thống nghiệp vụ. Mặt khác, WalkMe của Mỹ — đối thủ lâu năm của Whatfix — kể từ khi được SAP mua lại với giá khoảng 1,5 tỷ USD (khoảng 232,5 tỷ yên) vào năm 2024, đã chuyển hướng sang tối ưu hóa hệ sinh thái SAP, và sự hiện diện của họ với tư cách một người chơi "Screen-to-SOP" độc lập đã mờ nhạt đi.
Điểm đặc trưng trong các tình huống sử dụng là: (1) việc viết lại toàn bộ sổ tay đi kèm nâng cấp phiên bản ERP hoặc CRM — nếu dùng Scribe, công việc trước đây mất một tuần sẽ hoàn thành trong nửa ngày; (2) đào tạo nhân viên mới ở trung tâm cuộc gọi — với hướng dẫn được Tango chồng lên màn hình, "khóa đào tạo trước đây mất 2 tuần nay còn 3 ngày"; (3) tại những nơi làm việc như hành chính y tế hay quầy giao dịch hành chính công — nơi quy trình làm việc phải được thiết lập lại mỗi lần có biến động nhân sự — Whatfix tức thì tái cấu trúc "tài liệu hướng dẫn tùy chỉnh theo từng hiện trường" thông qua tác nhân.
Video-to-SOP — Chuyển đổi video đã ghi sẵn thành tài liệu hướng dẫn quy trình làm việc
Video-to-SOP thoạt nhìn có vẻ giống Screen-to-SOP, nhưng có một điểm khác biệt mang tính quyết định. Nó không đòi hỏi phải quay mới để tạo tài liệu hướng dẫn, tức là một cơ chế cứu vớt tri thức từ những tài sản video "đã được quay sẵn". Video đào tạo, các cuộc họp nội bộ được ghi lại qua Zoom, các bài hướng dẫn dành cho SME (doanh nghiệp vừa và nhỏ) bị bỏ quên trên YouTube — những nội dung video như vậy đã bùng nổ về số lượng trong suốt 10 năm qua, nhưng ngược lại, khả năng tìm kiếm lại cực kỳ thấp, và xét về mặt tri thức thì gần như ở trạng thái "đắp chiếu". Nhờ việc đưa các LLM đa phương thức (multimodal) vào ứng dụng thực tế, giờ đây có thể đọc văn bản và các thành phần UI hiển thị trên màn hình, đối chiếu với lời thuyết minh và xuất ra tài liệu hướng dẫn được cấu trúc hóa, nên việc cứu vớt nguồn tri thức bị đắp chiếu này đang tiến triển nhanh chóng.
Vòng gọi vốn được chú ý nhất trong hạng mục này vào năm 2026 là Guidde, công ty đặt văn phòng tại Tel Aviv và San Francisco. Ngày 25 tháng 2 năm 2026, Guidde công bố đã hoàn tất gọi vốn vòng Series B trị giá 50 triệu USD (khoảng 7,7 tỷ yên) do PSG Equity của Mỹ dẫn dắt. Theo đưa tin của CTech, tham gia vòng này có monday.com — một công ty SaaS quản lý công việc, cùng các nhà đầu tư hiện hữu là Norwest, Entrée Capital, Qualcomm Ventures và Inkberry Ventures. Đặc điểm của nền tảng Guidde là chỉ cần nhân viên thực hiện công việc thường ngày, AI sẽ đồng thời phân tích bản ghi màn hình và lời thuyết minh, rồi tự động tạo ra cả video hướng dẫn có phụ đề lẫn SOP dạng văn bản. Tính đến đầu năm 2026, công ty công bố đang có hơn 4.500 khách hàng như Anheuser-Busch, Bayer, Nasdaq, Yahoo, SentinelOne, với doanh thu hằng năm tăng trưởng gấp 3 lần trong 3 năm liên tiếp và tỷ lệ giữ chân khách hàng trên 90%. Khoản vốn lần này được cho là sẽ dùng để mở rộng quan hệ đối tác triển khai với các hãng kiểm toán toàn cầu như KPMG và Deloitte, hé lộ chiến lược thâm nhập sâu vào các dự án chuyển đổi CNTT của các tập đoàn lớn ở Nhật, Mỹ và châu Âu.
Ngoài Guidde, các nhà cung cấp chuyên về Video-to-SOP cũng đang lần lượt xuất hiện. Trupeer có gốc Ấn Độ chuyên về việc đồng thời tạo ra "video hướng dẫn được trau chuốt" và "SOP dạng văn bản" từ video đã ghi, và được đánh giá cao nhờ đầu ra trông bắt mắt với các mẫu (template) tương thích thương hiệu. Clueso có thế mạnh ở việc AI hóa khâu hậu kỳ sản xuất như tự động phóng to, khử nhiễu, dọn dẹp kịch bản; còn Vidocu là loại một nguồn — nhiều đầu ra, chỉ cần tải lên một video là xuất ra hàng loạt phụ đề, lồng tiếng (hơn 65 ngôn ngữ), bài viết kèm ảnh chụp màn hình và video đã được biên tập. Hơn nữa, Video-to-SOP của Docsie nhấn mạnh điểm là nhận diện hình ảnh đối với văn bản và các thành phần UI trong video, đối chiếu với lời thuyết minh để diễn giải về mặt ngữ nghĩa "đã nhấp vào cái gì để làm gì".
Loom trước đây khởi đầu như một "công cụ ghi màn hình cá nhân", nhưng kể từ khi Atlassian mua lại với giá 975 triệu USD (khoảng 151 tỷ yên) vào năm 2023, nó đã được tích hợp sâu vào hệ sinh thái tri thức của Atlassian. Loom AI tính đến năm 2026 không chỉ tự động tạo tiêu đề, tóm tắt, chương và các mục hành động (action item) từ bản ghi, mà còn được trang bị 5 loại mẫu là SOP, hướng dẫn từng bước, các bước QA, mô tả PR và tài liệu giải thích mã nguồn, đồng thời có thể đưa sản phẩm tạo ra vào các ticket Jira hay trang Confluence chỉ bằng một cú nhấp. Phân khúc giá dành cho doanh nghiệp cũng bao gồm chế độ xem quản trị toàn cầu và tích hợp gốc với Confluence/Jira, nên những tổ chức trước đây vốn xem Loom chỉ đơn thuần là công cụ video nhắn tin nay đã bắt đầu áp dụng nó như nền tảng chính cho SOP nội bộ.
Đặc trưng về các tình huống sử dụng là những dự án như: (1) chuyển hàng loạt nhóm video kiểm chứng GxP của các doanh nghiệp dược phẩm thành SOP được cấu trúc hóa, qua đó nén lại số giờ công ứng phó với hoạt động kiểm tra của cơ quan quản lý; (2) bộ phận quản lý chất lượng tại trụ sở chính chuẩn hóa bằng Video-to-SOP những "video về quy trình bố trí tại hiện trường" mà các thợ lành nghề trong ngành sản xuất quay bằng kính thông minh; (3) các hãng tư vấn chuyển đổi bản ghi các buổi hội thảo (workshop) với khách hàng trong quá khứ thành thư viện phương pháp luận có hệ thống. Việc Guidde bắt tay với các hãng kiểm toán lớn chính là bởi trường hợp sử dụng thứ 3 này cực kỳ hấp dẫn với tư cách là một mảng kinh doanh tài sản trí tuệ của chính KPMG và Deloitte.
Passive Capture — Thu thập tri thức ngầm ở chế độ nền
Passive Capture mang một tham vọng mang tính triết học hơn so với Screen-to-SOP hay Video-to-SOP. Ý tưởng ở đây là liên tục thu thập mọi sự kiện công việc — email, Slack, Teams, ticket hỗ trợ, bình luận CRM, chỉnh sửa tệp, ghi âm cuộc họp — mà nhân viên hoàn toàn không phải thực hiện bất kỳ thao tác có ý thức nào như "nhấn nút ghi hình" hay "tải video lên", qua đó tạo ra một "tàu mẹ chứa tri thức ngầm" cho toàn bộ tổ chức. Như bài viết "Tacit Knowledge Is Your Next Competitive Moat" được California Management Review đăng tải vào tháng 3 năm 2026 đã chỉ ra, lợi thế cạnh tranh trong kỷ nguyên agent không còn nằm ở dữ liệu hay mô hình nữa, mà đang dịch chuyển sang tri thức ngầm được khắc sâu trong sự phán đoán của nhân viên.
Vòng gọi vốn thu hút sự chú ý nhất trong danh mục này vào năm 2026 thuộc về Interloom, một công ty có trụ sở tại Munich. Như Fortune đã đưa tin độc quyền vào ngày 23 tháng 3 năm 2026, Interloom đã huy động được 16,5 triệu USD (khoảng 2,6 tỷ yên) trong vòng gọi vốn hạt giống. Nhà đầu tư dẫn dắt là DN Capital, với sự tham gia của Bek Ventures và Air Street Capital. Công ty này trước đó đã huy động được 3 triệu USD (khoảng 460 triệu yên) trong vòng tiền hạt giống vào tháng 3 năm 2024, đưa tổng số tiền huy động lên khoảng 20 triệu USD (khoảng 3,1 tỷ yên). Sản phẩm của Interloom thu thập hàng triệu "bản ghi phát sinh tự nhiên trong quá trình công việc" như email hỗ trợ, ticket dịch vụ, bản ghi văn bản từ trung tâm cuộc gọi, lệnh công việc, và liên tục cập nhật một đồ thị ngữ cảnh về "cách các vấn đề đã được giải quyết tại hiện trường như thế nào", giống như cách Google Maps học lộ trình ngắn nhất từ lưu lượng giao thông. Công ty đã được triển khai chính thức tại Commerzbank — một trong những ngân hàng lớn nhất nước Đức — nơi họ thu hẹp khoảng cách giữa sổ tay được văn bản hóa và tri thức vận hành thực tế tại hiện trường từ khoảng 50% xuống 5%; tại Volkswagen để tự động hóa khâu phản hồi đầu tiên cho ticket hỗ trợ; và tại Zurich Insurance để tự động hóa nghiệp vụ thẩm định (underwriting).
Ở phía Mỹ, công ty nhắm đến vị thế tương tự là Workhelix, do Eric Brynjolfsson của Đại học Stanford và cộng sự sáng lập. Công ty đã huy động được 15 triệu USD (khoảng 2,3 tỷ yên) trong vòng Series A vào tháng 2 năm 2025 do AIX Ventures dẫn dắt. Tham gia còn có AI Fund của Andrew Ng, Accenture Ventures, Bloomberg Beta, cùng các nhà đầu tư thiên thần như Reid Hoffman — đồng sáng lập LinkedIn, Mira Murati — đồng sáng lập OpenAI và hiện là CEO của Thinking Machines Lab, và Jeff Dean của Google DeepMind. Cách tiếp cận của Workhelix là phân rã các nghiệp vụ của doanh nghiệp xuống cấp độ tác vụ với hơn 250.000 tác vụ, và chấm điểm cho từng tác vụ về việc "liệu AI có thể đảm nhận thay không" và "nếu được đảm nhận thay thì có thể kỳ vọng mức cải thiện năng suất đến đâu". Trên thực tế, đây là một dịch vụ chuyển đổi "các đối tượng công việc trở nên quan sát được nhờ Passive Capture" thành lộ trình áp dụng AI. Các khách hàng như Accenture, Wayfair, Coursera đã có tên trong danh sách ban đầu.
Biểu tượng cho Passive Capture thông qua phần cứng là Limitless, công ty đã đổi tên từ Rewind AI trước đây. CEO Dan Sirokar là một nhà khởi nghiệp hàng loạt được biết đến với tư cách người sáng lập Optimizely, và công ty đã huy động tổng cộng hơn 33 triệu USD (khoảng 5,1 tỷ yên) từ a16z. Công ty đã triển khai theo hai hướng: ứng dụng "Rewind" liên tục ghi lại màn hình và âm thanh của máy tính Mac để gọi lại như một ký ức có thể tìm kiếm, và phần cứng dạng mặt dây chuyền đeo trên cổ giá 99 USD (khoảng 15.000 yên) mang tên "Limitless pendant". Tuy nhiên, theo bản tin ngày 5 tháng 12 năm 2025 của CNBC, TechCrunch và SF Standard, cùng ngày hôm đó Meta đã công bố thương vụ mua lại (số tiền mua lại không được tiết lộ). Meta đã thông báo dừng hoạt động kinh doanh mặt dây chuyền, và ứng dụng máy tính "Rewind" cũng sẽ ngừng hoàn toàn chức năng ghi màn hình và âm thanh kể từ ngày 19 tháng 12 năm 2025 trở đi. Đây được coi là một động thái mang tính biểu tượng, khi hình thức Passive Capture tiên phong nhất là ghi âm liên tục đã được một Big Tech thâu nạp vào nội bộ, thay vì do một startup độc lập đảm nhận.
Trong danh mục cung cấp Passive Capture như một phần mở rộng của tìm kiếm tri thức, Glean đã đạt bước nhảy vọt áp đảo về định giá. Công ty đã công bố vòng Series E trị giá 260 triệu USD (khoảng 40,3 tỷ yên) do Altimeter và DST Global dẫn dắt vào tháng 1 năm 2026, với mức định giá 4,6 tỷ USD (khoảng 713 tỷ yên). Hơn nữa, khoảng 9 tháng sau, vẫn trong năm 2026, công ty đã huy động thêm 150 triệu USD (khoảng 23,3 tỷ yên) trong vòng Series F do Wellington Management dẫn dắt, đẩy mức định giá lên tới 7,2 tỷ USD (khoảng 1,1 nghìn tỷ yên). Glean khởi nguồn từ tìm kiếm doanh nghiệp tự động lập chỉ mục thông tin nghiệp vụ rải rác trên các SaaS và cơ sở dữ liệu, cho phép nhân viên chỉ cần hỏi "tài liệu nào đó của dự án nào đó" là lập tức truy xuất được phần liên quan; nhưng vào năm 2026, TechCrunch đã giới thiệu rằng công ty đang hướng tới việc trở thành "lớp thống nhất vận hành phía sau các ứng dụng". Otter.ai cũng khởi đầu từ việc ghi văn bản biên bản cuộc họp, và vào tháng 3 năm 2025 đã vượt mốc doanh thu định kỳ hàng năm (ARR) 100 triệu USD (khoảng 15,5 tỷ yên). Vào ngày 28 tháng 4 năm 2026, công ty đã công bố nền tảng mới có tên Conversational Knowledge Engine, bước vào hướng đan dệt chính lời phát biểu trong cuộc họp vào nền tảng tri thức của doanh nghiệp theo thời gian thực. Sana đến từ Thụy Điển, sau khi đạt mức định giá 500 triệu USD (khoảng 775 tỷ yên) trong vòng gọi vốn 55 triệu USD (khoảng 8,5 tỷ yên) do NEA dẫn dắt vào tháng 10 năm 2024, đã được Workday mua lại vào ngày 4 tháng 11 năm 2025 và được tái ra mắt với tư cách AI tri thức trong lòng một ông lớn về điện toán đám mây nhân sự.
Các tình huống sử dụng điển hình bao gồm: (1) trong khâu chăm sóc khách hàng, một tổ chức vốn vô tư quên mất "trước đây nhóm của mình đã xử lý một vụ việc tương tự như thế nào" sẽ dùng Interloom để trực quan hóa các quy trình giải quyết ngầm; (2) rủi ro "thất thoát hàng loạt bí quyết" do các nhân viên kỳ cựu trong ngành sản xuất hay tài chính nghỉ hưu được bù đắp bởi đồ thị tri thức của Workhelix hay Synaply; (3) tổ chức kinh doanh chuyển đổi "ngôi sao bán hàng hàng đầu đó đã giành được hợp đồng lớn theo quy trình nào" thành một playbook có thể tái lập thông qua Glean/Otter. Cần lưu ý rằng Passive Capture luôn đi kèm với "sự phản kháng tâm lý của nhân viên đối với việc giám sát liên tục" và "rủi ro vi phạm các quy định về ghi âm". Việc Meta lập tức chấm dứt bán đại trà sản phẩm Limitless mà mình đã mua lại cũng được hiểu là một quyết định nhằm hấp thụ chi phí ma sát xã hội này với tư cách một doanh nghiệp khổng lồ.
Agentic SOP — Từ tài liệu quy trình đến tác nhân tự thực thi
Agentic SOP là lớp mà các mô tả nghiệp vụ do ba tầng nói trên tạo ra không phải để "con người đọc" mà để "AI agent đọc trực tiếp và thực thi". Đúng như Sequoia Capital đã chỉ ra trong bài luận tháng 1 năm 2026 mang tên "2026: This is AGI", họ định nghĩa thị trường này là bước tiến hóa của AI tạo sinh từ "AI mô tả" sang "AI hoàn thành", và cho rằng Long-Horizon Agent — agent kiên trì làm trọn các tác vụ dài hơi — chính là nhân vật trung tâm. Trên thực tế, nhóm doanh nghiệp gọi được nguồn vốn khổng lồ nhất trong năm 2026 chính là các công ty agent tự động thực thi quy trình nghiệp vụ.
Một ví dụ tiêu biểu là Sierra do Bret Taylor dẫn dắt. Đúng như TechCrunch và CNBC đồng loạt đưa tin ngày 4 tháng 5 năm 2026, Sierra đã hoàn tất vòng gọi vốn 950 triệu USD (khoảng 147 tỷ yên) do Tiger Global và GV của Google đồng dẫn dắt, đưa định giá sau đầu tư đạt 15,8 tỷ USD (khoảng 2,4 nghìn tỷ yên — con số của Tech Startups; một số kênh truyền thông làm tròn lên thành "trên 15 tỷ USD"). Con số này gấp khoảng hơn 3 lần so với định giá 4,5 tỷ USD (khoảng 700 tỷ yên) một năm rưỡi trước đó. Sierra cũng đồng thời công bố rằng tổng số vốn huy động lũy kế của công ty đã vượt mốc 1 tỷ USD (khoảng 155 tỷ yên). "Agent trải nghiệm khách hàng" của AI đã vượt ra khỏi phạm vi tra cứu đơn hàng và đặt lại mật khẩu vốn được hình dung ban đầu, đảm nhận cả những nghiệp vụ nặng như thiết lập khoản vay mua nhà, yêu cầu bồi thường bảo hiểm, quản lý đăng ký thuê bao và quản lý chu trình doanh thu cấp độ y tế, với hơn 40% trong Fortune 50 là khách hàng. ARR được cho là đã đạt 150 triệu USD (khoảng 23,3 tỷ yên).
Sát cánh ngang ngửa với Sierra là Decagon ở San Francisco. Theo TechCrunch, ngày 28 tháng 1 năm 2026 công ty này đã hoàn tất vòng Series D trị giá 250 triệu USD (khoảng 38,8 tỷ yên) do Coatue Management và Index Ventures đồng dẫn dắt, với định giá 4,5 tỷ USD (khoảng 700 tỷ yên). Tổng vốn huy động lũy kế kể từ khi thành lập là hơn 231 triệu USD (khoảng 35,8 tỷ yên), và Andreessen Horowitz, Accel cùng những bên khác vẫn tiếp tục hỗ trợ. Từ khóa công nghệ của Decagon là "Agent Operating Procedures (AOP)". Theo giải thích của công ty, AOP là một "SOP có thể biên dịch" cho phép viết đồng thời mô tả quy tắc nghiệp vụ bằng ngôn ngữ tự nhiên và lan can bảo vệ (guardrail) ở cấp độ mã nguồn, có cấu trúc sao cho người không phải kỹ sư cũng có thể thay đổi tức thì logic nghiệp vụ, trong khi kỹ sư thì ngăn ngừa được sai sót bằng khung kiểm thử có thể xác minh. Trong danh sách khách hàng của Decagon có các công ty SaaS B2C/B2B như Notion, Duolingo, Substack, Bilt, Rippling và ClassPass. Việc công ty này tuyên bố rằng "SOP không còn là văn bản để con người đọc nữa, mà đã biến thành bó logic được máy diễn giải" cho thấy khái niệm Agentic SOP không chỉ là một từ thời thượng đơn thuần mà là tư tưởng thiết kế cốt lõi trên phương diện triển khai.
Cresta, công ty đi trước trong lĩnh vực AI thời gian thực cho tổng đài doanh nghiệp, đã hoàn tất vòng Series D trị giá 125 triệu USD (khoảng 19,4 tỷ yên) do World Innovation Lab (WiL) và Qatar Investment Authority dẫn dắt vào tháng 11 năm 2024, huy động lũy kế hơn 270 triệu USD (khoảng 41,9 tỷ yên). Công ty áp dụng mô hình lai (hybrid): với AI hội thoại thời gian thực, nó thì thầm lời khuyên bên tai cho nhân viên tổng đài là con người, đồng thời cũng có thể chuyển sang chế độ tiếp nhận hoàn toàn tự động. Trong lĩnh vực tuân thủ (compliance), Norm Ai ở New York là một sự hiện diện đặc sắc. Tháng 3 năm 2025, công ty công bố vòng Series B trị giá 48 triệu USD (khoảng 7,4 tỷ yên) (lũy kế 147 triệu USD = khoảng 22,8 tỷ yên), và ngày 19 tháng 2 năm 2026 có thông báo rằng agent nền tảng của công ty sẽ được tích hợp vào Microsoft Foundry, với Coatue và Blackstone góp mặt trong hàng ngũ các bên hậu thuẫn. Khái niệm của Norm Ai — tiếp nhận văn bản pháp lý, quy chế rồi chuyển đổi thành "AI agent thực thi được SOP tuân thủ" — là một điển hình dành riêng cho các ngành nghề chịu quản lý, ngay cả trong khuôn khổ Agentic SOP.
Công ty đã phình to lên với danh xưng "kỹ sư phần mềm tự động" là Cognition AI; đúng như Bloomberg và SiliconANGLE đưa tin ngày 23 tháng 4 năm 2026, công ty được cho là đang đàm phán huy động một vòng quy mô vài trăm triệu USD với định giá 25 tỷ USD (khoảng 3,9 nghìn tỷ yên). Vì vào thời điểm vòng gọi vốn trước đó hồi tháng 9 năm 2025 định giá là 10,2 tỷ USD (khoảng 1,6 nghìn tỷ yên), tính ra định giá đã phình lên gấp 2,5 lần chỉ trong hơn nửa năm. Devin của công ty này được công bố là đang tạo ra ARR quy mô 73 triệu USD (khoảng 11,3 tỷ yên) tại các nơi như Goldman Sachs, Citi, Dell, Cisco, Ramp, Palantir, Nubank, Mercado Libre (tính ở thời điểm trước khi mua lại Windsurf), và đã bước vào giai đoạn được kiểm chứng với tư cách là agent tự động thực thi các "tác vụ kiểu SOP" của kỹ sư.
Và xoay quanh vai trò "đóng vai OS hỗ trợ" cho các nhóm agent theo chiều dọc như vậy, OpenAI và Anthropic đã mở ra một mặt trận mới. Ngày 21 tháng 10 năm 2025, OpenAI tung ra một sản phẩm trình duyệt độc lập mang tên "ChatGPT Atlas", cung cấp chế độ agent cho các gói Plus, Pro và Business. Atlas được thiết kế theo ý tưởng "ChatGPT ngồi phía trên thanh URL, chứ không phải phía sau thanh URL", được xây dựng để agent hoàn thành nghiệp vụ dựa trên ngữ cảnh màn hình và trạng thái của các tab. Ngày 23 tháng 3 năm 2026, Anthropic đã mở "Claude Cowork" — sản phẩm hóa của tính năng "sử dụng máy tính" vốn trước đây chỉ là bản xem trước nghiên cứu — cho các gói thuê bao trả phí, và theo bài viết của CNBC ngày 24 tháng 3 năm 2026, ngày 9 tháng 4 nó đã được cung cấp rộng rãi (GA) với hỗ trợ cho Mac/Windows. Phiên bản doanh nghiệp được trang bị kiểm soát truy cập dựa trên vai trò, giới hạn chi tiêu theo nhóm, trình kết nối Zoom MCP, v.v. Việc Mistral của Pháp, OpenAI của Mỹ và Anthropic của Mỹ cùng đồng loạt tham chiến vào cuộc đua về độ chính xác của "agent sử dụng máy tính" đang làm tăng khả năng "lớp thực thi" của Agentic SOP bị thương mại hóa đại trà một cách chóng vánh.
Về các kịch bản sử dụng, có thể thấy rõ xu hướng những nghiệp vụ mà từ trước đến nay "con người phải vừa cầm SOP vừa thao tác trên màn hình" nay được hoàn tất gọn trong agent, chẳng hạn: (1) đội customer success của một công ty SaaS giao phó hoàn toàn cho agent của Sierra hay Decagon việc "tự động chăm sóc các khách hàng có nguy cơ hủy hợp đồng" để nâng tỷ lệ giữ chân; (2) một ngân hàng lớn tự động thực thi toàn bộ quy trình KYC thông qua agent quản lý quy chế của Norm Ai, giảm thiểu khâu rà soát thủ công; (3) bộ phận IT của một doanh nghiệp sản xuất toàn cầu tự động trả lời các câu hỏi về dịch vụ hiện trường (field service) thông qua Cresta.
Cách nhìn nhận của các quỹ đầu tư mạo hiểm (VC) hàng đầu tại Thung lũng Silicon — Sự dịch chuyển kiến tạo mang tên "từ phần mềm sang dịch vụ"
Khi xem 4 lớp từ Screen-to-SOP đến Agentic SOP như một gói tổng thể, luận điểm vĩ mô mà các quỹ VC hàng đầu Thung lũng Silicon cùng nhau nói tới là: trọng tâm của thị trường AI đang dịch chuyển từ "bản thân phần mềm" sang "công việc mà phần mềm hoàn thành". Tại AI Ascent 2026 do Sequoia Capital tổ chức ở San Francisco vào ngày 20 tháng 4 năm 2026, Pat Grady, Sonya Huang và Konstantine Buhler đã giương cao khẩu hiệu "2026 is AGI". Họ khẳng định "thực hiện thành tựu của 100 năm chỉ trong 100 ngày" và ước tính quy mô thị trường mà dịch vụ AI có thể đảm nhận là 10 nghìn tỷ USD (khoảng 1.550 nghìn tỷ yên). Con số này gấp khoảng hơn chục lần "thị trường phần mềm khoảng 600 tỷ USD" truyền thống. Việc Sequoia đặt agent với vai trò "lực lượng lao động thay thế trực tiếp dịch vụ của con người" làm chủ đề dài hạn mang ý nghĩa quan trọng, và sự thật rằng họ đã rót 75 triệu USD (khoảng 11,6 tỷ yên) vào vòng Series C cho RogoAI (agent tài chính) cũng như tiếp tục đầu tư vào vòng gọi vốn lớn của Sierra là minh chứng rõ ràng cho năng lực thực thi của họ.
Andreessen Horowitz (a16z), trong loạt bài Big Ideas 2026 đầu năm 2026, đã xác định "Enterprise Orchestration Layer" và "Agentic Interface" là những chủ đề quan trọng nhất trong năm. Loạt bản ghi nhớ của họ cụ thể hơn, phân tích rằng "AI sẽ rời xa giao diện chat (chat UI) và trở thành một thực thể chủ động hành động", "giao diện sẽ được thiết kế lại từ hướng tới con người sang hướng tới agent", "lưu lượng nghiệp vụ sẽ chuyển từ tốc độ con người sang 'tốc độ agent', từ một mục tiêu duy nhất sẽ phát sinh hàng nghìn lệnh gọi API đồng thời". Động thái của a16z — đầu tư Series C vào Decagon, tham gia vào Sierra từ giai đoạn đầu, và tiếp tục hỗ trợ Cresta — là điển hình của chiến lược đầu tư nhằm nắm giữ theo chiều dọc toàn bộ ngăn xếp (stack) của Agentic SOP. Việc a16z, trong báo cáo "State of AI: An Empirical 100 Trillion Token Study" công bố vào tháng 4 năm 2026, chỉ ra rằng hình thức tiêu thụ tăng trưởng nhanh nhất của lưu lượng API thông qua OpenRouter là "suy luận kiểu agent" (workload chạy liên tục trong thời gian dài chỉ từ một chỉ thị) cũng củng cố cho nhu cầu tính toán thực tế của Agentic SOP.
Bessemer Venture Partners, từ kinh nghiệm vận hành Cloud 100 suốt 10 năm, đã công bố rằng "thời gian trung bình để một startup AI đạt mốc 100 triệu USD ARR đã rút ngắn từ 7,5 năm của các công ty đám mây truyền thống xuống còn 5,7 năm". Tổng giá trị định giá của toàn bộ Cloud 100 lần đầu tiên vượt mốc 1 nghìn tỷ USD (khoảng 155 nghìn tỷ yên) vào thời điểm tháng 8 năm 2025. Bessemer nêu "Securing AI Agents (bảo mật cho AI agent)" làm vấn đề trọng tâm của năm 2026, nhấn mạnh góc nhìn rằng sự phổ cập của Agentic SOP đồng thời tạo ra một thị trường chưa khai phá khổng lồ về bảo mật và quản trị.
Lightspeed Venture Partners đã công bố quỹ mới với tổng quy mô hơn 9 tỷ USD (khoảng 1,4 nghìn tỷ yên) vào tháng 12 năm 2025, và thể hiện rõ ý định rót phần lớn quỹ này vào lĩnh vực AI agent. Họ đã tham gia vòng Series B trị giá 45 triệu USD (khoảng 7 tỷ yên) cho Zocks — trợ lý AI dành cho cố vấn tài chính (Financial Advisor) — áp dụng chiến lược tấn công Agentic SOP dưới dạng "agent chuyên biệt theo ngành (vertical)".
Các quỹ kiểu crossover như Tiger Global, Coatue, Index Ventures và Insight Partners cũng nổi bật khi rót vốn vào cả những tên tuổi kỳ cựu của Screen-to-SOP (Tango, Scribe, Bardeen) lẫn những startup mới nổi của Agentic SOP (Sierra, Decagon). Đây là bằng chứng cho thấy họ nhìn thấy luồng gió thuận mang tính cấu trúc, khi cả "lượng SOP được tạo ra tại hiện trường" lẫn "lượng SOP mà agent tiêu thụ" cùng mở rộng đồng thời.
Một chủ đề thường được nêu ra như điểm có sự chênh lệch quan điểm giữa các quỹ VC là lo ngại về quyền riêng tư và rủi ro quan hệ lao động đi kèm với Passive Capture. Trong các bài bình luận của Sequoia và các podcast của a16z, một mặt họ vẽ nên hình ảnh tích cực về "một xã hội nơi việc ghi lại liên tục là điều hiển nhiên", mặt khác lại nhiều lần thể hiện giọng điệu khuyến cáo phía doanh nghiệp rằng "Capture Layer nên được gắn kèm vào quy trình làm việc hiện có, không nên ép nhân viên tuân theo một quy trình làm việc mới khác". Trên thực tế, diễn biến Limitless ngừng phần cứng dành cho người tiêu dùng và bị Meta thâu tóm đã nhiều lần được giới VC trích dẫn như một hồi chuông cảnh báo rằng một startup độc lập không thể hấp thụ hết được những va chạm xã hội.
Giọng điệu đưa tin của các hãng truyền thông lớn và sự dao động của các con số
Giọng điệu đưa tin của các hãng truyền thông lớn cũng được phân chia rõ ràng theo từng tầng trong số 4 tầng. Screen-to-SOP và Video-to-SOP được xử lý bằng cách mô tả điềm tĩnh như là "lĩnh vực tuy không nổi bật nhưng có biên lợi nhuận cao đã bước vào giai đoạn ứng dụng thực tế" qua các chuyên mục công nghệ của TechCrunch, VentureBeat, CTech và mục doanh nghiệp của Bloomberg. Chẳng hạn, bài viết liên quan đến Scribe đăng ngày 10 tháng 11 năm 2025 của TechCrunch đánh giá rằng "Scribe cuối cùng đã bắt đầu cho thấy nơi mà AI tạo ra tiền tại hiện trường", và bàn luận về tính hợp lý của mức định giá 1,3 tỷ USD (khoảng 201,5 tỷ yên) trong bối cảnh hệ số bội doanh thu. Bài đưa tin về Guidde của Calcalist nhấn mạnh điểm một startup khởi nguồn từ Israel đã phát triển lên quy mô 50 triệu USD (khoảng 7,7 tỷ yên) bằng cụm từ khóa "bắc cầu khoảng cách giữa AI và nhân viên", thể hiện sự đặt vào bối cảnh mang tính khu vực một cách hiệu quả.
Trái lại, Agentic SOP có xu hướng được đưa tin kèm theo những cách diễn đạt giá trị gây sốc bởi CNBC, Bloomberg, WSJ và TechCrunch như là "đỉnh cao của làn sóng AI tại San Francisco". Khoản huy động 950 triệu USD của Sierra được khắc họa trong khung tranh giành quyền bá chủ của AI doanh nghiệp, đúng như CNBC viết "Sierra của Bret Taylor huy động gần 1 tỷ USD", TechCrunch viết "cuộc đua giành quyền sở hữu AI doanh nghiệp trở nên nghiêm túc", và Bloomberg viết "định giá tăng gấp ba lần trong 18 tháng". Về mức định giá cuối cùng của Sierra, TechCrunch ghi 15 tỷ USD, Tech Startups ghi 15,8 tỷ USD, CMSWire ghi 15 tỷ USD, có sự dao động nhẹ giữa các hãng truyền thông (có lẽ 15,8 tỷ USD là post-money và 15 tỷ USD là con số đã làm tròn). Mức định giá 25 tỷ USD của Cognition đang ở giai đoạn "đàm phán", và cần được hiểu như một yếu tố chưa xác định, bao gồm cả việc Bloomberg ghi chú lưu ý rằng "đang trong quá trình thương thảo và các điều khoản có thể thay đổi".
Trên truyền thông Nhật Bản, Nikkei và Toyo Keizai có đề cập trong các bài tóm tắt với tiêu đề "AI nghiệp vụ của Mỹ tiến hóa sang tự động tạo SOP", nhưng những bài viết xử lý bối cảnh sâu như mối quan hệ với Stanford của Workhelix, bối cảnh ứng phó với quy định châu Âu của Interloom, hay luận đề "Services-as-a-Software" của Sequoia thì vẫn còn ít. Forbes Japan liên tục cho ra các bài dịch về Cloud 100 và Sequoia AI Ascent, cung cấp phạm vi đưa tin tương đối sâu hơn.
Ngoài giọng điệu đưa tin, các con số về quy mô thị trường cũng có sự dao động lớn tùy theo hãng truyền thông và công ty nghiên cứu. Fortune Business Insights dự báo thị trường agent sẽ đạt quy mô từ 914 triệu USD vào năm 2026 lên 13,919 tỷ USD (khoảng 2.160 tỷ yên), và đến năm 2034 vượt khoảng 2 nghìn tỷ yên, cho thấy CAGR 40,5% mỗi năm. Mặt khác, các dự báo khác như của Joget tính toán quy mô thị trường năm 2026 là 1,09–1,206 tỷ USD, tăng trưởng nhanh lên khoảng 93 tỷ USD (khoảng 14,4 nghìn tỷ yên) vào năm 2030, với mức 44–46% mỗi năm. Gartner dự báo theo kịch bản Baseline rằng "40% ứng dụng doanh nghiệp sẽ tích hợp sẵn các AI agent chuyên biệt theo tác vụ vào cuối năm 2026, mở rộng nhanh từ mức dưới 5% của năm 2025", và trong kịch bản tốt nhất nhìn nhận thị trường sẽ biến thành quy mô 1,45 nghìn tỷ USD (khoảng 225 nghìn tỷ yên) vào năm 2035. McKinsey thì đưa ra con số riêng rằng 44% lao động tại Mỹ có thể được thực hiện bằng năng lực AI agent hiện tại, và đến năm 2030 sẽ tạo ra giá trị kinh tế 2,9 nghìn tỷ USD (khoảng 450 nghìn tỷ yên) tại Mỹ; tuy độ lớn của quy mô chênh nhau hàng bậc tùy từng hãng truyền thông, nhưng tất cả đều thống nhất về định hướng "khổng lồ".
Cấu trúc kẻ thắng và người thua nhìn từ góc độ nhà đầu tư
Khi quan sát tổng thể các khoản đầu tư của các quỹ VC ở Thung lũng Silicon, ta thấy hiện lên một bức tranh phân chia giữa nhóm thắng cuộc và những hạng mục đang dần bị bỏ lại phía sau. Nhóm thắng cuộc lớn nhất là những người chơi "kiểu hoàn thành dịch vụ trọn gói" trong lĩnh vực Agentic SOP — Sierra, Decagon, Cognition, Cresta và Norm Ai đang leo từng bậc thang định giá tính đến thời điểm tháng 5 năm 2026. Thế mạnh của họ nằm ở chỗ thay vì chỉ xuất ra SOP đơn thuần dưới dạng tài liệu, họ có thể ký với các doanh nghiệp khách hàng những hợp đồng cam kết "làm cho xong" công việc đến tận cùng, và nhờ đó cắt lấy được ngân sách nhân sự (Sequoia ước tính lớn gấp khoảng 6 lần ngân sách phần mềm).
Nhóm thắng cuộc tiếp theo là các công ty process intelligence trải rộng cả Screen-to-SOP lẫn Passive Capture. Celonis được xếp vào vị trí dẫn đầu (Leader) trong lĩnh vực Process Intelligence tại Gartner Magic Quadrant tháng 2 năm 2026, và đã tuyên bố tham chiến vào hạ tầng Agentic SOP bằng sự kết hợp giữa AgentC suite và Process Copilots. Glean đang tăng vọt định giá với tư cách "lớp thống nhất nằm phía sau ứng dụng" — triển khai liên kết agent trên nền tảng tìm kiếm thời gian thực kiểu ClickHouse.
Những kẻ thách thức được chú ý là Interloom xuất phát từ châu Âu, cùng các startup Passive Capture như Workhelix và Synaply vốn khoác lớp vỏ hướng người tiêu dùng để chiến đấu. Họ theo chiến lược bán "đồ thị tri thức đặc thù của từng công ty" hơn là "tiêu chuẩn SOP chung cho cả ngành", qua đó đối đáp trực diện với lập luận phản biện kinh điển của giới doanh nghiệp rằng "công ty chúng tôi đặc thù". Tin tức Q1 năm 2026 về việc một tập đoàn lớn của Mỹ áp dụng Interloom (Yahoo Finance, TheNextWeb) được đọc như một dấu hiệu cho thấy cách tiếp cận kiểu đồ thị ngữ cảnh này đã bắt đầu được cả các ông lớn Mỹ chấp nhận.
Ngược lại, cũng có những lĩnh vực được dự đoán sẽ tương đối chật vật. Thứ nhất, lớp DAP truyền thống kiểu Whatfix chỉ "hiển thị hướng dẫn trên màn hình" nhiều khả năng sẽ sớm bị nuốt chửng bởi các "agent sử dụng máy tính" như Scribe, Guidde, hay Anthropic Cowork. WalkMe — đã về dưới trướng SAP — cũng giảm sức hấp dẫn với tư cách một ứng viên thâu tóm độc lập. Thứ hai, "phần cứng tiêu dùng kiểu ghi âm liên tục" mà Limitless là biểu tượng đang lộ rõ rủi ro rằng quy định và ma sát xã hội vượt lên trên tiến bộ công nghệ, và được nhìn nhận là khó để một startup độc lập tự mình sống sót. Thứ ba, mô hình quản lý tri thức kiểu SaaS cũ vẫn tiếp tục lưu trữ SOP dưới dạng PDF hay HTML đơn thuần, nếu không chuyển sang định dạng máy đọc được tối ưu hóa cho việc nạp dữ liệu cho AI, có lẽ sẽ ngày càng bị loại khỏi các RFP (yêu cầu đề xuất) của doanh nghiệp.
Và thay đổi cấu trúc thú vị nhất là vị thế của "các tên tuổi kỳ cựu trong BPM (quản lý quy trình nghiệp vụ) của ngành dịch vụ phần mềm". Những kẻ chiến thắng của thời đại RPA như UiPath, Automation Anywhere, Blue Prism (dưới trướng SS&C) có nguy cơ bị đẩy xuống thành "chỉ là hệ thống thực thi" trong thế giới Agentic SOP, nên các hãng đều đang tiến hành đại tu thiết kế của mình theo hướng LLM-native. UiPath từ đầu năm 2026 đã đẩy mạnh một khung vận hành gọi là "AgentOps", còn Automation Anywhere thì đề cao "Autonomous Enterprise" đến mức trở thành đề tài nghiên cứu tình huống (case study) của Trường Kinh doanh Sau đại học Stanford. Cuộc tranh luận về cái chết của RPA đã kéo dài từ năm 2025, nhưng có cảm giác kết cục gần như đã được định đoạt trong nửa đầu năm 2026.
Những diễn biến dự kiến từ nửa cuối năm 2026 trở đi, và nên quan sát điều gì vào thời điểm nào
Các mốc cụ thể cần theo dõi trong khoảng 12 tháng kể từ tháng 5 năm 2026 có thể được sắp xếp theo một số trục.
Thứ nhất, nhiều khả năng quá trình chuẩn bị niêm yết của "lớp thực thi" trong Agentic SOP sẽ tiến triển. Tại thời điểm tháng 5 năm 2026, Sierra có ARR thường niên 150 triệu USD, mức định giá 15,8 tỷ USD, hệ số ARR khoảng 100 lần — một mức cực kỳ cao; nhưng nếu vào cùng kỳ năm sau ARR vượt mốc 500 triệu USD, thì việc IPO trong khoảng từ quý 2 đến quý 3 năm 2027 sẽ trở thành một lựa chọn hiện thực. Tương tự, nếu Decagon có thể kỳ vọng ARR vượt 100 triệu USD vào quý 4 năm 2026, thì một sự kiện thanh khoản chủ yếu xoay quanh vòng Series E hoặc giao dịch thứ cấp (secondary) trong năm 2027 cũng nằm trong tầm nhìn. Cresta, Glean và Cognition cũng liên tục được nhiều phương tiện truyền thông nhắc tên như những ứng viên IPO.
Thứ hai, liệu sự phổ biến thực sự ở quy mô doanh nghiệp của Anthropic Coework và sự tăng trưởng của OpenAI ChatGPT Atlas có gây sức ép lên sự tồn tại của các công ty Agentic SOP độc lập hay không sẽ là tâm điểm của nửa cuối năm 2026. Những doanh nghiệp có lớp dày — kiểu như AOP của Decagon, "đặt các rào chắn (guardrail) cấp doanh nghiệp và tri thức nghiệp vụ lên trên mô hình nền tảng" — sẽ trụ vững được, nhưng những công ty hạng trung cung cấp giá trị bằng các lớp bọc (wrapper) mỏng nhiều khả năng sẽ bị đào thải. Bessemer dự đoán rằng "từ quý 4 năm 2026 đến quý 2 năm 2027 sẽ xảy ra làn sóng thâu tóm tập trung trong lĩnh vực bảo mật và quản trị tác nhân (agent)".
Thứ ba, môi trường pháp lý đối với Passive Capture sẽ trở nên khắt khe hơn một bậc nhờ sự kết hợp giữa Đạo luật AI của EU và GDPR của EU, và có khả năng các công ty có trụ sở tại châu Âu như Interloom sẽ bắt đầu thâm nhập vào các ông lớn của Mỹ với tư cách nhà vô địch của "Passive Capture thân thiện với quy định". Ngược lại, hướng tiếp cận kiểu "phân rã ở cấp độ tác vụ và lộ trình áp dụng" mà Workhelix đang theo đuổi đang có xu hướng được các CIO và CHRO ủng hộ mạnh hơn từ góc độ quản trị doanh nghiệp, và dòng chảy được tích hợp vào bộ công cụ tiêu chuẩn của các công ty tư vấn như Accenture, Deloitte và KPMG cũng đã bắt đầu lộ diện. Việc Guidde tuyên bố rõ ràng về quan hệ đối tác triển khai với KPMG và Deloitte trong vòng gọi vốn lần này có thể xem là một ví dụ đi trước cho xu hướng đó.
Thứ tư, việc triển khai tại thị trường Nhật Bản sẽ diễn biến ra sao cũng là một điểm cần quan sát. Tính đến tháng 5 năm 2026, Sierra và Decagon chưa chính thức công bố thành lập pháp nhân tại Nhật Bản, nhưng từ thực tế rằng World Innovation Lab (WiL) đã đầu tư lớn vào Cresta, và Qualcomm Ventures đã rót vốn vào Guidde, có thể thấy mạng lưới đại lý bán lại (reseller) hướng đến các tập đoàn lớn của Nhật đang dần được hình thành. Một thách thức đặc thù của Nhật Bản là các SOP (tài liệu quy trình nghiệp vụ) dựa trên giấy tờ rất đồ sộ, lại còn thường xuyên bao gồm quy trình "đóng dấu và ký triện (hanko)", nên nếu Screen-to-SOP hay Passive Capture được nhập khẩu nguyên trạng thì có nguy cơ tỷ lệ phù hợp sẽ thấp. Trái lại, một thị trường ngách chuyển đổi SOP giấy sang định dạng AOP (Agent Operating Procedure) thông qua OCR có khả năng sẽ hình thành tại thị trường Nhật Bản. Tại nhiều hội nghị ngành đã nghe được các nhân chứng từ giới trong ngành cho biết NRI, Fujitsu và NEC đã đang tiến hành R&D nội bộ theo hướng này, và việc liệu có xuất hiện những doanh nghiệp độc lập do chính các công ty Nhật khởi xướng vào nửa cuối năm 2026 hay không là điều đáng quan tâm.
Thứ năm, là diễn biến của chính quy mô thị trường. Theo nhiều nghiên cứu, thị trường Agentic AI được cho là sẽ khởi đầu từ khoảng 10 tỷ USD (khoảng 1,5 nghìn tỷ yên) vào năm 2026 và mở rộng lên quy mô 90–140 tỷ USD (khoảng 14–22 nghìn tỷ yên) vào đầu thập niên 2030. Đối lại, ước tính của Sequoia về "Services-as-a-Software" (10 nghìn tỷ USD = khoảng 1.550 nghìn tỷ yên) là quá lớn, nhưng đây là con số lấy theo cận trên của "toàn bộ chi tiêu lao động bị chiếm lấy", và trên thực tế phần mà các công ty tác nhân có thể tính phí chỉ là một phần trong đó. Dù vậy, gần như chắc chắn rằng quy mô sẽ lớn gấp nhiều lần thị trường phần mềm.
Cuối cùng, bốn lớp Screen-to-SOP, Video-to-SOP, Passive Capture và Agentic SOP đang hướng đến chỗ được tích hợp lại, không phải như những thị trường riêng biệt, mà như một đường ống (pipeline) duy nhất: "chuyển hóa tri thức ngầm trong đầu của những người lành nghề thành định dạng máy có thể đọc được, để tác nhân thực thi". Các quỹ đầu tư mạo hiểm ở Thung lũng Silicon đang đầu tư mạnh vào từng lớp của đường ống này, và phía doanh nghiệp thì các nhu cầu "muốn giảm thiểu thất thoát tri thức do nhân sự kỳ cựu nghỉ hưu", "muốn lấp đầy tình trạng thiếu nhân lực", "muốn cắt giảm khối lượng công việc tuân thủ (compliance)" đang ăn khớp với nhau, khiến quá trình tích hợp ngăn xếp (stack) đang tiến triển nhanh chóng. Nửa cuối năm 2026 có vẻ sẽ là 12 tháng mang tính quyết định, khi các doanh nghiệp tiêu biểu của từng lớp tiến tới bước tiếp theo (IPO, thâu tóm, ra mắt dịch vụ mới).
Nguồn
- Sequoia Capital: 2026 — Đây là AGI
- Sequoia Capital: AI Ascent 2026
- Andreessen Horowitz: Hiện trạng AI – Nghiên cứu 100 nghìn tỷ token
- Andreessen Horowitz: Những ý tưởng lớn 2026 – Lớp điều phối doanh nghiệp
- Andreessen Horowitz: Những ý tưởng lớn 2026 – Giao diện tác tử
- Andreessen Horowitz: Sự trỗi dậy của việc sử dụng máy tính và các đồng nghiệp tác tử
- Bessemer Venture Partners: Báo cáo chuẩn đối sánh Cloud 100 năm 2025
- Bessemer Venture Partners: Bảo mật các tác tử AI – thách thức an ninh mạng định hình năm 2026
- Bessemer Venture Partners: Lộ trình – Các hệ thống hành động AI
- Lightspeed huy động hơn 9 tỷ USD trong các quỹ mới nhằm hậu thuẫn những đơn vị định hình ngành trên toàn cầu
- TechCrunch: Scribe đạt định giá 1,3 tỷ USD khi chuyển hướng chứng minh nơi AI thực sự sinh lời
- Scribe: Huy động 75 triệu USD vòng Series C để vận hành quy trình doanh nghiệp bằng AI
- Scribe Optimize: Quan sát, thấu hiểu và cải thiện công việc
- Tango: Công bố vòng Series A trị giá 14 triệu USD và ra mắt Workspaces cho các nhóm
- Tango: Huy động 5,7 triệu USD vòng hạt giống để ra mắt nền tảng trí tuệ quy trình và cách mạng hóa tài liệu hướng dẫn
- CTech: Guidde huy động 50 triệu USD vòng Series B khi các công ty tìm kiếm công cụ thu hẹp khoảng cách giữa AI và nhân viên
- VentureBeat: Học bắt chước trực quan – Guidde huấn luyện các tác tử AI bằng "video chuyên gia" của con người thay vì tài liệu
- TechCrunch: Workhelix tận dụng nhiều năm nghiên cứu để giúp doanh nghiệp xác định nơi áp dụng AI
- Trang danh mục đầu tư Workhelix – AI Fund (Andrew Ng)
- Fortune: Interloom, công ty muốn giải quyết bài toán "tri thức ngầm" của các tác tử AI, huy động 16,5 triệu USD vốn đầu tư mạo hiểm
- Interloom: Bài blog công bố vòng hạt giống
- EU-Startups: Startup Đức Interloom giành được 14,2 triệu euro vốn hạt giống cho hạ tầng tri thức tác tử AI
- TechCrunch: Meta thâu tóm startup thiết bị AI Limitless
- CNBC: Meta thâu tóm công ty thiết bị đeo AI Limitless
- SF Standard: Các ông lớn công nghệ đang gom các startup thiết bị đeo AI. Khách hàng thì bất an
- TechCrunch: Sierra huy động 950 triệu USD khi cuộc đua giành quyền kiểm soát AI doanh nghiệp trở nên gay gắt
- CNBC: Sierra của Bret Taylor huy động gần 1 tỷ USD trong đợt rót vốn AI mới nhất
- Tech Startups: Startup AI Sierra của Bret Taylor huy động 950 triệu USD với định giá 15,8 tỷ USD
- TechCrunch: Sierra của Bret Taylor đạt 100 triệu USD ARR trong chưa đầy hai năm
- Decagon: Quy trình vận hành tác tử (AOPs)
- Decagon: Từ SOP thủ công đến logic AI tự động
- AI2Work: Decagon đạt định giá 4,5 tỷ USD khi các tác tử hỗ trợ AI mở rộng quy mô
- Cresta: Hoàn tất vòng Series D trị giá 125 triệu USD để thúc đẩy việc ứng dụng AI lấy con người làm trung tâm trong trung tâm liên hệ
- Norm Ai: Huy động 48 triệu USD để biến các quy định thành tác tử AI tuân thủ
- PR Newswire: Norm Ai và Microsoft – AI Pháp lý & Tuân thủ được xây dựng theo cách công việc thực sự diễn ra
- Bloomberg: Công ty lập trình AI Cognition đang đàm phán gọi vốn với định giá 25 tỷ USD
- SiliconANGLE: Cognition đang đàm phán huy động hàng trăm triệu USD với định giá 25 tỷ USD
- OpenAI: Giới thiệu ChatGPT Atlas
- Anthropic Claude: Tài liệu công cụ sử dụng máy tính
- CNBC: Anthropic cho biết Claude nay có thể sử dụng máy tính của bạn để hoàn thành công việc thay bạn trong nỗ lực đẩy mạnh tác tử AI
- Glean: Vòng Series E và ra mắt tính năng nhắc lệnh thế hệ mới
- Crunchbase News: Trợ lý công việc bằng AI Glean giành được 150 triệu USD với định giá 7,2 tỷ USD
- TechCrunch: Cuộc giành đất AI doanh nghiệp đã bắt đầu — Glean đang xây dựng lớp nền bên dưới giao diện
- Otter.ai: Khép lại năm 2025 mang tính chuyển đổi với cột mốc 100 triệu USD ARR
- Celonis: Được vinh danh là Đơn vị dẫn đầu trong Gartner Magic Quadrant 2026 về Trí tuệ quy trình
- SiliconANGLE: Trí tuệ quy trình của Celonis biến AI doanh nghiệp thành ROI
- Loom (Atlassian): Tài liệu về các tính năng AI của Loom
- Atlassian Loom: Quy trình AI cho tài liệu hướng dẫn
- Gartner: Dự đoán 40% ứng dụng doanh nghiệp sẽ tích hợp tác tử AI chuyên biệt cho từng tác vụ vào năm 2026
- Fortune Business Insights: Quy mô, thị phần và dự báo thị trường AI tác tử 2026-2034
- California Management Review: Tri thức ngầm là hào cạnh tranh tiếp theo của bạn
- Synaply: Công cụ tri thức cho các tổ chức