Chương 1 Tại sao RAG hiện nay buộc phải trở thành "Agentic"
Bài báo năm 2020 có tiêu đề *Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks* được Douwe Kiela và các cộng sự đăng lên arXiv trong thời gian làm việc tại Facebook AI Research chính là nguồn gốc của thuật ngữ RAG ngày nay. Quy trình được trình bày trong đó về sau được gọi là "Naive RAG" — một pipeline đơn giản gồm: chuyển đổi truy vấn thành Embedding, lấy k chunk gần nhất trong không gian vector, rồi chèn chúng vào LLM như một ngữ cảnh. Sau khi ChatGPT xuất hiện vào cuối năm 2022, Naive RAG đã phổ biến với tốc độ chóng mặt, nhưng trong quá trình triển khai thực tế tại các doanh nghiệp giai đoạn 2023–2024, ba rào cản lớn đã lộ rõ.
Thứ nhất, thiết kế cố gắng biểu diễn mọi truy vấn trong một không gian Embedding duy nhất vốn có điểm yếu cấu trúc khi xử lý các truy vấn dài có ý định phức hợp hoặc các câu hỏi đòi hỏi lập luận nhiều bước. Thứ hai, tìm kiếm vector giỏi trả về các tài liệu "tương đồng về mặt ngữ nghĩa", nhưng không thể đảm bảo tài liệu đó "đúng về mặt thực tế đối với truy vấn". Thứ ba, dữ liệu doanh nghiệp không chỉ là tài liệu phi cấu trúc mà còn phân tán qua các bảng SQL, knowledge graph, API, sự kiện thời gian thực, khiến cách tiếp cận nhét tất cả vào một vector DB duy nhất trở nên phi thực tế.
Trong giới học thuật giai đoạn 2023–2024, hàng loạt bài báo liên tiếp xuất hiện nhằm phá vỡ những giới hạn này. Self-RAG của Asai et al. (arXiv:2310.11511, tháng 10/2023) giới thiệu cơ chế *reflection token* giúp chính LLM tự phán định "có cần retrieve không" và "kết quả retrieve có hợp lệ không", mở ra con đường để mô hình tự quyết định động việc tìm kiếm. CRAG (Corrective RAG, arXiv:2401.15884) do Yan et al. công bố tháng 1/2024 thiết kế một bộ đánh giá tìm kiếm nhẹ trả về điểm độ tin cậy, và kích hoạt tìm kiếm Web như một mở rộng bên ngoài khi độ tin cậy thấp. Adaptive-RAG của Jeong et al. (arXiv:2403.14403, được NAACL 2024 chấp nhận, tháng 3/2024) đề xuất cấu trúc ba tầng: đặt một LM nhỏ ở phía trước để phân loại độ phức tạp của truy vấn, sau đó định tuyến — truy vấn đơn giản không cần tìm kiếm, truy vấn trung bình tìm kiếm một lần, truy vấn phức tạp tìm kiếm lặp lại. Các bài báo này được xây dựng trên nền tảng thiết kế cơ bản của mô hình ReAct (Yao et al., arXiv:2210.03629, ICLR 2023) — "đan xen lập luận và hành động" — và đến đầu năm 2025 đã trở thành tiêu chuẩn thực tế của ngành.
Xu hướng này được Singh, Ehtesham, Kumar, Khoei, Vasilakos và các cộng sự hệ thống hóa vào tháng 1/2025 trong bài *A Survey of Agentic Retrieval-Augmented Generation for Large Language Models* (arXiv:2501.09136), phân loại sự tiến hóa của RAG thành bốn thế hệ: "Naive RAG → Advanced RAG → Modular RAG → Agentic RAG". Bài báo định nghĩa: "Agentic RAG quản lý động chiến lược tìm kiếm và liên tục tinh chỉnh hiểu biết ngữ cảnh bằng cách tích hợp các mẫu thiết kế như phản tư (reflection), lập kế hoạch (planning), sử dụng công cụ (tool use), và phối hợp đa tác nhân."
Tóm tắt sự chuyển đổi này từ góc nhìn kỹ sư Silicon Valley: Naive RAG là "lời gọi hàm", còn Agentic RAG là "thực thi tiến trình". Cái trước là pipeline chạy một chiều từ truy vấn đến câu trả lời; cái sau có trạng thái và vòng lặp, thực hiện retry, routing, gọi công cụ khi cần — gần với một tiến trình hệ điều hành hơn. Blog kỹ thuật *How we built our multi-agent research system* mà Anthropic công bố tháng 6/2025 cho thấy cấu hình orchestrator–worker — với Claude Opus 4 làm leader và Claude Sonnet 4 làm sub-agent — vượt trội hơn Claude Opus 4 đơn lẻ tới 90,2% trong đánh giá nội bộ, chứng minh định lượng lợi thế của cấu hình đa tác nhân. Đồng thời, bài viết cũng thẳng thắn chỉ ra rằng "đa tác nhân tiêu thụ token nhiều hơn khoảng 15 lần so với chat thông thường" và "lượng token sử dụng giải thích 80% phương sai hiệu suất trong đánh giá duyệt web" — đây là hiệu suất chỉ đạt được với chi phí đánh đổi.
Dữ liệu thị trường cũng xác nhận sự chuyển dịch này. Trong thông cáo báo chí ngày 26/8/2025, Gartner dự báo tỷ lệ ứng dụng tích hợp AI agent chuyên biệt — dưới 5% vào năm 2025 — sẽ tăng vọt lên 40% vào cuối năm 2026. Đến năm 2028, 33% phần mềm doanh nghiệp sẽ tích hợp AI kiểu agent và 70% ứng dụng AI sẽ áp dụng phương thức đa tác nhân. Theo báo cáo của MarketsandMarkets, riêng thị trường RAG sẽ tăng trưởng với CAGR 38,4%, từ 1,94 tỷ USD (khoảng 291 tỷ yên) năm 2025 lên 9,86 tỷ USD (khoảng 1.479 tỷ yên) năm 2030; Grand View Research ước tính CAGR 49,1%, đạt 11 tỷ USD (khoảng 1.650 tỷ yên) vào năm 2030. Thị trường vector DB được MarketsandMarkets dự báo tăng trưởng CAGR 27,5%, từ 2,65 tỷ USD (khoảng 397,5 tỷ yên) năm 2025 lên 8,95 tỷ USD (khoảng 1.342,5 tỷ yên) năm 2030. Fortune Business Insights dự báo quy mô thị trường AI kiểu agent nói chung sẽ bùng nổ với CAGR 40,5%, từ 9,14 tỷ USD (khoảng 1.371 tỷ yên) năm 2026 lên 139,19 tỷ USD (khoảng 20.878,5 tỷ yên) năm 2034. Những con số này đã nâng Agentic RAG từ "thí nghiệm của một số AI lab" lên thành "thị trường hạ tầng trị giá hàng nghìn tỷ yên".
Chương 2 Công nghệ cốt lõi và mẫu thiết kế của Agentic RAG
Nếu một kỹ sư định nghĩa Agentic RAG trong một câu, đó là "hệ thống có vòng lặp gọi tìm kiếm như một công cụ, cập nhật trạng thái và quyết định trong mỗi vòng lặp." Trong định nghĩa này, có ít nhất sáu yếu tố kỹ thuật độc lập được đan xen.
Yếu tố thứ nhất là định tuyến truy vấn (query routing), viết lại truy vấn (rewriting), phân rã truy vấn (decomposition) và HyDE (Hypothetical Document Embedding). Định tuyến là quá trình tác nhân nhận truy vấn của người dùng và xác định nên đẩy nó vào vector DB, chuyển đổi thành truy vấn SQL, chuyển sang tìm kiếm Web, hay dịch thành truy vấn Cypher cho knowledge graph. Viết lại là quá trình chuyển đổi cách diễn đạt thông thường của người dùng sang dạng tối ưu cho tìm kiếm, thường sử dụng LLM quy mô nhỏ. Phân rã là quá trình chia câu hỏi phức hợp như "B khác A như thế nào và C liên quan ra sao" thành nhiều truy vấn con. HyDE là phương pháp do Gao et al. (2022) đề xuất, yêu cầu LLM tạo ra câu trả lời giả định cho truy vấn của người dùng, sau đó nhúng (embed) văn bản câu trả lời giả định đó để sử dụng trong tìm kiếm, nhằm thu hẹp khoảng cách về phong cách giữa truy vấn và tài liệu.
Yếu tố thứ hai là tìm kiếm lai (hybrid search). Từ 2025 đến 2026, đồng thuận ngành đã hội tụ về cấu trúc ba tầng "dense (vector dày đặc) + sparse (BM25/SPLADE) + xếp hạng lại." Dense nắm bắt sự tương đồng ngữ nghĩa, sparse nắm bắt sự trùng khớp từ vựng, bù đắp cho nhau những điểm yếu. Triển khai tham chiếu RAG Blueprint của NVIDIA công bố trên GitHub cung cấp tìm kiếm lai dense+sparse có thể hoán đổi giữa ElasticSearch và Milvus, tìm kiếm đa collection, lập chỉ mục/truy vấn tăng tốc GPU, và chuẩn hóa việc hợp nhất bằng Reciprocal Rank Fusion (RRF). Bài báo "Contextual Retrieval" mà Anthropic công bố vào tháng 9 năm 2024 đã thêm bước tiền xử lý đặt trước phần giải thích ngữ cảnh bằng Claude trước khi nhúng chunk, cho kết quả ấn tượng: giảm 35% tỷ lệ thất bại tìm kiếm top 20 so với Embedding đơn thuần, giảm 49% khi kết hợp BM25, và giảm 67% khi kết hợp xếp hạng lại, qua đó ngay lập tức viết lại tiêu chuẩn triển khai tiền xử lý lập chỉ mục RAG.
Yếu tố thứ ba là xếp hạng lại (reranking). Đây là quá trình áp dụng cross-encoder tốn kém hơn lên tập ứng viên thu được từ tìm kiếm dense và sparse để sắp xếp lại thứ tự. Rerank 3 của Cohere phát hành vào tháng 9 năm 2024 có độ dài context 4K, và công ty tuyên bố "Rerank chỉ truyền các tài liệu liên quan nhất vào pipeline RAG và quy trình làm việc tác nhân, giảm lượng token sử dụng, tối thiểu hóa độ trễ và cải thiện độ chính xác." Dòng BGE Reranker v2 của BAAI công bố vào tháng 3 năm 2024 (v2-m3, v2-gemma, v2-minicpm-layerwise) đã trở thành tiêu chuẩn trong cộng đồng OSS. ColBERT/ColBERTv2 do Omar Khattab et al. đề xuất theo cách tiếp cận khác là "late interaction," đạt chất lượng BERT với FLOPs thấp hơn hai bậc và throughput nhanh hơn hai bậc, trong khi ColBERTv2 giảm dung lượng lưu trữ từ 6 đến 10 lần.
Yếu tố thứ tư là tự phản chiếu (self-reflection) và tự sửa chữa. Reflection token của Self-RAG và confidence scoring của CRAG thuộc dòng này. Về mặt triển khai, mẫu conditional edge (cạnh có điều kiện) mà LangGraph cung cấp là điển hình, chèn các node phán định "kết quả tìm kiếm có đủ không" và "kết quả tạo sinh có nhất quán về mặt thực tế không" để điều khiển vòng lặp tìm kiếm một cách động. Adaptive RAG dựa trên LangGraph, kết hợp selective routing và validation, được nhiều benchmark triển khai báo cáo có thể giảm ảo giác (hallucination) tới 78% so với RAG tĩnh.
Yếu tố thứ năm là GraphRAG. GraphRAG do Edge et al. thuộc Microsoft Research công bố tại arXiv:2404.16130, với phiên bản v2 ra mắt vào tháng 2 năm 2025, thực hiện lập chỉ mục hai tầng: sử dụng LLM để xây dựng knowledge graph thực thể từ tập tài liệu, sau đó tính trước phát hiện cộng đồng và tóm tắt cộng đồng. Nhờ đó, với các truy vấn loại "global sensemaking" (xu hướng tổng thể, tóm tắt toàn diện) trên corpus quy mô hàng triệu token, hệ thống đạt kết quả vượt trội hơn hẳn RAG vector thuần túy về cả tính toàn diện lẫn đa dạng. Hơn nữa, LazyGraphRAG công bố vào tháng 11 năm 2024 đã giảm chi phí lập chỉ mục xuống ngang bằng RAG vector (0,1% của GraphRAG đầy đủ), đồng thời giảm chi phí truy vấn xuống 1/700 so với GraphRAG Global Search trong khi đạt chất lượng trả lời tương đương, và với chỉ 4% chi phí truy vấn, vượt qua GraphRAG trên cả hai loại truy vấn global và local, thực hiện được cả hai mục tiêu chi phí/chất lượng. LazyGraphRAG được tích hợp vào Microsoft Discovery và Azure Local trong năm 2025, đã được triển khai ở cấp độ sản phẩm.
Yếu tố thứ sáu là bộ nhớ dài hạn và quản lý trạng thái. Bài luận "Your harness, your memory" mà Harrison Chase công bố vào tháng 4 năm 2026 đã nêu rõ sự phân tách giữa bộ nhớ ngắn hạn của tác nhân (tin nhắn trong hội thoại và kết quả gọi công cụ lớn) với bộ nhớ dài hạn (ký ức xuyên phiên), cùng với tư tưởng chuyển việc quản lý bộ nhớ sang phía agent harness. Ông triển khai "bộ nhớ làm việc dựa trên hệ thống tệp," "công khai kỹ năng dần dần," và "bảo mật phân lớp" trong LangChain Deep Agents, đồng thời mạnh mẽ ủng hộ open source hóa tầng bộ nhớ với lập luận "nếu chọn closed source, bạn mất quyền kiểm soát dữ liệu của mình." Điều này tương phản sắc nét với chiến lược của Responses API của OpenAI (công bố tháng 3 năm 2025) nhằm độc quyền hóa các hosted tool primitives (file_search, web_search, function calling), tạo thành điểm phân kỳ tư tưởng và là luận điểm trung tâm trong các cuộc thảo luận về AI tác nhân năm 2026.
Chi phí triển khai tích hợp sáu yếu tố này trong môi trường production năm 2026 không hề nhẹ. Theo hướng dẫn production đầu năm 2026 của nhà tư vấn độc lập Jahanzaib, đơn giá mỗi truy vấn tìm kiếm tiêu chuẩn là 0,06–0,09 USD (khoảng 9–14 yên), nhưng với Agentic RAG đa bước phức tạp, con số này tăng vọt lên 0,18–0,31 USD (khoảng 27–47 yên). Với triển khai quy mô vừa, vector store khoảng 50–200 USD/tháng (khoảng 7.500–30.000 yên) và tổng chi phí khoảng 2.200–3.400 USD/tháng (khoảng 330.000–510.000 yên) là mức thông thường, với mục tiêu giữ độ trễ P95 dưới 2,5 giây. Thêm xác thực tìm kiếm làm tăng độ trễ 2–3 giây mỗi truy vấn nhưng cải thiện tính nhất quán thực tế. Kết hợp semantic caching giảm 20–35% chi phí với workload lặp cao, kết hợp intelligent routing giảm 30–45% chi phí và 25–40% độ trễ với workload hỗn hợp — đây là ước tính thực tế từ thực địa.
Chương 3 Tầng Framework / Orchestration ―― LangChain, LlamaIndex, CrewAI, và Microsoft
Cuộc cạnh tranh framework để triển khai tầng ứng dụng Agentic RAG đã đạt đến một điểm quyết định vào mùa thu năm 2025. LangChain đã huy động được 125 triệu đô la (khoảng 18,75 tỷ yên) trong vòng Series B do IVP dẫn đầu vào ngày 20–21 tháng 10 năm 2025, gia nhập câu lạc bộ kỳ lân với định giá post-money 1,25 tỷ đô la (khoảng 187,5 tỷ yên). Các nhà đầu tư tham gia bao gồm CapitalG, Sapphire Ventures, và các nhà đầu tư chiến lược gồm ServiceNow Ventures, Workday Ventures, Cisco Investments, Datadog Ventures, Databricks Ventures, cùng với việc các nhà đầu tư hiện hữu là Sequoia, Benchmark và Amplify tiếp tục rót thêm vốn. Như Harrison Chase đã chia sẻ trên podcast của Sequoia Capital mang tên "Context Engineering Our Way to Long-Horizon Agents", "Từ simple RAG chain đơn giản của 3 năm trước, qua các luồng phức tạp với LangGraph, đến agent harness — cách triển khai tối ưu đã thay đổi một cách劇 kịch tính". Để đáp ứng sự thay đổi này, LangChain cũng đã hoàn thiện danh mục sản phẩm ba tầng gồm LangChain (framework nền tảng), LangGraph (orchestration dạng đồ thị) và LangSmith (quan sát & đánh giá), đồng thời ra mắt LangChain + LangGraph 1.0 song song với vòng Series B. Trong một cuộc phỏng vấn với tạp chí Fortune, bộ phận truyền thông của LangChain cho biết ARR thực tế của họ "thấp hơn và không phù hợp với chúng tôi ở thời điểm này" so với con số "trong khoảng 12–16 triệu đô la (khoảng 1,8–2,4 tỷ yên)" được đưa tin, ngụ ý rằng quỹ đạo tăng trưởng thực sự đang tăng tốc đến mức phù hợp với định giá 1,25 tỷ đô la mà IVP định giá. Danh sách khách hàng hiện hữu như Cisco, Replit, Clay, Cloudflare, Workday, ServiceNow cũng là bằng chứng cho thấy gói trả phí về quan sát & đánh giá đang hoạt động như một điểm thu hút trong quá trình mua sắm của doanh nghiệp.
LlamaIndex đã huy động được 19 triệu đô la (khoảng 2,85 tỷ yên) trong vòng Series A do Norwest Venture Partners dẫn đầu vào ngày 4 tháng 3 năm 2025 (với sự tham gia của Greylock, tổng vốn huy động đạt 27,5 triệu đô la / khoảng 4,1 tỷ yên), đồng thời ra mắt GA cho LlamaCloud. Nhà sáng lập Jerry Liu đã tuyên bố trên blog CEO rằng "LlamaIndex không còn chỉ là một RAG framework đơn thuần nữa, mà đã trở thành nền tảng cho Agentic Document Processing", thu hẹp phạm vi kinh doanh từ một bách hóa tổng hợp các abstraction thành "cơ sở hạ tầng tài liệu tốt nhất để sử dụng lâu dài". Trên thực tế, LlamaCloud tích hợp các tính năng như LlamaParse (phân tích tài liệu) và AgentWorkflow (công việc tri thức đa tác nhân trên dữ liệu phi cấu trúc), với hơn 10.000 tổ chức đã đăng ký danh sách chờ, trong đó có hơn 90 công ty thuộc Fortune 500 như Salesforce, KPMG, Carlyle và Rakuten. Con số 47K GitHub star và 5,2 triệu lượt tải xuống mỗi tháng (tính đến tháng 3 năm 2026) là bằng chứng cho thấy định vị chuyên biệt về tài liệu đang tạo ra sự phân khúc thành công với LangChain — framework dẫn đầu trong lĩnh vực. Trong bản tin đầu năm 2026, Jerry Liu nhận xét rằng "các coding agent (Claude Code, Cursor) đang hội tụ xung quanh hệ thống tệp, và agent chỉ cần 5–10 công cụ cốt lõi cộng với quyền truy cập hệ thống tệp là đủ để hoạt động", gợi ý hướng thiết kế bộ công cụ nhẹ như Agent Composer.
CrewAI, tập trung hoàn toàn vào phân công vai trò đa tác nhân, đã huy động được 18 triệu đô la (khoảng 2,7 tỷ yên) trong vòng gọi vốn do Insight Partners và boldstart ventures dẫn đầu vào tháng 10 năm 2024. ARR được Latka xác nhận vào tháng 7 năm 2025 là 3,2 triệu đô la (khoảng 480 triệu yên), nhưng số lần thực thi tác nhân trên nền tảng trong 12 tháng qua đã vượt 2 tỷ lần, và công ty công bố hơn 60% Fortune 500 là khách hàng. Kiến trúc sản phẩm dựa trên role-based agents with goals and tasks — một framework phân công và phối hợp các vai trò như "nhà nghiên cứu marketing", "nhà phân tích", "người viết" theo mô hình tổ chức con người — có mức độ trừu tượng cao hơn LangGraph và code triển khai ngắn hơn. Công ty đã GA enterprise cloud và nhấn mạnh khả năng triển khai đa đám mây trên AWS/GCP/Azure cùng tính độc lập với nhà cung cấp LLM.
Haystack, dự án OSS do deepset của Đức dẫn đầu, có vòng gọi vốn lớn gần nhất là Series B trị giá 30 triệu đô la (khoảng 4,5 tỷ yên) do Balderton Capital dẫn đầu vào tháng 8 năm 2023, và vào tháng 12 năm 2025 đã đổi thương hiệu dòng sản phẩm thành Haystack Enterprise Platform. Với trình chỉnh sửa pipeline trực quan, template và khả năng triển khai on-premise, công ty duy trì nền tảng khách hàng doanh nghiệp lớn mang đậm màu sắc châu Âu như Airbus, The Economist, NVIDIA và Comcast. Haystack đã thiết lập được vị thế là lựa chọn đáp ứng yêu cầu on-premise trong ngành sản xuất và quốc phòng.
Microsoft đã hợp nhất AutoGen và Semantic Kernel, ra mắt chính thức Microsoft Agent Framework 1.0 vào tháng 4 năm 2026 (public preview vào tháng 10 năm 2025, phiên bản chính thức vào tháng 4 năm sau). Framework này ghép nối abstraction tác nhân của AutoGen với các tính năng doanh nghiệp của Semantic Kernel (trạng thái phiên, type safety, middleware, telemetry), được trang bị orchestration workflow dựa trên đồ thị, hỗ trợ mô hình đa nhà cung cấp và khả năng tương tác chéo giữa A2A và MCP trên các runtime khác nhau. AutoGen từ nay chỉ được duy trì mà không phát triển thêm, và người dùng mới sẽ được hướng dẫn chuyển sang Agent Framework. Sự hợp nhất của Microsoft thực tế đã trở thành harness tiêu chuẩn cho các doanh nghiệp sử dụng Azure, tạo ra cấu trúc cạnh tranh trực tiếp với mô hình kinh doanh của LangChain.
Trong thế giới trình xây dựng workflow OSS, năm 2025 chứng kiến hàng loạt vụ hợp nhất quy mô lớn liên tiếp xảy ra. Dify — do nhóm Trung Quốc phát triển — đã huy động được 30 triệu đô la (khoảng 4,5 tỷ yên) vòng pre-A do HSG (Hillhouse) dẫn đầu, với hơn 131.000 GitHub star và 280 khách hàng doanh nghiệp bao gồm Maersk và Novartis, trở thành thành trì độc lập cuối cùng còn sót lại. Trong khi đó, Flowise đã được Workday mua lại vào tháng 8 năm 2025, và Langflow bị mua lại bởi DataStax (hiện thuộc IBM) vào đầu năm đó. Kịch bản "người chiến thắng danh mục đầu tư phải đối mặt với rủi ro bị thâu tóm" mà a16z và Sequoia liên tục cảnh báo đang trở thành hiện thực điển hình ở tầng trình xây dựng workflow.
Chương 4 Lớp nền tảng Vector DB / Tìm kiếm ―― Pinecone, Weaviate, Qdrant, Chroma, Turbopuffer
Để Agentic RAG hoạt động toàn diện, lớp phía sau tìm kiếm vector cũng cần trải qua một cuộc tiến hóa lớn. Các động thái trong lĩnh vực này từ năm 2025 đến 2026 là một trong những chủ đề đầu tư hạ tầng lớn nhất tại Silicon Valley.
Pinecone từng đứng ở đỉnh cao với tư cách là vua của danh mục này khi gọi vốn 100 triệu đô la (khoảng 150 tỷ yên) do a16z dẫn đầu vào tháng 4 năm 2023 với mức định giá 750 triệu đô la (khoảng 1.125 tỷ yên), nhưng đã có những biến động lớn vào năm 2025 trước áp lực truy đuổi từ phía open-source và các hyperscaler. Người sáng lập Edo Liberty vào tháng 9 năm 2025 đã rút lui khỏi vị trí CEO để chuyển sang vai trò Chief Scientist, tuyên bố sẽ tập trung vào "nghiên cứu hướng tới các hệ thống AI dạng agent thế hệ tiếp theo". CEO mới là Ash Ashutosh — cựu Giám đốc Bán hàng Toàn cầu của Google, từng là lãnh đạo tại AppDynamics và Actifio. Cụm từ mà Liberty ưa dùng là "trong 5 năm tới, vector DB sẽ chuyển hóa từ một công cụ kỹ thuật thành bộ nhớ dài hạn của doanh nghiệp", thể hiện tham vọng giành vị trí mới: người phụ trách bộ nhớ dài hạn của agent. Vào tháng 10 năm 2025, The Information đưa tin Pinecone đang hợp tác với các banker để xem xét bán lại, với mức giá kỳ vọng hơn 2 tỷ đô la (khoảng 3.000 tỷ yên), và các bên mua tiềm năng được nhắc đến gồm Oracle, IBM, MongoDB, Snowflake. Theo dữ liệu từ Latka, doanh thu của Pinecone tính đến tháng 12 năm 2025 là 14 triệu đô la (khoảng 21 tỷ yên) với khoảng 4.000 khách hàng, cho thấy bội số ARR so với định giá tại vòng Series C đang tụt hậu rõ rệt. Về sản phẩm, Pinecone triển khai API xây dựng agent mang tên Pinecone Assistant, đồng thời tiến hành tái cấu trúc sang kiến trúc serverless và bắt đầu cung cấp MCP server.
Weaviate chưa công bố thêm vòng gọi vốn chính thức nào kể từ vòng Series B trị giá 50 triệu đô la (khoảng 75 tỷ yên) do Index Ventures dẫn đầu (tháng 4 năm 2023, có sự tham gia của Battery Ventures, NEA, Cortical, Zetta, ING Ventures) cho đến tháng 4 năm 2026, nhưng trong thời gian đó đã tăng tốc mạnh về mặt sản phẩm. Tháng 3 năm 2025, Weaviate ra mắt full-stack Weaviate Agents, và tháng 9 cùng năm đưa Query Agent lên GA. Cấu trúc bên trong của Query Agent rất thú vị — khi nhận truy vấn từ người dùng, nó thực hiện định tuyến đa collection, mở rộng và phân rã truy vấn, tạo bộ lọc, và xếp hạng lại, tất cả trong một lần gọi tool duy nhất. Đây là một sự trừu tượng hóa chiến lược "cung cấp Agentic RAG qua một API duy nhất", đồng thời loại bỏ sự cần thiết của các orchestrator bên ngoài như LangGraph. Tháng 2 năm 2026, Weaviate công bố OSS repository mang tên Weaviate Agent Skills, cho phép các coding agent như Claude Code, Cursor, GitHub Copilot, VS Code, Gemini CLI sinh ra code được tối ưu cho Weaviate. CEO Bob van Luijt phát biểu: "Sự nổi lên của vector DB, dịch vụ vector embedding và kiến trúc dạng agent là bước ngoặt trong quá trình tiến hóa của quản lý dữ liệu và biến đổi dữ liệu", và vào tháng 1 năm 2026 được GigaOm đánh giá là "Leader + Outperformer" và được Gartner xếp vào nhóm "Emerging Leader".
Qdrant, trụ sở tại Berlin, vào ngày 12 tháng 3 năm 2026 đã gọi vốn 50 triệu đô la (khoảng 75 tỷ yên) trong vòng Series B do AVP (Advance Venture Partners) dẫn đầu, với sự tham gia của Bosch Ventures, Unusual Ventures, Spark Capital và 42CAP, nâng tổng vốn huy động lên khoảng 87,8 triệu đô la (khoảng 131,7 tỷ yên). Công ty sở hữu các case study triển khai từ Tripadvisor, HubSpot, OpenTable, Bazaarvoice, Bosch, với hơn 250 triệu lượt tải xuống và 29.000 GitHub star. Tốc độ của triển khai viết bằng Rust và định vị "composable vector search" có thể chạy trên cloud/on-prem/hybrid phù hợp tốt với các doanh nghiệp thận trọng ở châu Âu.
Chroma đã gọi vốn 18 triệu đô la (khoảng 27 tỷ yên) trong vòng Series B ngày 14 tháng 10 năm 2025 do Astasia Myers của Quiet Capital dẫn đầu, với mức định giá khoảng 75 triệu đô la (khoảng 112,5 tỷ yên). Thiết kế cung cấp tìm kiếm vector, toàn văn, regex và metadata trong một UX duy nhất cho nhà phát triển, với trọng lượng nhẹ dùng được theo kiểu local-first và embedded được sự ủng hộ của các nhà phát triển RAG indie và những người tạo prototype ứng dụng agent.
Milvus/Zilliz chưa có đợt gọi vốn lớn nào kể từ Series B-II trị giá 60 triệu đô la (khoảng 90 tỷ yên) vào tháng 8 năm 2022, nhưng về mặt sản phẩm vẫn duy trì mindshare OSS lớn nhất, vượt 40.000 GitHub star và có hơn 10.000 doanh nghiệp đã triển khai sản xuất bao gồm NVIDIA, Salesforce, eBay, Airbnb, DoorDash. Đặc biệt, ảnh hưởng tại thị trường châu Á rất đáng kể.
Trong nhóm các công ty mới nổi, Turbopuffer là cái tên đáng chú ý. Đây là startup có trụ sở tại Ottawa đồng sáng lập bởi Simon Herah Eskildsen — cựu kỹ sư Shopify — và Justin Lee, gọi vốn seed không công bố số tiền từ Lachy Groom, Thrive Capital và nhiều angel investor vào ngày 19 tháng 12 năm 2025. Công ty có Anthropic, Atlassian, Cursor, Notion làm khách hàng và cung cấp serverless vector DB xử lý object storage như S3/GCS/Azure Blob như công dân hạng nhất. Sử dụng chỉ mục SPFresh tối ưu hóa centroid, chi phí trên mỗi GB ở quy mô cực lớn vượt trội so với các đối thủ. Trong bối cảnh Silicon Valley, chính thực tế "được các nhà tiêu thụ hạ tầng AI tiên phong như Anthropic, Cursor, Notion tin dùng" đã hoạt động như một chuẩn đối sánh. LanceDB cũng vào ngày 24 tháng 6 năm 2025 gọi vốn 30 triệu đô la (khoảng 45 tỷ yên) trong vòng Series A do Theory Ventures dẫn đầu, xác lập vị thế "AI-native multimodal lakehouse" trên định dạng cột Lance.
Nhìn tổng quan lĩnh vực này từ góc độ kỹ sư, vector DB đang phân hóa thành ba phân danh mục. Thứ nhất là Managed Serverless (Pinecone) — đang trong quá trình tìm kiếm mua bán. Thứ hai là OSS-first + Managed Cloud (Weaviate, Qdrant, Chroma, Milvus). Thứ ba là Object Storage-driven (Turbopuffer, LanceDB). Việc Pinecone xem xét bán lại được đọc là tín hiệu cho thấy toàn bộ danh mục này đã bước vào giai đoạn "bị kẹp giữa các hyperscaler và OSS".
Chương 5 Nền tảng End-to-End / Contextual — Contextual AI, Cohere, Vectara
Cách tiếp cận cung cấp Agentic RAG như một "hệ thống đơn nhất được thiết kế tích hợp" thay vì "tập hợp các thành phần rời rạc" được Contextual AI thể hiện rõ nét nhất. Nhà sáng lập Douwe Kiela chính là tác giả đầu tiên của bài báo RAG của Meta năm 2020, đồng thời giảng dạy tại Stanford. Contextual AI đã gọi được 20 triệu đô la (khoảng 30 tỷ yên) vòng hạt giống vào tháng 6 năm 2023, tiếp theo là Series A trị giá 80 triệu đô la (khoảng 120 tỷ yên) vào tháng 8 năm 2024 do Greycroft, Bain Capital Ventures, Lightspeed và ông Lip-Bu Tan dẫn dắt, đưa tổng vốn huy động lên 100 triệu đô la (khoảng 150 tỷ yên). Contextual AI Platform được phát hành GA vào tháng 1 năm 2025 dựa trên triết lý thiết kế gọi là RAG 2.0 — thay vì huấn luyện riêng lẻ rồi ghép nối retriever, reranker và mô hình sinh (Grounded Language Model), hệ thống áp dụng joint learning end-to-end để tối ưu hóa đồng thời cả ba. VentureBeat đưa tin Contextual GLM đạt 88% độ nhất quán thực tế trên benchmark FACTS, vượt qua Claude 3.5 Sonnet (79,4%) và GPT-4o (78,8%). Trên benchmark RAG tiên tiến mới nhất, hệ thống ghi nhận 71,2%, vượt qua baseline mạnh nhất (Cohere + Claude 3.5) ở mức 66,8%. Công ty đã thu hút các khách hàng Fortune 500 như HSBC và Qualcomm, và vào tháng 1 năm 2026 ra mắt Agent Composer — công cụ chuyển đổi RAG doanh nghiệp thành các agent sản xuất. Tuy nhiên, theo CB Insights, doanh thu hàng năm vẫn chỉ ở mức khoảng 17,6 triệu bảng Anh, và định giá vẫn được cho là khoảng 150 triệu đô la (khoảng 225 tỷ yên). "Dẫn đầu vượt trội về mặt kỹ thuật nhưng ARR chưa theo kịp" — đó là vị trí hiện tại của Contextual AI, và giới quan sát đang chú ý đến mức định giá ở vòng gọi vốn tiếp theo.
Cohere là công ty Canada có trụ sở tại Toronto với CEO là Aidan Gomez — đồng tác giả của "Attention Is All You Need" — và đã tăng trưởng mạnh mẽ như một đơn vị tiên phong về LLM doanh nghiệp. Vào tháng 8 năm 2025, công ty đạt định giá 6,8 tỷ đô la (khoảng 1.020 tỷ yên) qua vòng gọi vốn 500 triệu đô la (khoảng 750 tỷ yên) do Radical Ventures/Inovia Capital dẫn dắt, sau đó được đẩy lên 7 tỷ đô la (khoảng 1.050 tỷ yên) qua second close 100 triệu đô la (khoảng 150 tỷ yên) vào tháng 9 với sự tham gia của AMD, NVIDIA, Salesforce Ventures và HOOPP. Tổng vốn huy động vượt 1,6 tỷ đô la (khoảng 2.400 tỷ yên). ARR năm 2025 đạt 240 triệu đô la (khoảng 360 tỷ yên), vượt mục tiêu ban đầu là 200 triệu đô la, công ty bổ nhiệm ông François Chadwick — người có kinh nghiệm IPO — làm CFO và được coi là ứng cử viên IPO tiềm năng cho năm 2026. Sản phẩm chủ lực bao gồm Command A — mô hình flagship 111B tham số, ngữ cảnh 256K (tháng 3 năm 2025, throughput cao hơn 150% so với Command R+ 08-2024, chạy trên 2 GPU A100/H100), Command A Reasoning chuyên biệt cho suy luận doanh nghiệp (tháng 8 năm 2025), Rerank 3.5 hỗ trợ reranking hơn 100 ngôn ngữ với ngữ cảnh 4K, và "North" — nền tảng agent dành cho doanh nghiệp. Cohere đã mua lại Ottogrid (trước đây là Cognosys) vào tháng 5 năm 2025, tích hợp tính năng research agent vào North. Ba trục khác biệt lớn nhất là "AI chủ quyền (sovereign)", "đa ngôn ngữ" và "triển khai VPC/on-premise", duy trì cấu hình phù hợp với các doanh nghiệp trong lĩnh vực tài chính, công quyền chịu nhiều quy định, cũng như doanh nghiệp châu Âu và Nhật Bản có nhu cầu đa ngôn ngữ.
Vectara đã huy động 28,5 triệu đô la (khoảng 4,275 tỷ yên) vòng hạt giống và 25 triệu đô la (khoảng 3,75 tỷ yên) Series A vào tháng 7 năm 2024 do FPV Ventures và Race Capital dẫn dắt, với sự tham gia của Samsung Next và Fusion Fund, tổng vốn huy động ở mức 53,5–73,5 triệu đô la. Đây là RAG API tích hợp dọc sở hữu LLM chuyên giảm thiểu ảo giác có tên Mockingbird, tập trung vào việc ứng dụng trong các ngành công nghiệp có quy định chặt chẽ. Kể từ năm 2025, công ty chưa công bố vòng gọi vốn mới nào và vẫn duy trì vị thế là nền tảng triển khai quy mô nhỏ.
Chương 6 Agentic RAG Chuyên Biệt Theo Chiều Dọc ―― Harvey、Hebbia、Sierra、Decagon、Glean
Song song với tầng nền tảng ngang, "Agentic RAG dọc" chuyên biệt theo lĩnh vực đã thu hút lượng vốn lớn nhất trong giai đoạn 2025–2026. Theo dõi mô hình kinh doanh và lịch sử gọi vốn của từng công ty, ta có thể thấy rõ VC đang đặt trọng tâm ở đâu.
Harvey, chuyên về pháp lý, sau vòng Series D năm 2024, đã gọi vốn 300 triệu USD (khoảng 450 tỷ yên) vào tháng 6/2025 trong vòng Series E do Kleiner Perkins và Coatue đồng dẫn dắt, với định giá 5 tỷ USD (khoảng 7.500 tỷ yên); tiếp đó là 160 triệu USD (khoảng 240 tỷ yên) do a16z dẫn dắt vào tháng 12/2025 với định giá 8 tỷ USD (khoảng 1,2 nghìn tỷ yên); và vào ngày 25/3/2026, GIC và Sequoia đồng dẫn dắt (Sequoia tham gia lần thứ ba) với 200 triệu USD (khoảng 300 tỷ yên) ở định giá 11 tỷ USD (khoảng 1,65 nghìn tỷ yên). Tổng vốn huy động vượt 1 tỷ USD (khoảng 1.500 tỷ yên). ARR của Harvey tính đến tháng 1/2026 đạt 190 triệu USD (khoảng 285 tỷ yên), tăng gấp 1,9 lần chỉ trong nửa năm so với mức 100 triệu USD (khoảng 150 tỷ yên) vào tháng 8/2025. Khách hàng trải rộng ra hơn một nửa AmLaw 100, hơn 500 đội pháp lý nội bộ, 50 công ty quản lý tài sản và 60 quốc gia. Vòng gọi vốn tháng 3/2026 của Sequoia tái khẳng định "khả năng phòng thủ của các use case dọc trong Agentic AI", và đến năm 2026, Harvey đã trở thành proxy quan trọng nhất của Agentic RAG dọc.
Hebbia, tự định vị là chuyên gia về deep work trong lĩnh vực tài chính và pháp lý, đã đạt định giá 700 triệu USD (khoảng 1.050 tỷ yên) trong vòng Series B trị giá 130 triệu USD (khoảng 195 tỷ yên) từ tháng 4 đến tháng 7/2024, do a16z dẫn dắt với sự tham gia của Index Ventures, GV, Peter Thiel, Eric Schmidt và Jerry Yang. ARR lúc đó là khoảng 13 triệu USD (khoảng 19,5 tỷ yên), tương đương bội số 54 lần. Tệp khách hàng bao phủ một phần ba các công ty quản lý tài sản lớn nhất thế giới, với tổng AUM tích lũy ở quy mô 14 nghìn tỷ USD (khoảng 2.100 nghìn tỷ yên). Sản phẩm chủ lực Matrix được thiết kế với giao diện lưới bảng tính (spreadsheet-grid UI) thể hiện quy trình retrieve-ground-verify đa tác nhân một cách tự nhiên, được thiết kế lại vào tháng 6/2025, cùng tháng đó công ty mua lại FlashDocs để tích hợp tính năng tạo slide (hiện đang tạo hơn 10.000 slide mỗi ngày). Hebbia là công ty thể hiện trung thành nhất luận điểm của a16z về việc "thay thế deep work bằng AI agent".
Sierra, được đồng sáng lập bởi ông Bret Taylor (Chủ tịch OpenAI, cựu đồng CEO Salesforce) và ông Clay Bavor (cựu Alphabet), sau khi huy động 175 triệu USD (khoảng 262,5 tỷ yên) với định giá 450 triệu USD vào tháng 10/2024, đã gọi thêm 350 triệu USD (khoảng 525 tỷ yên) do Greenoaks Capital dẫn dắt vào ngày 4/9/2025 với định giá 10 tỷ USD (khoảng 1,5 nghìn tỷ yên), nâng tổng vốn huy động lên 635 triệu USD (khoảng 952,5 tỷ yên). ARR đạt 100 triệu USD (khoảng 150 tỷ yên) vào tháng 11/2025, phá kỷ lục sau 7 quý kể từ khi thành lập, đạt run rate doanh thu 150 triệu USD (khoảng 225 tỷ yên) vào năm thứ ba. Khách hàng là hàng trăm doanh nghiệp lớn, trong đó hơn 20% có doanh thu trên 10 tỷ USD. Sierra tập trung vào dịch vụ khách hàng, với thế mạnh là công cụ kiểm soát thương hiệu cho phép ủy quyền hoạt động cho agent đến mức "thực sự thực hiện hành động" như xử lý hoàn tiền hay phát hành ticket. Thương hiệu uy tín của Bret Taylor tạo nên yếu tố khác biệt nổi bật.
Decagon đã gọi 131 triệu USD (khoảng 196,5 tỷ yên) với định giá 1,5 tỷ USD (khoảng 2.250 tỷ yên) vào tháng 6/2025 do Accel và a16z đồng dẫn dắt, và chỉ 7 tháng sau, vào ngày 28/1/2026, huy động thêm 250 triệu USD (khoảng 375 tỷ yên) với định giá 4,5 tỷ USD (khoảng 6.750 tỷ yên) do Coatue và Index Ventures đồng dẫn dắt. Định giá tăng gấp 3 lần chỉ trong hơn nửa năm, chiến lược tái định vị thành AI dịch vụ khách hàng tiếp xúc cao mang tên "AI Concierge" đang phát huy hiệu quả. Trong năm 2025, công ty đã ký thêm hơn 100 hợp đồng enterprise mới, với sự tham gia của Bain Capital Ventures, BOND, Ribbit, Forerunner, Avra, A*, ChemistryVC, Definition Capital và Starwood Capital trong vòng Series D.
Glean, mở rộng từ tìm kiếm doanh nghiệp sang Agentic AI, sau vòng Series E trị giá 260 triệu USD (khoảng 390 tỷ yên) với định giá 4,6 tỷ USD (khoảng 6.900 tỷ yên) vào tháng 9/2024, đã huy động thêm 150 triệu USD (khoảng 225 tỷ yên) trong vòng Series F do Wellington Management dẫn dắt vào ngày 10/6/2025 với định giá 7,2 tỷ USD (khoảng 1,08 nghìn tỷ yên). Khosla Ventures, Bicycle Capital, Geodesic Capital và Archerman tham gia lần đầu; các nhà đầu tư hiện hữu gồm Altimeter, Capital One Ventures, Citi, Coatue, DST, General Catalyst, ICONIQ, IVP, Kleiner Perkins, Latitude, Lightspeed, Sapphire và Sequoia cũng rót thêm vốn. Glean tích hợp connector SaaS doanh nghiệp nhận thức quyền truy cập, Glean Agents và trợ lý công việc, và được trích dẫn rộng rãi tại trung tâm Silicon Valley như một ví dụ điển hình về "agent amplification" (khuếch đại tác nhân) mà ông Reid Hoffman đề cập.
Cũng trong nhóm dọc, Writer.com đã gọi 200 triệu USD (khoảng 300 tỷ yên) với định giá 1,9 tỷ USD (khoảng 2.850 tỷ yên) vào ngày 12/11/2024, do Premji Invest, Radical Ventures và ICONIQ Growth đồng dẫn dắt, với sự tham gia của Adobe Ventures, B Capital, Citi Ventures, IBM Ventures, Salesforce Ventures và Workday Ventures. Công ty kết hợp dòng LLM Palmyra tự phát triển với RAG dạng đồ thị, guardrail và trình xây dựng agent no-code để cung cấp các gói dọc cho y tế, bán lẻ và dịch vụ tài chính.
Sana AI, LMS/quản lý tri thức doanh nghiệp, đã được Workday mua lại với giá 1,1 tỷ USD (khoảng 1.650 tỷ yên) vào ngày 16/9/2025, được ghi nhận là thương vụ mua lại agent lớn nhất trong lĩnh vực này trong năm 2025. Workday cũng tiếp nhận Flowise (workflow builder), trong khi LangFlow được DataStax (nay là IBM) hấp thu, cho thấy quá trình tích hợp Agentic RAG vào nội bộ doanh nghiệp bởi các nhà cung cấp SaaS dọc đang diễn ra nhanh chóng.
Chương 7 MCP và Tiêu chuẩn hóa Hệ sinh thái ―― Tại sao Anthropic lại hiến tặng MCP cho Linux Foundation
Sự kiện kiến trúc lớn nhất năm 2025 trong cuộc thảo luận về Agentic RAG chính là việc Model Context Protocol (MCP) được chuẩn hóa thành tiêu chuẩn ngành. Khi Anthropic công bố MCP vào tháng 11 năm 2024, đây chỉ là một đặc tả mở của một công ty, nhưng đến tháng 3 năm 2025, OpenAI đã tuyên bố áp dụng trong Agents SDK, Responses API và ChatGPT desktop, và đến tháng 4 cùng năm, Google DeepMind cũng theo sau. Số lượt tải xuống hàng tháng của Python/TypeScript SDK đạt 97 triệu tính đến tháng 3 năm 2026, và số lượng máy chủ MCP được công bố đã vượt quá 10.000. Ngày 25 tháng 11 năm 2025, một bản cập nhật đặc tả lớn đã được thực hiện với các tính năng như hoạt động async, tính không trạng thái, nhận dạng máy chủ và registry do cộng đồng dẫn dắt, và vào tháng 12 năm 2025, Anthropic đã trao tặng MCP cho Agentic AI Foundation (AAIF) trực thuộc Linux Foundation. AAIF được đồng sáng lập bởi Anthropic, Block và OpenAI, với sự hỗ trợ từ Google, Microsoft, AWS, Cloudflare và Bloomberg.
Việc MCP được chuẩn hóa đã khiến trục cạnh tranh của Agentic RAG chuyển từ "sử dụng vector DB nào" sang "sử dụng harness/tầng kiểm soát nào". Pinecone cung cấp máy chủ MCP, Weaviate Agent Skills giao tiếp với các coding agent qua MCP, bản thân Anthropic tạo ra trạng thái có thể sử dụng hàng nghìn nguồn dữ liệu thông qua MCP, và cả LangChain lẫn Microsoft Agent Framework đều tuyên bố là MCP-native. Kết quả là giá trị connector phía nguồn dữ liệu nhanh chóng bị hàng hóa hóa, và giá trị dịch chuyển sang phía orchestration và quản trị dữ liệu. Forrester dự đoán 30% nhà cung cấp ứng dụng doanh nghiệp sẽ công bố máy chủ MCP vào cuối năm 2026.
Đối lập với điều này là Responses API của OpenAI, với chiến lược giữ các hosted tool primitives (file_search, web_search, function calling) trong hệ sinh thái của OpenAI. File_search của Responses API có giá 2,5 đô la (khoảng 375 yên) cho mỗi 1.000 truy vấn, lưu trữ 0,10 đô la (khoảng 15 yên) mỗi GB mỗi ngày, và các vector store mới tạo hỗ trợ tối đa 100 triệu tệp (mở rộng từ 10.000 lên 100 triệu trong bản cập nhật tháng 11 năm 2025). Assistants API sẽ bị ngừng vào ngày 26 tháng 8 năm 2026 và các tính năng sẽ được tích hợp vào Responses API. Lựa chọn mà các kỹ sư phải đối mặt rất rõ ràng: đó là ngã tư về quyền tự quyết cơ sở hạ tầng — "gia nhập hệ sinh thái khép kín như OpenAI/Microsoft" hay "tự xây dựng tầng kiểm soát riêng với MCP + LangChain/LangGraph/Agent Framework". Khi Harrison Chase viết trong *Your harness, your memory* rằng "nếu chọn mã nguồn đóng, bạn sẽ mất quyền kiểm soát dữ liệu của mình", đó chính là thông điệp gửi đến ngã tư này.
Chương 8 Phân bổ vốn của các VC Silicon Valley và xu hướng của các bài báo
Trong tổng số vốn đầu tư VC năm 2025, tổng vốn huy động liên quan đến AI đã tăng vọt 75% từ 114 tỷ USD năm 2024 lên hơn 202 tỷ USD, chiếm khoảng một nửa tổng đầu tư VC. Dẫn đầu số lượng giao dịch cấp unicorn là cặp đôi Sequoia (51 giao dịch / 21 unicorn) và a16z (50 giao dịch / 20 unicorn), tiếp theo là Greylock, Benchmark, Kleiner Perkins, IVP, Index Ventures, Accel, Lightspeed, Coatue, Insight Partners và General Catalyst — tất cả đều tham gia sâu vào stack Agentic RAG. a16z tuyên bố đã huy động tổng cộng hơn 15 tỷ USD quỹ trong giai đoạn 2025–2026, đồng thời khẳng định một mình chiếm 18% tổng đầu tư VC tại Mỹ. Sequoia cùng SoftBank và Google Ventures thông báo quỹ mới trị giá 7 tỷ USD vào tháng 4 năm 2026, cam kết mở rộng đầu tư vào AI.
Đọc các tài liệu tư tưởng mà các VC công bố, có thể thấy rõ góc nhìn của họ về Agentic RAG. Trong *Big Ideas 2026* tháng 1 năm 2026, a16z chọn "AI Data Transformation Layer" là danh mục startup nền tảng, chỉ ra rằng các hệ thống RAG đang gặp vấn đề "ảo giác do nguồn thông tin mâu thuẫn hoặc lỗi thời, và sự sụp đổ tinh vi, tốn kém của các workflow agent", từ đó lập luận rằng chất lượng dữ liệu mới là nút thắt thực sự. Sequoia tuyên bố trong *2026: This is AGI* rằng "các agent có tầm nhìn dài hạn về mặt chức năng chính là AGI, và năm 2026 sẽ là năm đó", đồng thời nhấn mạnh sự chuyển dịch từ copilot sang agent tự trị trong *AI in 2026: A Tale of Two AIs*. Bessemer Venture Partners trong *AI Infrastructure Roadmap: Five frontiers for 2026* phân tích rằng "khối lượng công việc suy luận đã ngang bằng và trong nhiều trường hợp vượt qua huấn luyện về nhu cầu tính toán lẫn tầm quan trọng kinh tế", đồng thời nêu rõ đang theo dõi sát các hạ tầng chuyên dụng cho agent như TensorMesh (LMCache), RadixArk (SGLang routing) và Inferact (vLLM).
Tông điệu đưa tin của các tờ báo cũng cho thấy sự hội tụ nhất định. TechCrunch đưa tin chi tiết về LangChain trong *Open-source agentic startup LangChain hits $1.25B valuation* ngày 21 tháng 10 năm 2025, nhấn mạnh niềm tin của Sequoia vào Agentic RAG dọc ngành trong *Harvey confirms $11B valuation, Sequoia triples down* ngày 25 tháng 3 năm 2026, và theo dõi cam kết vốn của Sequoia trong *New leaders, new fund: Sequoia has raised $7B to expand its AI bets* ngày 16 tháng 4 năm 2026. The Information đưa tin sớm về khả năng Pinecone được bán, Bloomberg đưa tin về tăng trưởng bùng nổ của các agent dọc ngành trong *AI customer support startup Decagon valued at $4.5 billion* ngày 28 tháng 1 năm 2026. CNBC theo dõi sự thâm nhập của agent vào doanh nghiệp lớn trong *Glean raises $150M at $7.2 billion valuation* ngày 10 tháng 6 năm 2025. Fortune tiết lộ thông tin về ARR của LangChain trong bài phỏng vấn độc quyền ngày 20 tháng 10 năm 2025, còn VentureBeat liên tục đăng tải kết quả benchmark của Contextual AI.
Nhìn vào phân bổ vốn VC giai đoạn 2025–2026, có thể thấy sự phân kỳ rõ ràng. Tầng framework (LangChain, LlamaIndex, CrewAI) nhận được vốn cỡ vài trăm triệu USD, nhưng định giá chỉ dừng ở mức hàng chục đến hàng trăm triệu USD. Tầng vector DB (Pinecone, Qdrant, Chroma) tiếp tục huy động đều đặn ở mức 50–100 triệu USD, nhưng đã bắt đầu chịu áp lực bị kẹp giữa OSS và các hyperscaler — minh chứng là Pinecone, vua của danh mục, đang xem xét bán mình. Ngược lại, Agentic RAG dọc ngành (Harvey, Sierra, Decagon, Hebbia, Glean, Cohere) liên tiếp huy động từ vài trăm triệu đến hàng tỷ USD trong mỗi vòng, với định giá đạt 4,5–11 tỷ USD. So sánh bội số ARR và định giá cũng cho thấy hiệu quả vốn của nhóm dọc ngành cao hơn rõ rệt. Đây là bằng chứng cho thấy trong bối cảnh OpenAI, Anthropic và Google DeepMind độc chiếm lợi thế tri thức ở tầng nền tảng, các VC đang đặt cược rằng giá trị kinh tế lớn nhất sẽ thuộc về các "agent dọc ngành chiếm trọn quy trình nghiệp vụ trên nền tảng mô hình nền".
Song song đó, các quan điểm phê phán cũng xuất hiện. Gartner trong thông cáo báo chí ngày 25 tháng 6 năm 2025 cảnh báo rằng "hơn 40% dự án AI dạng agent sẽ bị hủy trước cuối năm 2027", với nguyên nhân chính là thiếu quản trị và khả năng quan sát. Báo cáo *State of AI 2025* của McKinsey mùa thu năm 2025 cho biết hơn 80% doanh nghiệp vẫn chưa cảm nhận được đóng góp doanh thu từ AI tạo sinh, và chưa đến 10% tổ chức triển khai agent AI thành công ở quy mô theo từng tính năng riêng lẻ. Jason Lemkin của SaaStr trong *SaaS Vibe Check* năm 2025 vừa nhắc đi nhắc lại rằng "người chiến thắng vừa là người xây dựng vừa là người kể chuyện", vừa cảnh báo rằng "agent AI trên môi trường production không có khả năng quan sát và đánh giá chính là quả bom hẹn giờ". Con số "tiêu thụ token gấp 15 lần so với chat thông thường" từ đánh giá multi-agent của Anthropic được trích dẫn lặp đi lặp lại như con số biểu trưng cho vấn đề chi phí này.
Chương 9 Những động thái mới được dự báo trong nửa sau năm 2026 đến năm 2027
Khi tổng hợp các dự báo từ nhiều VC, nhà phân tích và viện nghiên cứu, bức tranh về những chuyển động có thể quan sát được trong 12–18 tháng tới hiện ra khá rõ ràng.
Thứ nhất, cuộc cạnh tranh tiêu chuẩn hóa bộ nhớ dài hạn và agent harness sẽ bước vào giai đoạn thực sự khốc liệt. Năm harness chính — Deep Agents của LangChain, Microsoft Agent Framework 1.0, OpenAI Responses API, Anthropic Claude + MCP và Databricks Genie Code — sẽ tranh giành vị trí "hệ điều hành của agent" từ nửa cuối 2026 đến 2027. Phải mất vài năm mới xác định được người thắng cuộc, nhưng việc MCP được trao cho Linux Foundation đã ít nhất trung lập hóa tầng connector. Hội nghị LangChain tổ chức tại San Francisco ngày 13–14/5/2026 (với sự tham gia của Harrison Chase, Jensen Huang và Andrew Ng) sẽ là sự kiện thể hiện sự đoàn kết của phe harness mã nguồn mở.
Thứ hai, các category leader theo từng ngành trong lĩnh vực Vertical Agentic RAG sẽ dần được xác lập. Harvey (pháp lý), Hebbia (tài chính), Sierra (dịch vụ khách hàng), Decagon (dịch vụ khách hàng / AI Concierge), Glean (tìm kiếm doanh nghiệp), Writer (nội dung), Spellbook (đối thủ tiềm năng của Harvey), EvenUp (bảo hiểm & thương tích cá nhân), Norm Ai (tuân thủ)... mỗi lĩnh vực sẽ hình thành thế độc quyền đơn lẻ kiểu "nhắc đến Agentic RAG trong ngành này là nghĩ ngay đến họ". Sequoia, a16z, Coatue và Index Ventures dự kiến tiếp tục đầu tư thêm ở giai đoạn này để đưa các công ty lên mức IPO. Cohere là ứng viên IPO hàng đầu, với tầm nhìn Q2–Q3/2026.
Thứ ba, quá trình tái cấu trúc tầng vector DB sẽ tăng tốc. Nếu thương vụ mua lại Pinecone thành công, một trong số Oracle, IBM, Snowflake hay MongoDB sẽ nắm giữ category king, từ đó làm rõ ranh giới phân chia với các giải pháp OSS như Weaviate, Qdrant và Milvus. Mặt khác, nếu Turbopuffer hay LanceDB — vốn dựa trên object storage — tiến vào tích hợp native với Alibaba, AWS và Azure, thì bản thân "danh mục vector DB độc lập" có thể bị giải thể. Tầm nhìn mà Edo Liberty từng chia sẻ — "vector DB sẽ trở thành bộ nhớ dài hạn của doanh nghiệp" — sẽ được kiểm chứng thực tế vào trước năm 2027.
Thứ tư, hạ tầng đánh giá (evaluation) và khả năng quan sát (observability) sẽ tăng trưởng bùng nổ. Các nền tảng như LangSmith, Arize, Galileo, TruEra, Ragas, Phoenix và Braintrust đã liên tục gọi vốn hàng chục triệu đô la từ 2025 đến 2026; và đúng như cảnh báo "40% dự án sẽ bị hủy" của Gartner, yếu tố quyết định thành bại của các dự án agent rốt cuộc nằm ở khả năng "quan sát hành vi trên môi trường production và quản lý chất lượng bằng con số". Từ nửa cuối 2026 trở đi, AI Observability được dự báo sẽ hình thành một universe như một danh mục độc lập.
Thứ năm, các doanh nghiệp Nhật Bản được kỳ vọng sẽ tham gia thực sự vào lĩnh vực Enterprise Agentic RAG. Các tập đoàn IT và viễn thông lớn như Rakuten, NTT Data, Fujitsu, NEC, KDDI, SoftBank, Mercari và LINE Yahoo liên tiếp được đưa tin là sắp công bố sản phẩm Agentic RAG cho doanh nghiệp. Hơn nữa, cấu hình hybrid kết hợp LLM nội địa như tsuzumi của NTT, Takane của Fujitsu, cotomi của NEC với các mô hình nước ngoài như Cohere hay Claude được dự báo sẽ trở thành xu hướng chủ đạo. Khi các yêu cầu về AI chủ quyền (sovereign AI) trong mua sắm chính phủ được hoàn thiện, các nhà cung cấp như Cohere — vốn đề cao "AI chủ quyền" — có nhiều khả năng mở rộng hiện diện tại thị trường Nhật Bản.
Thứ sáu, giao thức tương tác giữa các agent (Agent-to-Agent, A2A) sẽ trở thành mặt trận tiêu chuẩn hóa tiếp theo. Microsoft Agent Framework đề xuất khả năng tương tác đa runtime kết hợp A2A + MCP, và các nhà cung cấp khác cũng đang theo sau; AAIF (Agentic AI Foundation) có thể sẽ xây dựng đặc tả chung cho lĩnh vực này. Khi cơ chế để một agent ủy thác và giao nhiệm vụ cho agent khác được tiêu chuẩn hóa, Agentic RAG sẽ tiến hóa từ "tìm kiếm bởi một agent đơn lẻ" thành "tìm kiếm bởi một hệ sinh thái agent". Giai đoạn "phối hợp đa agent" mà bài khảo sát của Singh et al. đề cập có thể sẽ hiện thực hóa ở cấp độ triển khai vào khoảng năm 2027.
Chương 10 Kết luận ―― Agentic RAG: Từ "Công cụ tìm kiếm" đến "Hạ tầng tri thức"
Tính đến tháng 4 năm 2026, dòng vốn VC tại Silicon Valley cho chúng ta thấy một thực tế rõ ràng: khái niệm RAG đã vượt ra khỏi phạm trù "công cụ tìm kiếm" và đang tiến hóa thành hạ tầng tri thức cốt lõi của doanh nghiệp. Đó là lời tiên tri của Edo Liberty, người sáng lập Pinecone: "Vector DB sẽ trở thành bộ nhớ dài hạn của doanh nghiệp"; là quan sát của Matei Zaharia, đồng sáng lập Databricks và người nhận giải ACM Prize in Computing 2026: "AGI đã hiện diện rồi. Chỉ là nó chưa tồn tại theo cách chúng ta đánh giá mà thôi"; là tư tưởng của Harrison Chase khi ông khẳng định "harness và memory phải là mã nguồn mở"; và là tham vọng kỹ thuật mà Douwe Kiela hiện thân — "RAG 2.0 là sự tích hợp tìm kiếm và sinh nội dung vào một hệ thống duy nhất". Tại giao điểm của tất cả những điều này, một tầng hạ tầng đang hình thành theo thời gian thực: Agentic RAG.
Các VC tại Silicon Valley không coi Agentic RAG chỉ là một chủ đề phụ của AI, mà xem đó là sự dịch chuyển kiến tạo sẽ định hình thập kỷ tiếp theo của phần mềm doanh nghiệp. IVP định giá LangChain ở mức 1,25 tỷ đô la, Sequoia đầu tư vào Harvey ba lần, a16z dẫn đầu tăng trưởng của Hebbia và Decagon, Coatue liên tục đặt cược vào các vertical agent, Greycroft/Bain/Lightspeed chống lưng cho RAG 2.0 của Contextual AI, Wellington Management — một công ty quản lý tài sản truyền thống — bước vào Glean. Mô hình phân bổ vốn đa tầng này cho thấy Agentic RAG là một chủ đề với tầm bắn cực kỳ rộng, trải dài qua ba lĩnh vực: đầu tư hạ tầng, đầu tư ứng dụng doanh nghiệp, và đầu tư năng suất.
Mặt khác, những con số thực tế — "40% hủy bỏ" mà Gartner dự báo, "tiêu thụ token gấp 15 lần" mà Anthropic báo cáo, "dưới 10% có thể mở rộng quy mô" mà McKinsey chỉ ra — cũng ngầm báo hiệu rằng một giai đoạn điều chỉnh giữa bong bóng và kỳ vọng là khó tránh khỏi. Từ nửa cuối năm 2026 đến năm 2027, Agentic RAG sẽ trưởng thành, chuyển từ kỳ vọng "phép màu chạy được ở mọi nơi" sang "hạ tầng được nhúng sâu vào quy trình nghiệp vụ, kèm theo ROI rõ ràng và khả năng quan sát được". Trong quá trình đó, người thắng và kẻ thua sẽ phân định rõ ràng. Điều mà các kỹ sư tại Silicon Valley cần chú tâm ngay lúc này không phải là việc lựa chọn framework hay vector DB cụ thể nào, mà là một quyết định kiến trúc căn bản hơn: "Bộ nhớ dài hạn của công ty mình sẽ đặt trên tầng điều khiển nào?" Khi nhìn lại Agentic RAG vào năm 2027, chúng ta sẽ ghi nhớ đây là "điểm chuyển giao mà triết lý thiết kế ứng dụng AI dịch chuyển từ mô hình pipeline sang mô hình process".
Chương 10 Kết luận ―― Agentic RAG: Từ "công cụ tìm kiếm" đến "hạ tầng tri thức"
Tính đến tháng 4 năm 2026, dòng vốn VC tại Thung lũng Silicon đang cho thấy một thực tế rõ ràng: khái niệm RAG đã vượt ra khỏi phạm trù "công cụ tìm kiếm" và đang tiến hóa thành hạ tầng tri thức cốt lõi trong môi trường doanh nghiệp. Từ lời tiên đoán của Edo Liberty, nhà sáng lập Pinecone — "Vector DB sẽ trở thành bộ nhớ dài hạn của doanh nghiệp" — đến quan sát của Matei Zaharia, đồng sáng lập Databricks và người nhận giải ACM Prize in Computing 2026 — "AGI đã ở đây rồi, chỉ là chưa tồn tại theo cách chúng ta đánh giá" — rồi đến tư tưởng của Harrison Chase — "harness và memory phải là mã nguồn mở" — và tham vọng kỹ thuật mà Douwe Kiela hiện thân — "RAG 2.0 là sự hợp nhất tìm kiếm và sinh thành vào một hệ thống duy nhất". Tại giao điểm của tất cả những điều này, một tầng hạ tầng đang hình thành theo thời gian thực: Agentic RAG.
Các VC tại Thung lũng Silicon không xem Agentic RAG là một chủ đề phụ của AI, mà coi đó là sự dịch chuyển kiến tạo sẽ quyết định thập kỷ tiếp theo của phần mềm doanh nghiệp. IVP định giá LangChain ở mức 1,25 tỷ USD, Sequoia ba lần rót vốn vào Harvey, a16z dẫn đầu tăng trưởng của Hebbia và Decagon, Coatue liên tục đặt cược vào các vertical agent, Greycroft/Bain/Lightspeed chống lưng cho RAG 2.0 của Contextual AI, Wellington Management — một công ty quản lý tài sản truyền thống — cũng tham gia đầu tư vào Glean. Mô hình phân bổ vốn đa tầng này cho thấy Agentic RAG là một chủ đề với tầm bắn cực kỳ rộng, vắt ngang qua ba lĩnh vực: đầu tư hạ tầng, đầu tư ứng dụng doanh nghiệp, và đầu tư năng suất.
Mặt khác, những thực tế như "40% dự án bị hủy" theo dự báo của Gartner, "mức tiêu thụ token cao gấp 15 lần" theo báo cáo của Anthropic, và "chưa đến 10% đạt được quy mô thực tế" theo ghi nhận của McKinsey đều gợi ý rằng một giai đoạn điều chỉnh kỳ vọng — hay thậm chí là bong bóng — là điều khó tránh khỏi. Từ nửa cuối năm 2026 đến năm 2027, Agentic RAG sẽ trưởng thành từ kỳ vọng "phép màu chạy được ở mọi nơi" sang "hạ tầng được nhúng sâu vào quy trình nghiệp vụ, đi kèm ROI rõ ràng và khả năng quan sát được". Trong quá trình đó, kẻ thắng và kẻ thua sẽ được phân định rõ ràng. Điều mà các kỹ sư ở Thung lũng Silicon cần theo dõi lúc này không phải là việc chọn framework hay vector DB cụ thể nào, mà là một quyết định kiến trúc căn bản hơn: "Đặt bộ nhớ dài hạn của tổ chức lên trên tầng điều phối nào?" Nhìn lại Agentic RAG vào năm 2027, chúng ta sẽ ghi nhớ đây là "điểm chuyển tiếp mà tư duy thiết kế ứng dụng AI dịch chuyển từ mô hình pipeline sang mô hình process".
Nguồn
- Singh, Ehtesham, Kumar, Khoei, Vasilakos, "Agentic Retrieval-Augmented Generation: A Survey on Agentic RAG" (arXiv:2501.09136) — https://arxiv.org/abs/2501.09136
- Asai et al., "Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection" (arXiv:2310.11511) — https://arxiv.org/abs/2310.11511
- Yan et al., "Corrective Retrieval Augmented Generation" (arXiv:2401.15884) — https://arxiv.org/abs/2401.15884
- Jeong, Baek, Cho, Hwang, Park, "Adaptive-RAG" (arXiv:2403.14403) — https://arxiv.org/abs/2403.14403
- Yao et al., "ReAct: Synergizing Reasoning and Acting in Language Models" (arXiv:2210.03629) — https://arxiv.org/abs/2210.03629
- Edge et al., Microsoft Research, "From Local to Global: A Graph RAG Approach to Query-Focused Summarization" (arXiv:2404.16130) — https://arxiv.org/abs/2404.16130
- Microsoft Research, "LazyGraphRAG: Setting a new standard for quality and cost" — https://www.microsoft.com/en-us/research/blog/lazygraphrag-setting-a-new-standard-for-quality-and-cost/
- Microsoft Research, Dự án GraphRAG — https://www.microsoft.com/en-us/research/project/graphrag/
- Microsoft Research, "BenchmarkQED: Automated benchmarking of RAG systems" — https://www.microsoft.com/en-us/research/blog/benchmarkqed-automated-benchmarking-of-rag-systems/
- Anthropic Engineering, "How we built our multi-agent research system" — https://www.anthropic.com/engineering/multi-agent-research-system
- Anthropic, "Introducing Contextual Retrieval" — https://www.anthropic.com/news/contextual-retrieval
- Anthropic, "Introducing the Model Context Protocol" — https://www.anthropic.com/news/model-context-protocol
- Anthropic, "Donating the Model Context Protocol and establishing the Agentic AI Foundation" — https://www.anthropic.com/news/donating-the-model-context-protocol-and-establishing-of-the-agentic-ai-foundation
- Đặc tả Model Context Protocol 2025-11-25 — https://modelcontextprotocol.io/specification/2025-11-25
- NVIDIA Developer Blog, "Traditional RAG vs Agentic RAG — Why AI Agents Need Dynamic Knowledge to Get Smarter" — https://developer.nvidia.com/blog/traditional-rag-vs-agentic-rag-why-ai-agents-need-dynamic-knowledge-to-get-smarter/
- NVIDIA AI Blueprints, Triển khai tham chiếu RAG — https://github.com/NVIDIA-AI-Blueprints/rag
- Cohere, "Rerank" — https://cohere.com/rerank
- Cohere Docs, "Command A" — https://docs.cohere.com/docs/command-a
- BAAI, "BGE Reranker v2-m3" — https://huggingface.co/BAAI/bge-reranker-v2-m3
- Khattab and Zaharia, "ColBERT" (arXiv:2004.12832) — https://arxiv.org/abs/2004.12832
- OpenAI, "New Tools for Building Agents" — https://openai.com/index/new-tools-for-building-agents/
- OpenAI, "New tools and features in the Responses API" — https://openai.com/index/new-tools-and-features-in-the-responses-api/
- OpenAI Developers, "Responses API tool orchestration" — https://developers.openai.com/cookbook/examples/responses_api/responses_api_tool_orchestration
- OpenAI Platform Docs, "Deep Research Guide" — https://platform.openai.com/docs/guides/deep-research
- Andreessen Horowitz, "Big Ideas 2026 (Part 1)" — https://a16z.com/newsletter/big-ideas-2026-part-1/
- Andreessen Horowitz, "The Rise of Computer Use and Agentic Coworkers" — https://a16z.com/the-rise-of-computer-use-and-agentic-coworkers/
- Andreessen Horowitz, "Vector Databases and the Power of RAG" — https://a16z.com/podcast/vector-databases-and-the-power-of-rag/
- Andreessen Horowitz, "Investing in Hebbia" — https://a16z.com/announcement/investing-in-hebbia/
- Sequoia Capital, "2026: This is AGI" — https://sequoiacap.com/article/2026-this-is-agi/
- Sequoia Capital, "AI in 2026: A Tale of Two AIs" — https://sequoiacap.com/article/ai-in-2026-the-tale-of-two-ais/
- Sequoia Capital Podcast, "Context Engineering Our Way to Long-Horizon Agents" (Harrison Chase) — https://sequoiacap.com/podcast/context-engineering-our-way-to-long-horizon-agents-langchains-harrison-chase/
- Sequoia Capital, "LangChain: From Agent 0 to 1 to Agentic Engineering" — https://sequoiacap.com/article/langchain-from-agent-0-to-1-to-agentic-engineering/
- Bessemer Venture Partners, "AI Infrastructure Roadmap: Five frontiers for 2026" — https://www.bvp.com/atlas/ai-infrastructure-roadmap-five-frontiers-for-2026
- Bessemer Venture Partners, "Securing AI Agents" — https://www.bvp.com/atlas/securing-ai-agents-the-defining-cybersecurity-challenge-of-2026
- Gartner Press Release, "40% of enterprise apps will feature task-specific AI agents by 2026" — https://www.gartner.com/en/newsroom/press-releases/2025-08-26-gartner-predicts-40-percent-of-enterprise-apps-will-feature-task-specific-ai-agents-by-2026-up-from-less-than-5-percent-in-2025
- Gartner Press Release, "Over 40% of Agentic AI projects will be canceled by end of 2027" — https://www.gartner.com/en/newsroom/press-releases/2025-06-25-gartner-predicts-over-40-percent-of-agentic-ai-projects-will-be-canceled-by-end-of-2027
- Gartner, Dự báo phần mềm SCM với Agentic AI đạt 53 tỷ USD — https://www.gartner.com/en/newsroom/press-releases/2026-04-07-gartner-forecasts-supply-chain-management-software-with-agentic-ai-will-grow-to-53-billion-in-spend-by-2030
- McKinsey, "State of AI trust in 2026: Shifting to the agentic era" — https://www.mckinsey.com/capabilities/tech-and-ai/our-insights/tech-forward/state-of-ai-trust-in-2026-shifting-to-the-agentic-era
- McKinsey, "Seizing the Agentic AI Advantage" — https://www.mckinsey.com/capabilities/quantumblack/our-insights/seizing-the-agentic-ai-advantage
- McKinsey, "The State of AI 2025: Agents, Innovation" — https://www.mckinsey.com/~/media/mckinsey/business%20functions/quantumblack/our%20insights/the%20state%20of%20ai/november%202025/the-state-of-ai-2025-agents-innovation_cmyk-v1.pdf
- MarketsandMarkets, Báo cáo thị trường RAG — https://www.marketsandmarkets.com/PressReleases/retrieval-augmented-generation-rag.asp
- MarketsandMarkets, Thị trường cơ sở dữ liệu vector — https://www.marketsandmarkets.com/Market-Reports/vector-database-market-112683895.html
- Grand View Research, Thị trường RAG — https://www.grandviewresearch.com/industry-analysis/retrieval-augmented-generation-rag-market-report
- Fortune Business Insights, Thị trường Agentic AI — https://www.fortunebusinessinsights.com/agentic-ai-market-114233
- LangChain Blog, "Series B Announcement" — https://blog.langchain.com/series-b/
- TechCrunch, "Open-source agentic startup LangChain hits $1.25B valuation" — https://techcrunch.com/2025/10/21/open-source-agentic-startup-langchain-hits-1-25b-valuation/
- Fortune, "Early AI darling LangChain is now a unicorn" — https://fortune.com/2025/10/20/exclusive-early-ai-darling-langchain-is-now-a-unicorn-with-a-fresh-125-million-in-funding/
- LangChain Blog, "Your harness, your memory" — https://www.langchain.com/blog/your-harness-your-memory
- LangChain Blog, Quan hệ đối tác doanh nghiệp với NVIDIA — https://blog.langchain.com/nvidia-enterprise/
- LangChain Newsletter, Tháng 3 năm 2026 — https://www.langchain.com/blog/march-2026-langchain-newsletter
- TechCrunch, "LlamaIndex launches a cloud service for building unstructured data agents" — https://techcrunch.com/2025/03/04/llamaindex-launches-a-cloud-service-for-building-unstructed-data-agents/
- LlamaIndex Blog, "Series A and LlamaCloud GA" — https://www.llamaindex.ai/blog/announcing-our-series-a-and-llamacloud-general-availability
- LlamaIndex Blog, "LlamaIndex is more than a RAG framework" — https://www.llamaindex.ai/blog/llamaindex-is-more-than-a-rag-framework
- PRNewswire, "LlamaIndex Secures $19 Million Series A" — https://www.prnewswire.com/news-releases/llamaindex-secures-19-million-series-a-to-power-enterprise-grade-knowledge-agents-302390936.html
- Norwest Venture Partners, "LlamaIndex" — https://www.norwest.com/blog/llamaindex-harnesses-the-power-of-enterprise-data-for-ai-agent-workflows/
- Pulse2, "CrewAI Multi-Agent Platform Raises $18M Series A" — https://pulse2.com/crewai-multi-agent-platform-raises-18-million-series-a/
- Insight Partners, "CrewAI ScaleUp AI story" — https://www.insightpartners.com/ideas/crewai-scaleup-ai-story/
- Enterprise AI World, CrewAI $18M — https://www.enterpriseaiworld.com/Articles/News/News/$18M-in-Funding-Catapults-CrewAIs-Multi-Agentic-Platform-to-the-Enterprise-Level-166495.aspx
- deepset, "Funding Announcement Balderton Capital" — https://www.deepset.ai/news/funding-announcement-balderton-capital
- deepset, "Introducing Haystack Enterprise Platform" — https://www.deepset.ai/blog/introducing-haystack-enterprise-platform
- Visual Studio Magazine, "Microsoft ships production-ready Agent Framework 1.0" — https://visualstudiomagazine.com/articles/2026/04/06/microsoft-ships-production-ready-agent-framework-1-0-for-net-and-python.aspx
- Microsoft Learn, "Agent Framework Overview" — https://learn.microsoft.com/en-us/agent-framework/overview/
- Visual Studio Magazine, "Semantic Kernel + AutoGen open source Microsoft Agent Framework" — https://visualstudiomagazine.com/articles/2025/10/01/semantic-kernel-autogen--open-source-microsoft-agent-framework.aspx
- Dify — https://dify.ai/
- Pinecone Blog, "Series B" — https://www.pinecone.io/blog/series-b/
- TechCrunch, "Pinecone drops $100M investment on $750M valuation" — https://techcrunch.com/2023/04/27/pinecone-drops-100m-investment-on-750m-valuation-as-vector-database-demand-grows/
- VentureBeat, "Pinecone founder Edo Liberty appoints Googler Ash as CEO" — https://venturebeat.com/data-infrastructure/pinecone-founder-edo-liberty-appoints-googler-ash-as-ceo
- PRNewswire, Chuyển giao vị trí CEO Pinecone — https://www.prnewswire.com/news-releases/pinecone-founder-edo-liberty-to-spearhead-pinecones-growing-ai-ambitions-appoints-ash-ashutosh-as-ceo-to-expand-vector-database-market-leadership-302549334.html
- Calcalist Tech, Đồn đoán về việc bán Pinecone — https://www.calcalistech.com/ctechnews/article/rz31q82b5
- TechTarget SearchDataManagement, Pinecone nhìn về tương lai — https://www.techtarget.com/searchdatamanagement/news/366631366/Vector-database-vendor-Pinecone-eyes-future-under-new-CEO
- Pinecone Blog, "Pinecone Assistant Generally Available" — https://www.pinecone.io/blog/pinecone-assistant-generally-available/
- Weaviate, "Weaviate Series B" — https://www.prnewswire.com/news-releases/weaviate-raises-50-million-series-b-funding-to-meet-soaring-demand-for-ai-native-vector-database-technology-301803296.html
- Weaviate, Weaviate Goes Full Stack — https://www.globenewswire.com/news-release/2025/03/04/3036570/0/en/Weaviate-Goes-Full-Stack-With-Launch-of-Weaviate-Agents-for-AI-Development.html
- Weaviate Blog, Query Agent — https://weaviate.io/blog/query-agent
- Weaviate Blog, Tổng kết năm 2025 — https://weaviate.io/blog/weaviate-in-2025
- Weaviate, Ra mắt Agent Skills — https://www.globenewswire.com/news-release/2026/02/21/3242244/0/en/Weaviate-Launches-Agent-Skills-to-Empower-AI-Coding-Agents.html
- Weaviate, Được GigaOm công nhận là Leader / Gartner công nhận là Emerging Leader — https://www.globenewswire.com/news-release/2026/01/14/3218396/0/en/Weaviate-named-a-Leader-and-Outperformer-by-GigaOm-and-Emerging-Leader-by-Gartner-Market-Momentum-Accelerates-as-Nonrelational-DBMS-Segment-Grows-22-7.html
- TechCrunch, "Qdrant open-source vector database" — https://techcrunch.com/2024/01/23/qdrant-open-source-vector-database/
- Qdrant Blog, "Series A funding round" — https://qdrant.tech/blog/series-a-funding-round/
- BusinessWire, "Qdrant Raises $50M Series B" — https://www.businesswire.com/news/home/20260312313902/en/Qdrant-Raises-$50-Million-Series-B-to-Define-Composable-Vector-Search-as-Core-Infrastructure-for-Production-AI
- Chroma Company, "Seed" — https://www.trychroma.com/company/seed
- Medium, "Our investment in Chroma (Astasia Myers)" — https://medium.com/memory-leak/our-investment-in-chroma-the-developer-centric-embedding-database-34277ac327e8
- Salestools, Báo cáo Chroma Series B — https://salestools.io/en/report/chroma-raises-18m-series-b
- TechCrunch, "Zilliz relocates to SF, raises $60M" — https://techcrunch.com/2022/08/24/zilliz-the-startup-behind-the-milvus-open-source-vector-database-for-ai-applications-raises-60m-and-relocates-to-sf/
- Yahoo Finance, "Milvus surpasses 40,000 GitHub stars" — https://finance.yahoo.com/news/milvus-surpasses-40-000-github-010000562.html
- TechCrunch, Vespa tách ra độc lập — https://techcrunch.com/2023/10/04/yahoo-spins-out-vespa-its-search-tech-into-an-independent-company/
- Vespa.ai, Gọi vốn từ Blossom Capital — https://vespa.ai/2023-11-01-blossom-funding/
- Tracxn, Hồ sơ LanceDB — https://tracxn.com/d/companies/lancedb/__ie1HuEEUoPOIc3tEX5yowY9yMJz9kdNTH01mwCePxLw
- BetaKit, Turbopuffer huy động vốn — https://betakit.com/ex-shopify-engineers-raise-fresh-financing-to-scale-turbopuffers-ai-search/
- Turbopuffer, Giới thiệu — https://turbopuffer.com/about
- SiliconANGLE, Contextual AI huy động 80 triệu USD cho nền tảng RAG 2.0 — https://siliconangle.com/2024/08/02/contextual-ai-nabs-80m-rag-2-0-platform/
- Contextual AI Blog, Ra mắt nền tảng GA — https://contextual.ai/blog/platform-ga-press-release
- Contextual AI Research, Giới thiệu RAG 2.0 — https://contextual.ai/research/introducing-rag2
- VentureBeat, Contextual AI vượt trội GPT-4o — https://venturebeat.com/ai/contextual-ais-new-ai-model-crushes-gpt-4o-in-accuracy-heres-why-it-matters
- VentureBeat, Contextual AI Agent Composer — https://venturebeat.com/technology/contextual-ai-launches-agent-composer-to-turn-enterprise-rag-into-production
- Morningstar PRNewswire, Ra mắt Agent Composer — https://www.morningstar.com/news/pr-newswire/20260127sf71236/contextual-ai-launches-agent-composerai-for-when-it-actually-is-rocket-science
- TechCrunch, "Cohere hits $7B valuation partners with AMD" — https://techcrunch.com/2025/09/24/cohere-hits-7b-valuation-a-month-after-its-last-raise-partners-with-amd/
- PSP Investments / Thông báo gọi vốn Cohere — https://www.investpsp.com/en/news/fresh-funding-enables-cohere-to-accelerate-its-global-expansion-and-build-the-next-generation-of-secure-enterprise-and-sovereign-ai-solutions/
- Futurum Group, "Cohere multilingual sovereign AI moat" — https://futurumgroup.com/insights/coheres-multilingual-sovereign-ai-moat-ahead-of-a-2026-ipo/
- InfoWorld, "Cohere goes North with agentic AI" — https://www.infoworld.com/article/3757962/cohere-goes-north-with-agentic-ai.html
- Vectara Series A, BusinessWire — https://www.businesswire.com/news/home/20240716489550/en/Vectara-Secures-%2425-Million-Series-A-Funding-to-Advance-the-Trustworthiness-of-Retrieval-Augmented-Generation-with-New-Mockingbird-LLM
- Glean, Series F 150 triệu USD — https://www.glean.com/press/glean-raises-150m-series-f-at-7-2b-valuation-to-accelerate-enterprise-ai-agent-innovation-globally
- TechCrunch, Glean định giá 7,2 tỷ USD — https://techcrunch.com/2025/06/10/enterprise-ai-startup-glean-lands-a-7-2b-valuation/
- CNBC, Glean Series F 150 triệu USD — https://www.cnbc.com/2025/06/10/glean-gen-ai-search-startup-raises-150-million-at-7-billion-value.html
- TechCrunch, Perplexity 200 triệu USD định giá 20 tỷ USD — https://techcrunch.com/2025/09/10/perplexity-reportedly-raised-200m-at-20b-valuation/
- Writer.com, Thông báo Series C — https://writer.com/blog/series-c-funding-writer-press-release/
- TechCrunch, Writer 200 triệu USD định giá 1,9 tỷ USD — https://techcrunch.com/2024/11/12/generative-ai-startup-writer-raises-200m-at-a-1-9b-valuation/
- TechCrunch, Hebbia Series B 130 triệu USD — https://techcrunch.com/2024/07/09/ai-startup-hebbia-rased-130m-at-a-700m-valuation-on-13-million-of-profitable-revenue/
- Hebbia Blog, Series B — https://www.hebbia.com/blog/hebbia-raises-usd130m-series-b
- TechCrunch, Harvey định giá 11 tỷ USD — https://techcrunch.com/2026/03/25/harvey-confirms-11b-valuation-sequoia-triples-down/
- CNBC, Harvey 200 triệu USD định giá 11 tỷ USD — https://www.cnbc.com/2026/03/25/legal-ai-startup-harvey-raises-200-million-at-11-billion-valuation.html
- Harvey, Thông báo vòng gọi vốn — https://www.harvey.ai/blog/harvey-raises-at-dollar11-billion-valuation-to-scale-agents-across-law-firms-and-enterprises
- TechCrunch, Harvey định giá 8 tỷ USD tháng 12 năm 2025 — https://techcrunch.com/2025/12/04/legal-ai-startup-harvey-confirms-8b-valuation/
- TechCrunch, Bret Taylor Sierra 350 triệu USD định giá 10 tỷ USD — https://techcrunch.com/2025/09/04/bret-taylors-sierra-raises-350m-at-a-10b-valuation/
- TechCrunch, Sierra đạt doanh thu ARR 100 triệu USD — https://techcrunch.com/2025/11/21/bret-taylors-sierra-reaches-100m-arr-in-under-two-years/
- CNBC, Sierra định giá 10 tỷ USD — https://www.cnbc.com/2025/09/04/bret-taylor-sierra-ai-startup-salesforce-openai.html
- Decagon Blog, Thông báo Series D — https://decagon.ai/blog/series-d-announcement
- Bloomberg, Decagon định giá 4,5 tỷ USD — https://www.bloomberg.com/news/articles/2026-01-28/ai-customer-support-startup-decagon-valued-at-4-5-billion
- Decagon Blog, Series C — https://decagon.ai/resources/series-c-announcement
- BusinessWire, Decagon Series D — https://www.businesswire.com/news/home/20260128580542/en/Decagons-Valuation-Triples-to-$4.5-Billion-as-it-Ushers-in-the-Age-of-AI-Concierge
- Sana Labs, Thông báo Series B — https://sanalabs.com/resources/announcing-sanas-series-b-round
- Sana Labs, Gia hạn Series B — https://sanalabs.com/resources/sana-reaches-62m-dollars-in-series-b-funding
- You.com, Thông báo Series C — https://you.com/resources/series-c
- TechStartups, You.com định giá 1,5 tỷ USD — https://techstartups.com/2025/09/04/you-com-raises-100m-series-c-in-funding-at-1-5b-valuation-to-scale-ai-search-infrastructure/
- TechCrunch, Databricks 4 tỷ USD định giá 134 tỷ USD — https://techcrunch.com/2025/12/16/databricks-raises-4b-at-134b-valuation-as-its-ai-business-heats-up/
- Databricks, Thâu tóm MosaicML — https://www.databricks.com/company/newsroom/press-releases/databricks-completes-acquisition-mosaicml
- Databricks Blog, Genie Code — https://www.databricks.com/blog/introducing-genie-code
- Databricks, Ra mắt Agent Bricks — https://www.databricks.com/company/newsroom/press-releases/databricks-launches-agent-bricks-new-approach-building-ai-agents
- TechCrunch, Matei Zaharia đoạt Giải thưởng Điện toán ACM — https://techcrunch.com/2026/04/08/databricks-matei-zaharia-wins-acm-computing-prize-agi/
- TechCrunch, Sequoia huy động 7 tỷ USD cho AI — https://techcrunch.com/2026/04/16/new-leaders-new-fund-sequoia-has-raised-7b-to-expand-its-ai-bets/
- Snowflake Release Notes, Cortex Agents GA — https://docs.snowflake.com/en/release-notes/2025/other/2025-11-04-cortex-agents
- Snowflake, Tổng quan về Cortex — https://www.snowflake.com/en/product/features/cortex/
- Snowflake, Cortex Code — https://www.snowflake.com/en/product/features/cortex-code/
- SaaStr, "The 2025 SaaS Vibe Check with Jason Lemkin" — https://www.saastr.com/the-2025-saas-vibe-check-what-founders-need-to-know-right-now-with-saastr-ceo-and-founder-jason-lemkin/
- Jahanzaib.ai, "Agentic RAG Production Guide" — https://www.jahanzaib.ai/blog/agentic-rag-production-guide
- Suprmind, "AI Hallucination Rates and Benchmarks" — https://suprmind.ai/hub/ai-hallucination-rates-and-benchmarks/