Tóm tắt

Startup AI giọng nói ElevenLabs, được đồng sáng lập bởi Mati Staniszewski (Mateusz Mati Staniszewski), 31 tuổi, người gốc Ba Lan, đã đạt mức định giá 11 tỷ đô la (khoảng 1.705 tỷ yên) trong vòng gọi vốn Series D trị giá 500 triệu đô la (khoảng 77,5 tỷ yên) do Sequoia Capital dẫn dắt vào tháng 2 năm 2026. Vào tháng 5 cùng năm, ARR đã vượt mốc 500 triệu đô la (khoảng 77,5 tỷ yên), và BlackRock, NVIDIA, Jamie Foxx cùng những người khác đã tham gia với tư cách là nhà đầu tư bổ sung. Trong bài viết này, chúng tôi sẽ phân tích đa chiều về nguồn gốc của sản phẩm bắt đầu từ sự bất mãn với việc lồng tiếng ở Warsaw, hành trình của nhà sáng lập đã đi qua Imperial College, BlackRock và Palantir, cùng với lý do tại sao các quỹ VC ở Thung lũng Silicon đã đi đến niềm tin mạnh mẽ rằng "giọng nói là giao diện tiếp theo của AI".


Từ Warsaw đến Imperial College —— Khung cảnh nguyên sơ của cậu bé yêu toán

Mateusz "Mati" Staniszewski sinh năm 1995 tại vùng ngoại ô Warsaw, Ba Lan. Cho đến hết bậc trung học, anh chuyển đến nội thành Warsaw để theo học và đã tốt nghiệp Copernicus Bilingual High School (Trường Trung học Song ngữ Mikołaj Kopernik) – một trong những trường dự bị đại học hàng đầu của Ba Lan. Tại ngôi trường này, anh gặp Piotr Dąbkowski (sinh tháng 12 năm 1994), người sau này cùng anh đồng sáng lập ElevenLabs. Như chính Staniszewski đã kể lại trong nhiều cuộc phỏng vấn sau này, từ thời niên thiếu cả hai đã cùng nhau than phiền về "chất lượng kém của phần lồng tiếng Ba Lan cho phim Hollywood"; sự khó chịu trước trải nghiệm âm thanh khi một người dẫn truyện duy nhất (phương thức "lektor" đặc trưng của Ba Lan) đọc lời thoại của toàn bộ nhân vật một cách đều đều, chính là điểm khởi nguồn sâu xa nhất cho ý tưởng startup nhiều năm sau.

Sang Anh, Staniszewski theo học ngành toán tại Imperial College London và lấy bằng cử nhân vào năm 2017. Trong thời gian học tại Imperial, anh đã sáng lập "Mathscon" – một hội nghị toán học do sinh viên chủ trì – và thông qua việc tổ chức một sự kiện tập trung vào "khía cạnh thú vị" của toán học, anh đã trực tiếp trải nghiệm các công việc vận hành, gây quỹ và mời diễn giả. Nhiều đầu báo như Forbes và Sifted đã đưa tin rằng đây là "lần khởi nghiệp thực hành đầu tiên" của anh và là tiền đề cho hình mẫu nhà quản lý tại ElevenLabs sau này — với giai thoại nổi tiếng rằng trong thời kỳ đầu thành lập, anh đã đích thân tiến hành phỏng vấn tuyển dụng từ hơn 1.700 hồ sơ ứng tuyển. Theo hồi tưởng của các bạn cùng khóa và bạn bè, Staniszewski không phải là kiểu "thiên tài nổi bật" mà thuộc tuýp "nhà thực hành biết giữ phép tắc nhưng kiên trì theo đuổi mục tiêu đến cùng", và được biết đến trong cộng đồng người Ba Lan như một người khiêm tốn nhưng có nội lực mạnh mẽ.

BlackRock và Palantir —— Hai chặng tu nghiệp trước khi khởi nghiệp

Sau khi tốt nghiệp Imperial College, Staniszewski có một thời gian ngắn làm việc tại Opera Software, rồi gia nhập Portfolio Analytics Group (PAG) của BlackRock tại Anh. Trong 14 tháng làm việc tại đây, ông tham gia vào việc ra mắt nền tảng quản lý tài sản dành cho giới thượng lưu "Aladdin Wealth" và phụ trách mô hình hóa các sản phẩm có cấu trúc. Bài viết liên quan trên eFinancialCareers cho biết ông được nhắc đến như một hình mẫu trong giới tài chính châu Âu với tư cách là "người xuất thân là chuyên viên phân tích cấp dưới của BlackRock, đã tạo nên một công ty AI được định giá trên 1 tỷ USD (khoảng 155 tỷ yên) khi mới chỉ 30 tuổi".

Sau đó, Staniszewski chuyển sang Palantir Technologies với vai trò Deployment Strategist (Chiến lược gia Triển khai) và làm việc tại đây gần 4 năm. Vị trí Deployment tại Palantir là một công việc thực tiễn, đưa Foundry/Gotham vào hiện trường của các cơ quan chính phủ và các doanh nghiệp khổng lồ, vận hành xuyên suốt từ tích hợp dữ liệu đến thiết kế lại quy trình công việc; Staniszewski trước khi khởi nghiệp đã tích lũy kinh nghiệm đàm phán trực tiếp với những người ra quyết định tại hiện trường, chủ yếu trong các dự án ở châu Âu, Trung Đông và khu vực công. Triết lý vận hành mà ông ưa dùng trong những năm sau này — "bám sát khách hàng theo kiểu FDE", thứ được phản ánh trực tiếp vào tư tưởng thiết kế của đội Forward Deployed Engineering và đội Customer Success doanh nghiệp tại ElevenLabs — bắt nguồn từ DNA của thời kỳ Palantir này, theo phân tích của Forbes.

Mặt khác, đồng sáng lập Piotr Dąbkowski, sau khi tốt nghiệp khoa Khoa học Máy tính của Đại học Oxford, đã lấy bằng thạc sĩ tại Đại học Cambridge và có vài năm kinh nghiệm làm việc tại Google với vai trò kỹ sư nghiên cứu/máy học. Hai người với cấu trúc bổ sung cho nhau — Staniszewski có thế mạnh về mảng kinh doanh/vận hành, còn Dąbkowski có kiến thức nghiên cứu chuyên sâu về deep learning và tổng hợp giọng nói — đã thành lập ElevenLabs với tư cách là pháp nhân tại Anh vào tháng 5 năm 2022.

Sự ra đời của ElevenLabs —— Từ nỗi bất mãn với việc dịch phụ đề đến chuẩn mực toàn cầu của AI giọng nói

Ngay từ giai đoạn tuyên ngôn thành lập, ElevenLabs đã khởi đầu không phải với tư cách một "startup ứng dụng AI" thông thường, mà là một "phòng thí nghiệm lấy nghiên cứu làm trọng tâm". Như Jennifer Li, General Partner của Andreessen Horowitz, đã luận giải trong bài viết "Where you build is who you are: the ElevenLabs story" trên blog của a16z, việc đặt các cơ sở chính tại London, Warsaw và New York — tức "bên ngoài Bờ Tây nước Mỹ" — là một lựa chọn có chủ đích nhằm khắc ghi vào DNA của tổ chức sự nhạy cảm của những người không nói tiếng Anh đang đối diện với môi trường đa ngôn ngữ. Jennifer Li đánh giá ElevenLabs là "một trong những công ty AI mở rộng quy mô nhanh nhất mà chúng tôi từng đầu tư" và ghi nhận nhiệt huyết cao của sản phẩm xuất phát từ chính sự bức bối, khó chịu.

Về mặt kỹ thuật, ElevenLabs lấy mô hình tổng hợp giọng nói dựa trên học sâu được tự xây dựng từ con số không (dòng Eleven Multilingual / Eleven v3 / Flash) làm cốt lõi, cung cấp một chuỗi giải pháp xuyên suốt từ chuyển văn bản thành giọng nói (TTS), nhân bản giọng nói, chuyển đổi giọng nói sang giọng nói (STS), Conversational AI / ElevenAgents, Scribe dùng cho chuyển lời nói thành văn bản, cho đến ElevenMusic — sản phẩm đã được công bố rộng rãi trên iOS vào tháng 4 năm 2026 — và đã được đánh giá là "đã xây dựng được stack duy nhất cung cấp Voice / Music / SFX trong một API và một gói thuê bao duy nhất" (Music Business Worldwide). Variety và Billboard định vị "The Eleven Album" — được công bố song song với ElevenMusic, quy tụ các nghệ sĩ huyền thoại như Liza Minnelli và Art Garfunkel, đồng thời được phát hành thông qua hợp tác với các hãng đĩa trong ngành — như yếu tố tạo nên sự khác biệt so với Suno hay Udio.

Series D ―― 500 triệu USD và mức định giá 11 tỷ USD

Vào ngày 4 tháng 2 năm 2026, ElevenLabs đã công bố vòng gọi vốn Series D trị giá 500 triệu USD (khoảng 77,5 tỷ yên), đưa định giá sau đầu tư đạt 11 tỷ USD (khoảng 1.705 tỷ yên). Nhà đầu tư dẫn dắt là Sequoia Capital, với Andrew Reed - đối tác bộ phận tăng trưởng (growth) - gia nhập hội đồng quản trị. Đồng thời, trong số các nhà đầu tư hiện hữu, a16z đã tăng số tiền đầu tư lên 4 lần và Iconiq tăng lên 3 lần, bên cạnh các tên tuổi hiện hữu như BroadLight, NFDG, Valor Capital, AMP Coalition, Smash Capital, còn có sự tham gia của các nhà đầu tư mới như Lightspeed Venture Partners, Evantic Capital và Bond Capital. TechCrunch nhấn mạnh rằng mức định giá 11 tỷ USD này tương đương với hơn 3 lần so với thời điểm Series C vào tháng 1 năm 2025 (3,3 đến 3,3 tỷ USD, do ICONIQ Growth và a16z đồng dẫn dắt, số tiền gọi được là 180 triệu USD = khoảng 27,9 tỷ yên).

Trong 3 tháng tiếp theo, đội ngũ nhà đầu tư còn tiếp tục được mở rộng. Theo tin từ Bloomberg và TechCrunch vào ngày 5 tháng 5 năm 2026, với tư cách là vòng tiếp nối (follow-on) của Series D này, đã có sự tham gia của các nhà đầu tư tổ chức lớn như BlackRock, Wellington, D.E. Shaw, Schroders, các tập đoàn doanh nghiệp như NVIDIA, Salesforce Ventures, Santander, KPN, Deutsche Telekom, cũng như các nhà đầu tư là người nổi tiếng như Jamie Foxx, Eva Longoria và Hwang Dong-hyuk (Hoàng Đông Hách) - nhà sáng tạo bộ phim "Squid Game". Tech.eu đưa tin rằng nhờ đó, con số vốn chủ sở hữu thực tế cuối cùng của Series D đã được nâng lên so với công bố ban đầu, và tổng số vốn huy động lũy kế đã vượt mốc 781 triệu USD (khoảng 121 tỷ yên).

Tuy nhiên, về phân bổ tham gia và số tiền đầu tư cụ thể của từng nhà đầu tư tiếp nối này, cả ElevenLabs lẫn các cơ quan truyền thông đều không công bố, và bài viết này cũng không đi sâu vào chi tiết. Tuy vậy, cần lưu ý rằng cấu trúc ba tầng gồm nhà đầu tư tổ chức - tập đoàn doanh nghiệp chiến lược - người nổi tiếng đã được Bloomberg định vị là "bước đệm chuẩn bị cho IPO", dựa trên lời chứng từ các nguồn tin thân cận am hiểu nội tình.

Góc nhìn của VC tại Thung lũng Silicon —— "Giọng nói là hệ điều hành tiếp theo của AI"

Đằng sau việc các quỹ VC chủ chốt của Thung lũng Silicon tập trung đầu tư vào ElevenLabs có một luận đề chung. Đó là niềm tin rằng "không phải văn bản hay màn hình, mà chính giọng nói mới là cốt lõi của giao diện AI thế hệ tiếp theo".

ICONIQ Growth, trong bài blog của mình "Tripling Down on ElevenLabs", với chữ ký chung của General Partner Seth Pierrepont, Partner Ritika Pai và Investor Anna Textor, định vị rằng tầm nhìn mà Mati và Piotr đã đề ra từ giai đoạn đầu — "giọng nói, với tư cách là hình thức giao tiếp giống con người nhất, sẽ trở thành cây cầu nối giữa con người và các hệ thống thông minh" — đã trở thành hiện thực. Quỹ này đánh giá ElevenLabs là công ty đã "định nghĩa lại giọng nói và cả cách thức tạo ra giọng nói", đồng thời giải thích rằng việc họ rót vốn bổ sung ba lần qua các vòng Series B/C/D chính là "ví dụ điển hình của một khoản đặt cược dựa trên niềm tin (conviction bet)".

Andrew Reed của Sequoia Capital, khi công bố vòng Series D, đã bình luận: "Mati và Piotr là những nhà sáng lập và lãnh đạo xuất chúng. Họ đã đưa ElevenLabs trở thành một trong những công ty thành công nhất và có ảnh hưởng lớn nhất trong hệ sinh thái AI toàn cầu", đồng thời nhấn mạnh sự hiếm có khi một tổ chức đồng thời mở rộng quy mô nghiên cứu đẳng cấp thế giới, các công cụ giải phóng sự sáng tạo và các tác nhân giọng nói dành cho doanh nghiệp. Bộ phận Growth của Sequoia gần đây được biết đến với việc đầu tư tập trung vào các kỳ lân khổng lồ thuộc dòng LLM như OpenAI, Anysphere, Glean, và Andrew Reed đã chọn giọng nói làm "lớp modality tiếp theo cần nắm giữ" của công ty, đặt ElevenLabs vào vị trí nhân vật chính.

Từ phía a16z, Jennifer Li trong bài "Where you build is who you are" đã phân tích rằng "chính việc đặt trụ sở tại châu Âu đã hình thành nên văn hóa tổ chức", và lập luận rằng sự tồn tại của những nhà sáng lập hiểu bằng cảm nhận thực tế về sự nghèo nàn của trải nghiệm giọng nói tại các vùng ngôn ngữ phi tiếng Anh chính là một lợi thế cạnh tranh. a16z đã tham gia ngay từ giai đoạn Series A gần với hạt giống (tháng 6/2023, 19 triệu USD, tương đương khoảng 2,9 tỷ yên), sau đó đồng dẫn dắt vòng 80 triệu USD (khoảng 12,4 tỷ yên) ở Series B, và tiếp tục tăng vốn ở Series C/D. Theo tính toán dựa trên PitchBook, mức tổng exposure của riêng quỹ này được cho là đã vượt mốc 100 triệu USD (khoảng 15,5 tỷ yên).

Việc Lightspeed Venture Partners và Bond Capital (quỹ VC dòng growth do Mary Meeker dẫn dắt) tham gia mới từ Series D đã được The SaaS News và Dataconomy đưa tin như một động thái mang tính biểu tượng, cho thấy ElevenLabs đã được giới đầu tư growth cổ điển ở Thung lũng Silicon nâng cấp lên "danh sách ứng viên IPO". Trong báo cáo "Trends" của mình những năm gần đây, Mary Meeker đã phân tích đường cong phổ cập của AI tạo sinh song song với buổi bình minh của Internet, và việc Bond đầu tư vào ElevenLabs có thể được diễn giải như sự xác nhận chính thức cho quan điểm rằng "giao diện giọng nói sẽ trở thành tầng hạ tầng tương đương với buổi bình minh của Internet thương mại".

Nhìn từ phía các công ty đầu tư chiến lược (CVC), NVIDIA vào tháng 2/2026 đã cùng Google Cloud ký kết hợp đồng nhiều năm với ElevenLabs, công bố kế hoạch hỗ trợ việc huấn luyện và suy luận mô hình giọng nói trên các máy ảo G4 trang bị GPU RTX PRO 6000 thế hệ Blackwell. Đây không đơn thuần là một khoản đầu tư, mà là một liên minh tích hợp dọc xuyên suốt các lớp bán dẫn — đám mây — mô hình, tương đương với việc tầng hạ tầng của Thung lũng Silicon đã công nhận ElevenLabs là "đối tác suy luận giọng nói chính thức". Các khoản đầu tư từ các công ty doanh nghiệp như Salesforce Ventures, Deutsche Telekom, Santander, KPN mang đậm sắc thái đầu tư chiến lược với tiền đề tích hợp ElevenAgents vào các điểm tiếp xúc khách hàng của riêng họ (CRM, viễn thông, ngân hàng), và logic này cũng khác biệt về bản chất so với logic đầu tư của các quỹ VC độc lập.

Cũng có những luận điểm mà cộng đồng nhà đầu tư Thung lũng Silicon đang cảnh giác. Các phân tích ngành của MVP Capital và Sacra, cùng báo cáo của PitchBook đều đồng loạt chỉ ra rằng "áp lực thương mại hóa từ các đối thủ cạnh tranh như Suno (tạo nhạc), Cartesia, Hume, PlayHT, và Voxtral TTS mà Mistral tung ra dưới dạng mã nguồn mở, đang ngày một mạnh lên từng ngày". Trên thực tế, Voxtral TTS của Mistral trong bài kiểm tra mù vào tháng 3/2026 đã đạt tỷ lệ ưa thích 62,8% so với ElevenLabs Flash v2.5, và điều này có nghĩa là "các mô hình đẳng cấp thế giới đã có thể triển khai được ngay cả với open-weight". Việc Sequoia và a16z tăng vốn lần này cũng đồng thời là một canh bạc đặt cược vào việc liệu ElevenLabs có thể tiến hóa thành "một stack dọc gói trọn agent / âm nhạc / sáng tạo, chứ không chỉ là một mô hình đơn lẻ" với tốc độ vượt qua được những rủi ro thương mại hóa đó hay không.

ARR và cơ sở khách hàng —— Đạt mốc trên 500 triệu USD

Quỹ đạo tăng trưởng kết quả kinh doanh của ElevenLabs có độ dốc bất thường ngay cả khi so sánh với các kỳ lân SaaS trong quá khứ tại Thung lũng Silicon. ARR tính đến cuối năm 2025 đạt khoảng 330 triệu USD (khoảng 51,2 tỷ yên), là con số mà chính Mati đã thừa nhận với TechCrunch vào tháng 1 năm 2026. Theo phân tích của SaaStr, thời gian cần thiết để đạt được mức này từ ARR bằng 0 là 24 tháng, nhanh hơn áp đảo so với 8 năm mà Twilio cần để đạt cùng mức. Bản thân CEO đã công bố trong buổi phỏng vấn với CNBC rằng trong Q1 2026, ARR thuần mới tăng thêm 100 triệu USD (khoảng 15,5 tỷ yên), và ARR tại thời điểm cuối quý đạt khoảng 450 triệu USD (khoảng 69,8 tỷ yên). Hơn nữa, tính đến tháng 5 năm 2026, con số này đã vượt mốc lớn 500 triệu USD (khoảng 77,5 tỷ yên), và mảng doanh nghiệp chiếm 51% tổng doanh thu của công ty, cho thấy cấu trúc doanh thu đã đảo chiều từ chỗ do người tiêu dùng dẫn dắt sang chỗ do doanh nghiệp dẫn dắt.

Cơ sở khách hàng đã đa dạng hóa nhanh chóng từ tầng lớp sáng tạo nội dung ban đầu (sách nói, podcast, YouTube). Trong mảng kinh doanh doanh nghiệp, ElevenLabs cung cấp giọng nói cho Webex AI Agent của Cisco, tích hợp TTS/STT vào IBM watsonx Orchestrate, được triển khai cho các nhà chơi chủ chốt trong ngành công nghiệp sáng tạo/trò chơi như Adobe và Epic Games, cùng các khách hàng như các hãng truyền thông Washington Post và TIME, nhà xuất bản HarperCollins, cũng như Deutsche Telekom, Square, Revolut và Chính phủ Ukraine. Việc nền tảng thương mại điện tử khổng lồ Meesho của Ấn Độ tận dụng ElevenAgents để xây dựng trải nghiệm mua sắm hội thoại là ví dụ thành công tiêu biểu mà chính Mati đã nhiều lần nhắc đến trong buổi phỏng vấn với Pigment Podcast.

ElevenMusic và lĩnh vực kinh doanh mới —— Từ giọng nói mở rộng sang toàn bộ "âm thanh"

ElevenMusic, được phát hành trên iOS vào ngày 1 tháng 4 năm 2026, được định vị là đối thủ cạnh tranh của Suno và Udio. Theo các bài đưa tin của Music Business Worldwide và Music Ally, ElevenMusic không chỉ đơn thuần là một công cụ tạo nhạc, mà hướng tới trở thành một "dịch vụ âm nhạc xã hội có thể nghe và remix" với feed riêng. Người dùng có thể tạo tối đa 7 bài hát mỗi ngày bằng các prompt ngôn ngữ tự nhiên, đồng thời được cung cấp tính năng remix bài hát của người khác bằng văn bản, cũng như một feed để thưởng thức các bản nhạc từ khoảng 4.000 nghệ sĩ là con người thực. Hơn nữa, chiến lược phát hành "The Eleven Album" — với sự tham gia của các nghệ sĩ huyền thoại như Liza Minnelli và Art Garfunkel — thông qua các hãng đĩa trong ngành, có thể coi là một cách thể hiện rõ ràng cách tiếp cận "bắt tay với chủ sở hữu quyền", tương phản hoàn toàn với bối cảnh Suno đang bị truy tố trong các vụ kiện về bản quyền. PYMNTS cũng bình luận vào cùng thời điểm rằng "trong khi phía Taylor Swift đang tăng cường các biện pháp pháp lý đối với các nền tảng tạo nhạc bằng AI, ElevenLabs đã chủ ý xếp đội hình nghiêng về phía chủ sở hữu quyền".

Xét trên toàn bộ danh mục kinh doanh, Mati đã nhiều lần phát biểu tại các diễn đàn khác nhau như CNBC, London Tech Week và Pigment Podcast rằng "Sứ mệnh của chúng tôi không giới hạn ở giọng nói. Nó nằm ở việc định nghĩa lại cách tạo và hiểu mọi loại 'âm thanh', bao gồm văn bản, giọng nói, âm nhạc và hiệu ứng âm thanh", đồng thời chỉ rõ chiến lược lấy ElevenAgents (nền tảng tác nhân đàm thoại), ElevenCreative (studio dành cho nhà sáng tạo), Scribe (nhận dạng giọng nói độ chính xác cao) và ElevenMusic làm bốn trụ cột.

Quy định và quản trị Deepfake —— Rủi ro lớn nhất đứng sau sự tăng trưởng nhanh chóng

Song song với tăng trưởng nhanh chóng, ElevenLabs cũng đang phải đối mặt với sự giám sát gắt gao từ các cơ quan quản lý. Trong chu kỳ bầu cử tổng thống năm 2024, đã có nhiều vụ việc được báo cáo về việc công nghệ tổng hợp giọng nói của công ty bị lợi dụng cho các cuộc gọi tự động (robocall) sử dụng giọng nói nhân bản trái phép, làm dấy lên các cuộc tranh luận về quy định tại Hoa Kỳ lên một nấc thang mới. Ngày 16 tháng 4 năm 2026, Thượng nghị sĩ Maggie Hassan (Đảng Dân chủ / bang New Hampshire), Thành viên xếp hạng của Ủy ban Kinh tế Hỗn hợp Thượng viện Hoa Kỳ (Joint Economic Committee), đã gửi một bức thư ngỏ đến CEO của bốn công ty ElevenLabs, LOVO, Speechify và VEED, yêu cầu trả lời về hệ thống phát hiện việc sử dụng nhân bản giọng nói cho mục đích lừa đảo, quy trình xác nhận sự đồng ý của chủ thể, biện pháp bảo vệ người của công chúng và trẻ vị thành niên, tình trạng triển khai watermarking giọng nói, lưu giữ nhật ký, và hệ thống báo cáo cho cảnh sát. Các con số được trích dẫn ở đầu bức thư là thiệt hại từ lừa đảo bằng giọng nói AI lên tới 893 triệu USD (khoảng 138,4 tỷ yên) do FBI báo cáo, cùng với ước tính của khu vực tư nhân rằng con số này có thể đạt tối đa 40 tỷ USD (khoảng 6,2 nghìn tỷ yên) mỗi năm vào năm 2027.

Đáp lại, người phát ngôn của ElevenLabs đã trả lời Axios rằng "Chúng tôi duy trì các biện pháp bảo vệ toàn diện để ngăn chặn việc lạm dụng công nghệ, chặn việc nhân bản giọng nói của người nổi tiếng và người của công chúng, đồng thời rà soát các vi phạm chính sách trên cả phương diện tự động lẫn thủ công", và giải thích rằng họ đang từng bước hoàn thiện watermarking, Voice Verification, phát hiện vi phạm chính sách, và thông tin xuất xứ nội dung (provenance theo hệ C2PA). Ngay cả trong cuộc phỏng vấn cá nhân của Mati với Sifted, các biện pháp đối phó với deepfake được mô tả là "chủ đề quan trọng nhất kể từ ngày ra mắt", và sự hợp tác với các chủ sở hữu IP như Disney cũng được đề cập trong bối cảnh này.

Về phía châu Âu, việc áp dụng theo từng giai đoạn các quy định về AI có rủi ro cao và AI tạo sinh của EU AI Act dự kiến sẽ được triển khai chính thức từ giữa năm 2026 trở đi, và do bản chất có các cơ sở chính tại London và Warsaw, ElevenLabs buộc phải tích hợp việc tuân thủ quy định châu Âu sớm hơn so với các đối thủ tại Thung lũng Silicon. Mặc dù về dài hạn đây là một yếu tố chi phí tuân thủ, nhưng như chính Mati đã gợi ý trong bài phát biểu tại London Tech Week 2026, điểm rằng "việc có trụ sở ở châu Âu có thể trở thành thế mạnh khi có thể nội bộ hóa quá trình đồng-thiết kế (co-design) với các quy định" đang được các quỹ VC ở cả châu Âu và Hoa Kỳ đánh giá lại.

Động thái sắp tới ―― IPO, Thành viên Hội đồng quản trị Klarna, Mở rộng sang các thị trường mới nổi

Các cột mốc chính được đo lường trong vòng 12–18 tháng tới có thể được tóm gọn vào ba điểm.

Thứ nhất là IPO. Tech.eu và CNBC đã đưa tin rõ ràng rằng tại giai đoạn Series D vào tháng 2 năm 2026, Mati đã phát biểu rằng công ty đang "chuẩn bị tiến tới IPO". Mặc dù chưa công bố mốc thời gian cụ thể, Bloomberg, dẫn lời các nguồn tin thân cận, lập luận rằng bản thân vòng follow-on có sự tham gia của các nhà đầu tư tổ chức và CVC chiến lược đã tương đương với việc "hình thành syndicate ngay trước thềm IPO", đồng thời chỉ ra khả năng nhắm tới việc định giá ở giai đoạn ARR vượt mốc 1 tỷ USD (khoảng 155 tỷ yên). Cần lưu ý rằng tại thời điểm hiện tại chưa có thông báo chính thức về việc nộp hồ sơ lên SEC hay lựa chọn ngân hàng chủ trì niêm yết, và bài viết này cũng không đi sâu vào những con số mang tính suy đoán.

Thứ hai là việc triển khai chính thức chiến lược thị trường mới nổi và bản địa hóa. Mục đích sử dụng vốn của vòng Series D mà TechCrunch đề cập là việc mở văn phòng và mở rộng nhân sự tại các khu vực không nói tiếng Anh như Ấn Độ, Nhật Bản, Singapore, Brazil, Mexico, bên cạnh Mỹ và châu Âu. Về thị trường Nhật Bản, tính đến thời điểm hiện tại (tháng 5 năm 2026), chưa thể xác nhận việc thành lập pháp nhân chính thức tại Nhật, nhưng các mô hình của ElevenLabs hỗ trợ hơn 30 ngôn ngữ bao gồm cả tiếng Nhật, và việc bản địa hóa hoạt động bán hàng cho khách hàng doanh nghiệp được dự đoán sẽ bắt đầu từng bước từ quý tiếp theo. Đã xác nhận rằng chính Mati sẽ có bài phát biểu quan trọng tại UNBOUND (sự kiện marketing/sales của HubSpot, dự kiến tổ chức từ ngày 16–18 tháng 9 năm 2026), và dự kiến việc mở rộng địa chính trị của chiến lược doanh nghiệp sẽ được đề cập thêm.

Thứ ba, việc Mati với tư cách cá nhân tham gia hội đồng quản trị bên ngoài đang được chú ý như một tín hiệu xuyên ngành. Vào tháng 5 năm 2025, ông đã gia nhập Hội đồng quản trị của Klarna Group PLC. CEO Sebastian Siemiatkowski của Klarna đã bày tỏ sự chào đón qua bài đăng trên X của mình rằng "Hiểu biết về AI của Mati, thành tích tại ElevenLabs, gốc gác Ba Lan, và thậm chí cả họ phức tạp giống nhau — tất cả đều khiến anh ấy trở thành một thành viên hội đồng quản trị lý tưởng". Việc Mati với tư cách thành viên hội đồng quản trị bên ngoài sẽ ảnh hưởng thế nào đến thiết kế "AI Financial Assistant" — vốn nảy sinh tại giao điểm giữa AI và dịch vụ tài chính — là điểm đang được cả các VC tại Silicon Valley lẫn fintech châu Âu theo dõi sát sao.

Đánh giá từ đồng nghiệp và giới ngành —— Chân dung thực của tỷ phú 31 tuổi

Forbes đã xếp Staniszewski ở vị trí thứ 2.274 thế giới trong danh sách tỷ phú phiên bản năm 2026 (tài sản ròng ước tính 1,1 tỷ USD = khoảng 170,5 tỷ yên). Ông và Dąbkowski được cho là mỗi người nắm giữ khoảng 15% cổ phần của ElevenLabs, và mức định giá 11 tỷ USD ở vòng Series D là cơ sở cho ước tính tài sản ròng này. Trong số tháng 12 năm 2025, tạp chí Forbes đã đưa hai người lên trang bìa và thực hiện bài đặc biệt mở đầu với tiêu đề "Làm thế nào một startup nhỏ gốc Ba Lan đã trở thành trung tâm của giọng nói AI".

Đánh giá nội bộ của tổ chức không đồng nhất về tông giọng với những lời tán dương từ bên ngoài. Khi tổng hợp 36 đánh giá trên Glassdoor, điểm tổng thể là 4,3/5, với 77% nhân viên trả lời rằng họ sẽ giới thiệu cho bạn bè, và công ty được đánh giá cao như một nơi làm việc có thể giành được quyền tự chủ lớn trong lĩnh vực tối tân về mặt kỹ thuật. Các yếu tố tích cực được nêu ra bao gồm sự đa dạng văn hóa khi quy tụ nhân tài từ hơn 30 quốc gia với trụ sở tập trung tại NYC, London và Warsaw, mức độ sở hữu kỹ thuật lớn, và khoảng cách gần gũi với các nhà sáng lập. Mặt khác, đánh giá về cân bằng công việc - cuộc sống ở mức thấp hơn là 3,8 điểm, với những tiếng nói cho rằng việc làm việc hơn 60 giờ mỗi tuần đã trở thành chuyện thường ngày, và cũng có một số ít chỉ trích nhắm vào việc tuyển dụng theo quan hệ thân quen và quản lý theo phe nhóm tại bộ phận Forward Deployed Engineering. eFinancialCareers đã đề cập đến giai thoại rằng ngay cả khi đã đạt mức ARR hơn 200 triệu USD (khoảng 31 tỷ yên) với tư cách CEO, Staniszewski vẫn tiếp tục phỏng vấn vòng đầu với tất cả các ứng viên, và phân tích rằng việc mở rộng quy mô nguyên xi phong cách "bám sát hiện trường" đặc trưng của người xuất thân từ Palantir vừa là điểm mạnh vừa là nguồn cơn của những cơn đau trưởng thành về mặt tổ chức.

Tựu trung, cốt lõi trong đánh giá của cộng đồng VC danh tiếng Thung lũng Silicon dành cho Staniszewski hội tụ ở điểm rằng ông không phải là "một thiên tài kỹ thuật", mà là "một CEO theo phong cách triển khai cực kỳ hiếm có, có thể kiên trì vạch ra ranh giới chế ngự trên mọi mặt đất của ngôn ngữ, quy định, vận hành và bán hàng". Sự thật rằng ba người Andrew Reed (Sequoia), Jennifer Li (a16z) và Seth Pierrepont (ICONIQ) đã từng người riêng biệt tuyên bố công khai rằng "ông là một founder/leader xuất chúng" cho thấy con mắt thẩm mỹ của giới VC chuyên "lựa chọn dựa trên thực thi chứ không phải sự cường điệu" trong bong bóng AI đang hội tụ vào một người 31 tuổi gốc Ba Lan. Cột mốc tiếp theo là tiếng pháo hiệu khởi đầu cho đợt IPO ngành AI mà Thung lũng Silicon đã chờ đợi từ lâu, và liệu ElevenLabs có phải là công ty đầu tiên rung lên hồi chuông đó hay không ―― đây sẽ là điểm quan sát lớn nhất trong giai đoạn từ nửa cuối năm 2026 đến nửa đầu năm 2027.


Nguồn