TTS
14件のサービス
テキストから自然な音声を生成するText-to-Speechエンジン。感情表現やリアルタイム合成など最先端の音声AI技術。
Cartesia は、「Sonic」というフラッグシップモデルを中心とした、超低遅延かつ高品質なリアルタイム・テキスト読み上げ(TTS)プラットフォームを提供するAIサービスです。
ChatTTS は、会話・対話シナリオに特化した次世代のオープンソース型テキスト読み上げ(TTS)モデルです。従来のTTSが文章の朗読に長けていたのに対し、ChatTTSは人間らしい自然な会話(フィラー、笑い声、ため息などの挿入)を再現することに特化しています。
CosyVoice 2は、Alibaba(アリババグループ)のAI研究部門である「Tongyi Speech Lab」が開発・公開している、大規模言語モデル(LLM)ベースのオープンソースなストリーミング音声合成(TTS:Text-to-Speech)モデルです。
Deepgramは、エンタープライズ向けの「Voice AI(音声AI)」プラットフォームを提供しています。元々は高精度な音声認識(STT: Speech-to-Text)で知られていましたが、現在はTTS(Text-to-Speech:音声合成)、およびそれらを統合した音声対話(Speech-to-Speech)ソリューションに注力しています。
ElevenLabsは、人工知能(AI)を活用した音声生成およびテキスト読み上げ(TTS: Text-to-Speech)サービスを提供するAIオーディオ研究企業です。
Fish Speech は、最先端の生成AIを活用した、次世代型のオープンソース・テキスト読み上げ(TTS)および音声クローンサービスです。
Hume AIは、感情理解と共感に特化した次世代の音声・マルチモーダルAIプラットフォームです。従来のテキスト読み上げ(TTS)の枠を超え、ユーザーの声のトーンから感情を読み取り、それに応じた適切な感情表現を伴う音声で応答する「Empathic Voice Interface (EVI)」を主力サービスとして展開しています。
Inworld AIは、AI駆動型のキャラクター(NPC)やバーチャルエージェントを作成するためのプラットフォームですが、その中核機能の一つとして「Inworld TTS(Text-to-Speech)」を提供しています。
「Kokoro」(主にKokoro-82Mとして知られる)は、オープンソースで公開されている軽量・高速かつ高品質なテキスト読み上げ(TTS: Text-to-Speech)モデルおよび関連サービスです。
Neuphonicは、超低遅延(Ultra-Low Latency)を特徴とする次世代のAIテキスト読み上げ(TTS:Text-to-Speech)サービスです。独自のアルゴリズムにより、文章が完成するのを待たずに単語単位でリアルタイムに音声を生成する「インクリメンタル(逐次)生成」を実現しています。
Play.ht は、AI 駆動の高度なテキスト読み上げ(TTS:Text-to-Speech)および音声生成プラットフォームです。主にコンテンツクリエイター、マーケター、開発者、企業向けに、テキストを人間のように自然な音声に変換するサービスを提供しています。
Rime(Rime Labs)は、リアルタイムの対話型AI向けに特化した、超低遅延かつ高品位なテキスト読み上げ(TTS)サービスを提供しています。
Speechify は、AIを活用した高度なテキスト読み上げ(TTS: Text-to-Speech)プラットフォームです。元々は創業者自身の失読症(ディスレクシア)を克服するために開発されましたが、現在は生産性向上ツールとして世界中で広く利用されています。
WellSaid Labs(ウェルセイド・ラボ)は、AI技術(ディープラーニング)を用いて、人間の声と区別がつかないほど高品質で自然な音声を生成するテキスト読み上げ(TTS:Text-to-Speech)サービスです。主に企業向け(ナレーション、eラーニング、マーケティング等)に特化しており、倫理的なAI利用(実在の声優とのライセンス契約)を重視している点が特徴です。