Whisper
1. サービス概要
Whisperは、OpenAIが開発したオープンソースの汎用音声認識モデルである。多言語の自動音声認識(ASR)に加え、音声翻訳(他言語音声から英語テキストへの翻訳)にも対応している。約680,000時間のマルチタスク教師あり学習データで訓練されており、多様なアクセントや背景雑音に対して高い頑健性を持つ。MITライセンスで公開されており、商用・非商用問わず自由に利用可能である。モデルサイズはtiny(39M)からlarge(1.5B)まで複数のバリエーションが提供されている。
2. 使用している技術スタック
- モデルアーキテクチャ: Transformerベースのエンコーダ・デコーダモデル
- モデルサイズ: tiny (39M), base (74M), small (244M), medium (769M), large (1.5B)
- 学習データ: 約680,000時間のWeb上の音声データ(マルチタスク教師あり学習)
- フレームワーク: PyTorch
- 音声処理: log-Melスペクトログラム(80チャネル、16kHz)
- 対応言語: 99言語の音声認識、音声から英語への翻訳
- ライセンス: MIT License
- 公開プラットフォーム: GitHub、Hugging Face
3. 会社概要
| 項目 | 内容 |
|---|---|
| 開発元 | OpenAI |
| 本社所在地 | 米国カリフォルニア州サンフランシスコ |
| 設立年 | 2015年 |
| CEO | Sam Altman |
| 事業内容 | AI研究・開発(GPT、DALL-E、Whisper等) |
| 組織形態 | Benefit Corporation(2024年に移行表明) |
| 主要投資家 | Microsoft、Thrive Capital、Khosla Ventures |
4. 沿革、資本構成、国籍、役員情報
沿革
- 2015年: OpenAI設立(非営利AI研究組織として)
- 2019年: OpenAI LP(営利部門)を設立
- 2022年9月: Whisper v1を公開、MITライセンスでオープンソース化
- 2023年: Whisper large-v2、large-v3を順次リリース、精度を大幅に改善
- 2023年: whisper.cppなどコミュニティによる高速化実装が普及
- 2024年: Whisperの技術を活用したサードパーティツールやサービスが多数展開
資本構成
OpenAIは当初非営利組織として設立されたが、2019年に「キャップド・プロフィット」構造の営利部門を設立。Microsoftが約130億ドルを出資し最大の投資家となっている。2024年時点で企業価値は約800億ドル以上と評価されている。
国籍
米国(カリフォルニア州サンフランシスコ)
役員情報
- Sam Altman - CEO
- Greg Brockman - 共同創業者(2024年退任)
- Mira Murati - 元CTO(2024年退任)
- Alec Radford - Whisper論文の主要著者、研究者
