Whisper

1. サービス概要

Whisperは、OpenAIが開発したオープンソースの汎用音声認識モデルである。多言語の自動音声認識（ASR）に加え、音声翻訳（他言語音声から英語テキストへの翻訳）にも対応している。約680,000時間のマルチタスク教師あり学習データで訓練されており、多様なアクセントや背景雑音に対して高い頑健性を持つ。MITライセンスで公開されており、商用・非商用問わず自由に利用可能である。モデルサイズはtiny（39M）からlarge（1.5B）まで複数のバリエーションが提供されている。

2. 使用している技術スタック

モデルアーキテクチャ: Transformerベースのエンコーダ・デコーダモデル
モデルサイズ: tiny (39M), base (74M), small (244M), medium (769M), large (1.5B)
学習データ: 約680,000時間のWeb上の音声データ（マルチタスク教師あり学習）
フレームワーク: PyTorch
音声処理: log-Melスペクトログラム（80チャネル、16kHz）
対応言語: 99言語の音声認識、音声から英語への翻訳
ライセンス: MIT License
公開プラットフォーム: GitHub、Hugging Face

3. 会社概要

項目	内容
開発元	OpenAI
本社所在地	米国カリフォルニア州サンフランシスコ
設立年	2015年
CEO	Sam Altman
事業内容	AI研究・開発（GPT、DALL-E、Whisper等）
組織形態	Benefit Corporation（2024年に移行表明）
主要投資家	Microsoft、Thrive Capital、Khosla Ventures

4. 沿革、資本構成、国籍、役員情報

沿革

2015年: OpenAI設立（非営利AI研究組織として）
2019年: OpenAI LP（営利部門）を設立
2022年9月: Whisper v1を公開、MITライセンスでオープンソース化
2023年: Whisper large-v2、large-v3を順次リリース、精度を大幅に改善
2023年: whisper.cppなどコミュニティによる高速化実装が普及
2024年: Whisperの技術を活用したサードパーティツールやサービスが多数展開

資本構成

OpenAIは当初非営利組織として設立されたが、2019年に「キャップド・プロフィット」構造の営利部門を設立。Microsoftが約130億ドルを出資し最大の投資家となっている。2024年時点で企業価値は約800億ドル以上と評価されている。

国籍

米国（カリフォルニア州サンフランシスコ）

役員情報

Sam Altman - CEO
Greg Brockman - 共同創業者（2024年退任）
Mira Murati - 元CTO（2024年退任）
Alec Radford - Whisper論文の主要著者、研究者

翻訳(OSS) に戻る