メインコンテンツへスキップ
newsify
シリコンバレーの最前線を、確かなソースで。

Whisper

Whisper インフォグラフィック

1. サービス概要

Whisperは、OpenAIが開発したオープンソースの汎用音声認識モデルである。多言語の自動音声認識(ASR)に加え、音声翻訳(他言語音声から英語テキストへの翻訳)にも対応している。約680,000時間のマルチタスク教師あり学習データで訓練されており、多様なアクセントや背景雑音に対して高い頑健性を持つ。MITライセンスで公開されており、商用・非商用問わず自由に利用可能である。モデルサイズはtiny(39M)からlarge(1.5B)まで複数のバリエーションが提供されている。

2. 使用している技術スタック

  • モデルアーキテクチャ: Transformerベースのエンコーダ・デコーダモデル
  • モデルサイズ: tiny (39M), base (74M), small (244M), medium (769M), large (1.5B)
  • 学習データ: 約680,000時間のWeb上の音声データ(マルチタスク教師あり学習)
  • フレームワーク: PyTorch
  • 音声処理: log-Melスペクトログラム(80チャネル、16kHz)
  • 対応言語: 99言語の音声認識、音声から英語への翻訳
  • ライセンス: MIT License
  • 公開プラットフォーム: GitHub、Hugging Face

3. 会社概要

項目 内容
開発元 OpenAI
本社所在地 米国カリフォルニア州サンフランシスコ
設立年 2015年
CEO Sam Altman
事業内容 AI研究・開発(GPT、DALL-E、Whisper等)
組織形態 Benefit Corporation(2024年に移行表明)
主要投資家 Microsoft、Thrive Capital、Khosla Ventures

4. 沿革、資本構成、国籍、役員情報

沿革

  • 2015年: OpenAI設立(非営利AI研究組織として)
  • 2019年: OpenAI LP(営利部門)を設立
  • 2022年9月: Whisper v1を公開、MITライセンスでオープンソース化
  • 2023年: Whisper large-v2、large-v3を順次リリース、精度を大幅に改善
  • 2023年: whisper.cppなどコミュニティによる高速化実装が普及
  • 2024年: Whisperの技術を活用したサードパーティツールやサービスが多数展開

資本構成

OpenAIは当初非営利組織として設立されたが、2019年に「キャップド・プロフィット」構造の営利部門を設立。Microsoftが約130億ドルを出資し最大の投資家となっている。2024年時点で企業価値は約800億ドル以上と評価されている。

国籍

米国(カリフォルニア州サンフランシスコ)

役員情報

  • Sam Altman - CEO
  • Greg Brockman - 共同創業者(2024年退任)
  • Mira Murati - 元CTO(2024年退任)
  • Alec Radford - Whisper論文の主要著者、研究者