Madlad-400
1. サービス概要
Madlad-400は、Googleが開発した大規模多言語機械翻訳モデルである。400以上の言語に対応しており、特に低リソース言語を含む幅広い言語カバレッジが特徴である。T5アーキテクチャをベースとしており、モデルの重みがオープンに公開されている。2023年の研究論文で発表され、多言語Webデータから構築された大規模コーパスで学習されている。モデルサイズは3B、7.2B、10.7Bパラメータの複数バリエーションが存在し、Hugging Faceで利用可能である。
2. 使用している技術スタック
- モデルアーキテクチャ: T5(Text-to-Text Transfer Transformer)ベース
- モデルサイズ: 3B、7.2B、10.7Bパラメータ
- 学習データ: 多言語Webクロールデータから構築したコーパス(自動品質フィルタリング適用)
- 学習フレームワーク: JAX / T5X
- 対応言語数: 400以上
- トークナイザ: SentencePiece
- 公開プラットフォーム: Hugging Face、GitHub
- ライセンス: Apache 2.0(オープンウェイト)
3. 会社概要
| 項目 | 内容 |
|---|---|
| 開発元 | Google / Google DeepMind |
| 本社所在地 | 米国カリフォルニア州マウンテンビュー |
| 親会社 | Alphabet Inc. |
| 設立年 | 1998年(Google)、2015年(Alphabet) |
| CEO | Sundar Pichai(Google / Alphabet) |
| 事業内容 | 検索エンジン、クラウド、AI研究、広告 |
| 上場市場 | NASDAQ(ティッカー: GOOGL / GOOG) |
4. 沿革、資本構成、国籍、役員情報
沿革
- 1998年: Google設立
- 2006年: Google翻訳サービス開始(統計的機械翻訳)
- 2016年: Google Neural Machine Translation(GNMT)導入
- 2017年: Transformerアーキテクチャを発表(「Attention Is All You Need」)
- 2019年: T5(Text-to-Text Transfer Transformer)を発表
- 2023年: Madlad-400論文を発表、400以上の言語に対応した大規模多言語モデルを公開
- 2023年: Hugging Faceでモデルの重みをApache 2.0ライセンスで公開
資本構成
GoogleはAlphabet Inc.の子会社であり、Alphabet Inc.はNASDAQに上場している。Larry PageとSergey Brinが共同創業者であり、デュアルクラス株式構造により議決権の大部分を保有している。時価総額は約2兆ドル規模(2024年時点)。
国籍
米国(カリフォルニア州マウンテンビュー)
役員情報
- Sundar Pichai - Google CEO兼Alphabet CEO
- Jeff Dean - Google Chief Scientist(元SVP of Google AI)
- Madlad-400の研究は、Google Research / Google DeepMindの研究チームが主導
