PaddleOCR
公式サイト1. サービス概要
PaddleOCRは、Baidu(百度)が開発したオープンソースのOCRツールキットで、PaddlePaddleディープラーニングフレームワークのエコシステムの一部です。80以上の言語に対応し、軽量かつ高精度なOCRモデル群を提供します。
- 主な機能:
- PP-OCRシリーズ: 超軽量OCRモデル(PP-OCR、PP-OCRv2、PP-OCRv3、PP-OCRv4)。テキスト検出・認識・方向分類の3段階パイプライン。
- PP-Structure: ドキュメントのレイアウト解析、テーブル認識、キー情報抽出。
- 多言語対応: 80以上の言語(日本語、中国語、韓国語、英語、アラビア語等)をサポート。
- テーブル認識: 表構造の検出とセル内テキストの抽出。
- スタンプ検出: 印鑑・スタンプの検出と認識。
- 手書き文字認識: 手書きテキストのOCR。
- 軽量モデル: モバイル・エッジデバイスでも動作可能な小型モデルを提供。
- ライセンス: Apache 2.0(オープンソース)。
- 対応プラットフォーム:
- Python パッケージ
- CLI
- C++推論(Paddle Inference / Paddle Lite)
- モバイル(Android / iOS)
- サーバーサイド / クラウド
2. 使用している技術スタック
- コア技術: PaddlePaddleフレームワーク上で構築。DBNet(テキスト検出)、CRNN / SVTR(テキスト認識)、テキスト方向分類器の3モジュール構成。
- 言語/フレームワーク: Python、C++。PaddlePaddle(飛桨)。
- モデル最適化: 知識蒸留、量子化、プルーニングにより軽量化。PP-OCRv4では精度と速度のバランスを最適化。
- 推論: PaddlePaddle Inference、ONNX Runtime、TensorRTなど複数の推論バックエンドに対応。
- 特徴: 商用OCRサービスに匹敵する精度を持ちながら、完全オープンソースで無料利用可能。
3. 会社概要
- 開発元: Baidu Inc.(百度)
- GitHub: PaddlePaddle/PaddleOCR
- 公開年: 2020年
- 開発拠点: 中国 北京市(Baidu本社)
4. 沿革、資本構成、国籍、役員情報
- 沿革:
- 2016年:BaiduがPaddlePaddleフレームワークをオープンソースとして公開。
- 2020年:PaddleOCRをGitHub上に公開。PP-OCRモデルを発表。
- 2021年:PP-OCRv2をリリース。精度と速度を大幅に改善。
- 2022年:PP-OCRv3、PP-Structureをリリース。レイアウト解析・テーブル認識機能を追加。
- 2023年:PP-OCRv4をリリース。GitHubスター数4万以上を獲得し、世界で最も人気のあるオープンソースOCRの一つに。
- 2024年:継続的な改善と多言語対応の拡充。
- 資本構成:
- Baidu Inc.(NASDAQ: BIDU / HKEX: 9888)の開発プロジェクト。Baiduは2000年設立の中国最大手インターネット検索・AI企業。時価総額約300〜400億ドル(2025年時点)。
- 国籍:
- 中国企業(Baidu Inc.)。ケイマン諸島登記。
- 関連役員:
- Robin Li(李彦宏): Baidu創業者・CEO。北京大学・ニューヨーク州立大学バッファロー校卒。
- PaddleOCRプロジェクトはBaiduのPaddlePaddleチームが主導。
