メインコンテンツへスキップ
newsify
シリコンバレーの最前線を、確かなソースで。
PaddleOCR インフォグラフィック

1. サービス概要

PaddleOCRは、Baidu(百度)が開発したオープンソースのOCRツールキットで、PaddlePaddleディープラーニングフレームワークのエコシステムの一部です。80以上の言語に対応し、軽量かつ高精度なOCRモデル群を提供します。

  • 主な機能:
  • PP-OCRシリーズ: 超軽量OCRモデル(PP-OCR、PP-OCRv2、PP-OCRv3、PP-OCRv4)。テキスト検出・認識・方向分類の3段階パイプライン。
  • PP-Structure: ドキュメントのレイアウト解析、テーブル認識、キー情報抽出。
  • 多言語対応: 80以上の言語(日本語、中国語、韓国語、英語、アラビア語等)をサポート。
  • テーブル認識: 表構造の検出とセル内テキストの抽出。
  • スタンプ検出: 印鑑・スタンプの検出と認識。
  • 手書き文字認識: 手書きテキストのOCR。
  • 軽量モデル: モバイル・エッジデバイスでも動作可能な小型モデルを提供。
  • ライセンス: Apache 2.0(オープンソース)。
  • 対応プラットフォーム:
  • Python パッケージ
  • CLI
  • C++推論(Paddle Inference / Paddle Lite)
  • モバイル(Android / iOS)
  • サーバーサイド / クラウド

2. 使用している技術スタック

  • コア技術: PaddlePaddleフレームワーク上で構築。DBNet(テキスト検出)、CRNN / SVTR(テキスト認識)、テキスト方向分類器の3モジュール構成。
  • 言語/フレームワーク: Python、C++。PaddlePaddle(飛桨)。
  • モデル最適化: 知識蒸留、量子化、プルーニングにより軽量化。PP-OCRv4では精度と速度のバランスを最適化。
  • 推論: PaddlePaddle Inference、ONNX Runtime、TensorRTなど複数の推論バックエンドに対応。
  • 特徴: 商用OCRサービスに匹敵する精度を持ちながら、完全オープンソースで無料利用可能。

3. 会社概要

  • 開発元: Baidu Inc.(百度)
  • GitHub: PaddlePaddle/PaddleOCR
  • 公開年: 2020年
  • 開発拠点: 中国 北京市(Baidu本社)

4. 沿革、資本構成、国籍、役員情報

  • 沿革:
  • 2016年:BaiduがPaddlePaddleフレームワークをオープンソースとして公開。
  • 2020年:PaddleOCRをGitHub上に公開。PP-OCRモデルを発表。
  • 2021年:PP-OCRv2をリリース。精度と速度を大幅に改善。
  • 2022年:PP-OCRv3、PP-Structureをリリース。レイアウト解析・テーブル認識機能を追加。
  • 2023年:PP-OCRv4をリリース。GitHubスター数4万以上を獲得し、世界で最も人気のあるオープンソースOCRの一つに。
  • 2024年:継続的な改善と多言語対応の拡充。
  • 資本構成:
  • Baidu Inc.(NASDAQ: BIDU / HKEX: 9888)の開発プロジェクト。Baiduは2000年設立の中国最大手インターネット検索・AI企業。時価総額約300〜400億ドル(2025年時点)。
  • 国籍:
  • 中国企業(Baidu Inc.)。ケイマン諸島登記。
  • 関連役員:
  • Robin Li(李彦宏): Baidu創業者・CEO。北京大学・ニューヨーク州立大学バッファロー校卒。
  • PaddleOCRプロジェクトはBaiduのPaddlePaddleチームが主導。