メインコンテンツへスキップ

Surya

Surya インフォグラフィック

1. サービス概要

Suryaは、多言語対応のオープンソースOCR・ドキュメント解析ツールです。90以上の言語に対応し、テキスト検出・認識、レイアウト解析、行順序検出などの機能を備えています。

主な機能:
テキスト検出（Text Detection）: 画像・PDF内のテキスト領域を高精度に検出。
テキスト認識（Text Recognition）: 検出されたテキスト領域から文字を認識。90以上の言語に対応。
レイアウト解析: ドキュメントの構造（段落、テーブル、ヘッダー、リスト等）を検出・分類。
行順序検出（Reading Order Detection）: テキストブロックの読み取り順序を推定。
テーブル認識: 表構造の検出と行・列の認識。
ライセンス: Apache 2.0（オープンソース）。
対応プラットフォーム:
Python パッケージ（pip install surya-ocr）
CLI（コマンドラインインターフェース）
GPU / CPU 両対応

2. 使用している技術スタック

コア技術: ディープラーニングベースのOCRモデル。テキスト検出にはセグメンテーションモデル、テキスト認識にはEncoder-Decoderアーキテクチャ（Vision Encoder + Text Decoder）を採用。
言語/フレームワーク: Python。PyTorch、Hugging Face Transformersを利用。
モデル: Hugging Face Hub上で事前学習済みモデルを公開。
特徴: Google CloudのOCR等の商用サービスと比較しても、多くのベンチマークで競争力のある精度を実現。特に多言語対応とレイアウト解析に強み。

3. 会社概要

開発者: Vik Paruchuri（個人開発者 / オープンソースプロジェクト）
GitHub: VikParuchuri/surya
公開年: 2024年
開発拠点: 米国

4. 沿革、資本構成、国籍、役員情報

沿革:
2024年初頭：Vik ParuchuriによりGitHub上でオープンソースとして公開。
2024年：急速にスター数を獲得し、オープンソースOCRの有力な選択肢として認知される。
継続的にモデルの改善・多言語対応の拡充が行われている。
資本構成:
個人によるオープンソースプロジェクト。企業支援やVC資金は受けていない（公開情報ベース）。
国籍:
米国（開発者がUS拠点）。
開発者情報:
Vik Paruchuri: データサイエンス・機械学習分野のエンジニア/起業家。OCR関連のオープンソースツール「Marker」の開発者でもある。Dataquestの創業者としても知られる。

Surya - OCR | newsify