Docling
公式サイト1. サービス概要
Doclingは、IBM Researchが開発したオープンソースのドキュメントパーシングツールです。PDF、DOCX、PPTX、HTML、画像等の多様なフォーマットをJSON・Markdownに変換し、LLMやRAGパイプラインへの入力データとして活用できるようにします。
- 主な機能:
- ドキュメント変換: PDF、DOCX、PPTX、HTML、画像、AsciiDoc等から構造化されたJSON / Markdownへの変換。
- レイアウト解析: AIモデルによるページレイアウトの自動検出(テキスト、テーブル、図表、ヘッダー、フッター等)。
- テーブル抽出: ドキュメント内の表をプログラムで利用可能な構造データとして抽出。
- OCR統合: スキャンPDF・画像からのテキスト認識。EasyOCR、Tesseract等と連携。
- チャンキング: LLM向けにドキュメントをセマンティックなチャンクに分割。
- LlamaIndex / LangChain統合: 主要なLLMフレームワークとのネイティブ連携。
- ライセンス: MIT License(オープンソース)。
- 対応プラットフォーム:
- Python パッケージ(pip install docling)
- CLI
- API(プログラム呼び出し)
2. 使用している技術スタック
- コア技術: IBM Research開発のDocLayNetデータセットで訓練されたレイアウト解析モデル。TableFormerによるテーブル構造認識。
- 言語/フレームワーク: Python。PyTorch、Hugging Face Transformers。
- OCRエンジン: EasyOCR、Tesseract OCR等をバックエンドとして利用可能。
- 特徴: IBM Researchの学術的知見に基づく高精度なレイアウト解析。DocLayNet(大規模ドキュメントレイアウトデータセット)による事前学習。
3. 会社概要
- 開発元: IBM Research(International Business Machines Corporation)
- GitHub: DS4SD/docling
- 公開年: 2024年
- 開発拠点: IBM Research チューリッヒ研究所(スイス)を中心とするグローバルな研究チーム。
4. 沿革、資本構成、国籍、役員情報
- 沿革:
- 2022年:IBM Researchが大規模ドキュメントレイアウトデータセット「DocLayNet」を発表。
- 2023年:テーブル構造認識モデル「TableFormer」を発表。
- 2024年:これらの研究成果を統合した「Docling」をオープンソースとしてGitHub上に公開。急速にLLM/RAGコミュニティで採用が広がる。
- 2024年後半〜2025年:LlamaIndex、LangChain等の主要フレームワークとの統合が進む。
- 資本構成:
- IBM Corporation(NYSE: IBM)の研究部門によるプロジェクト。IBMは1911年設立の米国多国籍テクノロジー企業。時価総額約2,000億ドル超(2025年時点)。
- 国籍:
- 米国企業(IBM)。開発はスイス・チューリッヒのIBM Research拠点が中心。
- 関連研究者:
- Christoph Auer、Michele Dolfi、Peter Staar等、IBM Research チューリッヒのDocument AI研究チームが中心的に開発。
