メインコンテンツへスキップ

Docling

公式サイト

Docling インフォグラフィック

1. サービス概要

Doclingは、IBM Researchが開発したオープンソースのドキュメントパーシングツールです。PDF、DOCX、PPTX、HTML、画像等の多様なフォーマットをJSON・Markdownに変換し、LLMやRAGパイプラインへの入力データとして活用できるようにします。

主な機能:
ドキュメント変換: PDF、DOCX、PPTX、HTML、画像、AsciiDoc等から構造化されたJSON / Markdownへの変換。
レイアウト解析: AIモデルによるページレイアウトの自動検出（テキスト、テーブル、図表、ヘッダー、フッター等）。
テーブル抽出: ドキュメント内の表をプログラムで利用可能な構造データとして抽出。
OCR統合: スキャンPDF・画像からのテキスト認識。EasyOCR、Tesseract等と連携。
チャンキング: LLM向けにドキュメントをセマンティックなチャンクに分割。
LlamaIndex / LangChain統合: 主要なLLMフレームワークとのネイティブ連携。
ライセンス: MIT License（オープンソース）。
対応プラットフォーム:
Python パッケージ（pip install docling）
CLI
API（プログラム呼び出し）

2. 使用している技術スタック

コア技術: IBM Research開発のDocLayNetデータセットで訓練されたレイアウト解析モデル。TableFormerによるテーブル構造認識。
言語/フレームワーク: Python。PyTorch、Hugging Face Transformers。
OCRエンジン: EasyOCR、Tesseract OCR等をバックエンドとして利用可能。
特徴: IBM Researchの学術的知見に基づく高精度なレイアウト解析。DocLayNet（大規模ドキュメントレイアウトデータセット）による事前学習。

3. 会社概要

開発元: IBM Research（International Business Machines Corporation）
GitHub: DS4SD/docling
公開年: 2024年
開発拠点: IBM Research チューリッヒ研究所（スイス）を中心とするグローバルな研究チーム。

4. 沿革、資本構成、国籍、役員情報

沿革:
2022年：IBM Researchが大規模ドキュメントレイアウトデータセット「DocLayNet」を発表。
2023年：テーブル構造認識モデル「TableFormer」を発表。
2024年：これらの研究成果を統合した「Docling」をオープンソースとしてGitHub上に公開。急速にLLM/RAGコミュニティで採用が広がる。
2024年後半〜2025年：LlamaIndex、LangChain等の主要フレームワークとの統合が進む。
資本構成:
IBM Corporation（NYSE: IBM）の研究部門によるプロジェクト。IBMは1911年設立の米国多国籍テクノロジー企業。時価総額約2,000億ドル超（2025年時点）。
国籍:
米国企業（IBM）。開発はスイス・チューリッヒのIBM Research拠点が中心。
関連研究者:
Christoph Auer、Michele Dolfi、Peter Staar等、IBM Research チューリッヒのDocument AI研究チームが中心的に開発。

Docling - OCR | newsify