メインコンテンツへスキップ
newsify
シリコンバレーの最前線を、確かなソースで。
Docling インフォグラフィック

1. サービス概要

Doclingは、IBM Researchが開発したオープンソースのドキュメントパーシングツールです。PDF、DOCX、PPTX、HTML、画像等の多様なフォーマットをJSON・Markdownに変換し、LLMやRAGパイプラインへの入力データとして活用できるようにします。

  • 主な機能:
  • ドキュメント変換: PDF、DOCX、PPTX、HTML、画像、AsciiDoc等から構造化されたJSON / Markdownへの変換。
  • レイアウト解析: AIモデルによるページレイアウトの自動検出(テキスト、テーブル、図表、ヘッダー、フッター等)。
  • テーブル抽出: ドキュメント内の表をプログラムで利用可能な構造データとして抽出。
  • OCR統合: スキャンPDF・画像からのテキスト認識。EasyOCR、Tesseract等と連携。
  • チャンキング: LLM向けにドキュメントをセマンティックなチャンクに分割。
  • LlamaIndex / LangChain統合: 主要なLLMフレームワークとのネイティブ連携。
  • ライセンス: MIT License(オープンソース)。
  • 対応プラットフォーム:
  • Python パッケージ(pip install docling)
  • CLI
  • API(プログラム呼び出し)

2. 使用している技術スタック

  • コア技術: IBM Research開発のDocLayNetデータセットで訓練されたレイアウト解析モデル。TableFormerによるテーブル構造認識。
  • 言語/フレームワーク: Python。PyTorch、Hugging Face Transformers。
  • OCRエンジン: EasyOCR、Tesseract OCR等をバックエンドとして利用可能。
  • 特徴: IBM Researchの学術的知見に基づく高精度なレイアウト解析。DocLayNet(大規模ドキュメントレイアウトデータセット)による事前学習。

3. 会社概要

  • 開発元: IBM Research(International Business Machines Corporation)
  • GitHub: DS4SD/docling
  • 公開年: 2024年
  • 開発拠点: IBM Research チューリッヒ研究所(スイス)を中心とするグローバルな研究チーム。

4. 沿革、資本構成、国籍、役員情報

  • 沿革:
  • 2022年:IBM Researchが大規模ドキュメントレイアウトデータセット「DocLayNet」を発表。
  • 2023年:テーブル構造認識モデル「TableFormer」を発表。
  • 2024年:これらの研究成果を統合した「Docling」をオープンソースとしてGitHub上に公開。急速にLLM/RAGコミュニティで採用が広がる。
  • 2024年後半〜2025年:LlamaIndex、LangChain等の主要フレームワークとの統合が進む。
  • 資本構成:
  • IBM Corporation(NYSE: IBM)の研究部門によるプロジェクト。IBMは1911年設立の米国多国籍テクノロジー企業。時価総額約2,000億ドル超(2025年時点)。
  • 国籍:
  • 米国企業(IBM)。開発はスイス・チューリッヒのIBM Research拠点が中心。
  • 関連研究者:
  • Christoph Auer、Michele Dolfi、Peter Staar等、IBM Research チューリッヒのDocument AI研究チームが中心的に開発。