Marker
1. サービス概要
Markerは、PDFをMarkdown形式に高精度変換するオープンソースツールです。LLMやRAGパイプラインへのドキュメント入力を最適化することを目的として開発されており、テキスト、テーブル、画像、数式などを含む複雑なPDFレイアウトに対応します。
- 主な機能:
- PDF→Markdown変換: 複雑なレイアウトを持つPDFをクリーンなMarkdownに変換。
- テーブル変換: PDF内の表をMarkdownテーブル形式に変換。
- 数式認識: LaTeX数式を含むPDF(学術論文等)の数式をLaTeX形式で抽出。
- 多言語対応: 英語をはじめ複数言語のドキュメントを処理。
- 画像抽出: ドキュメント内の画像を抽出・保存。
- ヘッダー/フッター除去: ページ番号やヘッダー等の不要要素を自動除去。
- バッチ処理: 大量のPDFファイルを一括変換。
- ライセンス: GPL(GNU General Public License)。
- 対応プラットフォーム:
- Python パッケージ(pip install marker-pdf)
- CLI(コマンドラインインターフェース)
- GPU / CPU 両対応
2. 使用している技術スタック
- コア技術: 複数のAIモデルを組み合わせたパイプライン。レイアウト検出、OCR(Surya)、テーブル認識、数式認識(Nougat / Texify)等のモデルを統合。
- 言語/フレームワーク: Python。PyTorch。
- OCRエンジン: 同作者が開発したSuryaをOCRバックエンドとして使用。
- 特徴: 従来のPDFパーサー(PyMuPDF等)では失われがちなレイアウト構造を保持しつつ、LLMが処理しやすいMarkdown形式に変換。nougat等の既存ツールと比較して高速かつ高精度。
3. 会社概要
- 開発者: Vik Paruchuri(個人開発者 / オープンソースプロジェクト)
- GitHub: VikParuchuri/marker
- 公開年: 2023年
- 開発拠点: 米国
4. 沿革、資本構成、国籍、役員情報
- 沿革:
- 2023年後半:Vik ParuchuriによりGitHub上でオープンソースとして公開。
- 2024年:LLM/RAGブームと共に急速に普及。GitHubスター数が急増し、PDF→Markdown変換ツールの代表的な選択肢として認知される。
- 2024〜2025年:Surya OCRとの統合強化、数式認識・テーブル認識の精度向上など継続的に改善。
- 資本構成:
- 個人によるオープンソースプロジェクト。
- 国籍:
- 米国(開発者がUS拠点)。
- 開発者情報:
- Vik Paruchuri: データサイエンス・機械学習分野のエンジニア/起業家。Suryaの開発者でもある。オンライン学習プラットフォームDataquestの創業者としても知られる。PDF処理・OCR関連のオープンソースツールを複数開発。
