Unstructured
公式サイト1. サービス概要
Unstructuredは、LLM(大規模言語モデル)やRAG(Retrieval-Augmented Generation)パイプライン向けに、非構造化データを構造化データへ変換するオープンソースのデータインジェスション/ETLプラットフォームです。
- 主な機能:
- PDF、HTML、画像、Word、PowerPoint、Eメールなど多様なファイル形式の自動パース・チャンキング。
- テーブル抽出: ドキュメント内の表を構造化データとして抽出。
- OCR統合: 画像やスキャンPDFからのテキスト認識。
- Unstructured API: クラウドホスト型のマネージドサービスとしてドキュメント処理を提供。
- Unstructured Platform: エンタープライズ向けのノーコード/ローコードETLパイプライン構築環境。
- コネクター: S3、Azure Blob、Google Drive、Elasticsearch、Pinecone、Weaviateなど多数のデータソース・ベクトルDBとの連携。
- ライセンス: コアライブラリはApache 2.0(オープンソース)。商用マネージドサービスも提供。
- 対応プラットフォーム:
- Python パッケージ(pip install)
- REST API(Unstructured API)
- Docker コンテナ
- Unstructured Platform(SaaS)
2. 使用している技術スタック
- コア技術: 複数のOCRエンジン(Tesseract、PaddleOCR等)やレイアウト検出モデル(detectron2、YOLOXベース)を組み合わせたパイプライン型アーキテクチャ。
- 言語/フレームワーク: Python。内部でNLTK、spaCy、Hugging Face Transformers等を利用。
- ドキュメントパース: PDFMiner、pdf2image、python-pptx、python-docx等のライブラリを統合。
- テーブル抽出: Microsoft Table Transformerモデルを活用。
- インフラ: AWS上のクラウドインフラ。Kubernetes/Dockerベースのスケーラブルな処理基盤。
3. 会社概要
- 運営会社名: Unstructured Technologies Inc.
- 設立年: 2022年
- 本社所在地: 米国 テキサス州 オースティン
- 従業員数: 約50〜80名(2025年時点推定)。
4. 沿革、資本構成、国籍、役員情報
- 沿革:
- 2022年:Brian Raymondにより設立。オープンソースのドキュメントパーシングライブラリとして公開。
- 2023年:急速にGitHubスター数を獲得し、LLM/RAGコミュニティで広く採用される。
- 2023年後半〜2024年:商用マネージドAPI・Platformの提供を開始。
- 2024年:累計約6,500万ドルの資金調達を実施。
- 資本構成:
- 非上場。New Enterprise Associates (NEA)、Menlo Ventures等のVCが出資。
- 国籍:
- 米国企業。
- 役員情報:
- Brian Raymond (CEO / 創業者): データエンジニアリング・インフラ分野の経験を持つ起業家。
