メインコンテンツへスキップ
newsify
シリコンバレーの最前線を、確かなソースで。

Unstructured

公式サイト
Unstructured インフォグラフィック

1. サービス概要

Unstructuredは、LLM(大規模言語モデル)やRAG(Retrieval-Augmented Generation)パイプライン向けに、非構造化データを構造化データへ変換するオープンソースのデータインジェスション/ETLプラットフォームです。

  • 主な機能:
  • PDF、HTML、画像、Word、PowerPoint、Eメールなど多様なファイル形式の自動パース・チャンキング。
  • テーブル抽出: ドキュメント内の表を構造化データとして抽出。
  • OCR統合: 画像やスキャンPDFからのテキスト認識。
  • Unstructured API: クラウドホスト型のマネージドサービスとしてドキュメント処理を提供。
  • Unstructured Platform: エンタープライズ向けのノーコード/ローコードETLパイプライン構築環境。
  • コネクター: S3、Azure Blob、Google Drive、Elasticsearch、Pinecone、Weaviateなど多数のデータソース・ベクトルDBとの連携。
  • ライセンス: コアライブラリはApache 2.0(オープンソース)。商用マネージドサービスも提供。
  • 対応プラットフォーム:
  • Python パッケージ(pip install)
  • REST API(Unstructured API)
  • Docker コンテナ
  • Unstructured Platform(SaaS)

2. 使用している技術スタック

  • コア技術: 複数のOCRエンジン(Tesseract、PaddleOCR等)やレイアウト検出モデル(detectron2、YOLOXベース)を組み合わせたパイプライン型アーキテクチャ。
  • 言語/フレームワーク: Python。内部でNLTK、spaCy、Hugging Face Transformers等を利用。
  • ドキュメントパース: PDFMiner、pdf2image、python-pptx、python-docx等のライブラリを統合。
  • テーブル抽出: Microsoft Table Transformerモデルを活用。
  • インフラ: AWS上のクラウドインフラ。Kubernetes/Dockerベースのスケーラブルな処理基盤。

3. 会社概要

  • 運営会社名: Unstructured Technologies Inc.
  • 設立年: 2022年
  • 本社所在地: 米国 テキサス州 オースティン
  • 従業員数: 約50〜80名(2025年時点推定)。

4. 沿革、資本構成、国籍、役員情報

  • 沿革:
  • 2022年:Brian Raymondにより設立。オープンソースのドキュメントパーシングライブラリとして公開。
  • 2023年:急速にGitHubスター数を獲得し、LLM/RAGコミュニティで広く採用される。
  • 2023年後半〜2024年:商用マネージドAPI・Platformの提供を開始。
  • 2024年:累計約6,500万ドルの資金調達を実施。
  • 資本構成:
  • 非上場。New Enterprise Associates (NEA)、Menlo Ventures等のVCが出資。
  • 国籍:
  • 米国企業。
  • 役員情報:
  • Brian Raymond (CEO / 創業者): データエンジニアリング・インフラ分野の経験を持つ起業家。