メインコンテンツへスキップ
newsify
シリコンバレーの最前線を、確かなソースで。
Crawlee インフォグラフィック

1. サービス概要

Crawlee(クローリー)は、Apify社が開発するオープンソースのWebスクレイピング・ブラウザ自動化ライブラリです。SEO目的では、検索エンジンのクロール動作をシミュレートしたテクニカルSEO監査、大規模サイトの構造化データ検証、競合分析データの収集などに活用されます。人間のブラウザ動作を模倣するフィンガープリント生成により、ボット検知を回避した信頼性の高いクローリングを実現します。

  • 主な機能:
  • マルチクローラー対応: Playwright、Puppeteer、Cheerio、JSDOM、Raw HTTPの各エンジンを統一APIで利用可能。
  • アンチボット回避: ブラウザTLSフィンガープリントの自動生成、ヘッダーの自動調整により、実際のブラウザと同等の通信パターンを再現。
  • プロキシローテーション: IPアドレスの自動切り替えによるブロック回避。
  • 自動スケーリング: リクエストキューとデータセットによる大規模クロールの自動管理。
  • TypeScript/JavaScript & Python: Node.js版(TypeScript/JavaScript)とPython版の両方を提供。
  • AI/LLM連携: スクレイピングデータをRAG、LLM、GPTの入力データとして活用可能。
  • ユーザー数:
  • GitHub Stars 17,000以上(JS版)。Apifyプラットフォーム全体ではSiemens、Microsoft、Accenture等が利用。
  • 対応:
  • Node.js(TypeScript/JavaScript)、Python。ローカル実行およびApifyクラウド上での実行が可能。

2. 使用している技術スタック

  • 言語: TypeScript/JavaScript(メイン)、Python(crawlee-python)。
  • ブラウザエンジン: Playwright、Puppeteer(Chromium制御)。Cheerio、JSDOM(軽量HTML解析)。
  • アーキテクチャ: リクエストキュー、データセット、キー値ストアの3層構造。自動並行処理・リトライ機構。
  • プロキシ: Apify Proxy統合。カスタムプロキシ対応。
  • デプロイ: ローカル実行、Docker、Apify Platform(クラウド)。
  • ライセンス: Apache License 2.0(オープンソース)。

3. 会社概要

  • 運営会社名: Apify Technologies s.r.o.
  • 設立年: 2015年(Apify社)、2022年(Crawleeとしてリブランド)
  • 本社所在地: チェコ プラハ
  • 従業員数: 約80〜120名(Apify全体)

4. 沿革、資本構成、国籍、役員情報

  • 沿革:
  • 2015年:Apify社設立。Webスクレイピングプラットフォームの開発開始。
  • 2019年:apify/apify-js としてNode.jsクローラーライブラリを公開。
  • 2022年:「Crawlee」にリブランドし、Apifyプラットフォームから独立したOSSとして再ローンチ。
  • 2023年:Crawlee for Python をリリース。
  • 資本構成:
  • ベンチャーキャピタル支援。Apify社として資金調達を実施。
  • 国籍:
  • チェコ。
  • 役員情報:
  • Jan Čurn (CEO / Co-founder, Apify): 技術起業家。Webスクレイピング・自動化領域のビジョンを主導。