Crawlee
公式サイト1. サービス概要
Crawlee(クローリー)は、Apify社が開発するオープンソースのWebスクレイピング・ブラウザ自動化ライブラリです。SEO目的では、検索エンジンのクロール動作をシミュレートしたテクニカルSEO監査、大規模サイトの構造化データ検証、競合分析データの収集などに活用されます。人間のブラウザ動作を模倣するフィンガープリント生成により、ボット検知を回避した信頼性の高いクローリングを実現します。
- 主な機能:
- マルチクローラー対応: Playwright、Puppeteer、Cheerio、JSDOM、Raw HTTPの各エンジンを統一APIで利用可能。
- アンチボット回避: ブラウザTLSフィンガープリントの自動生成、ヘッダーの自動調整により、実際のブラウザと同等の通信パターンを再現。
- プロキシローテーション: IPアドレスの自動切り替えによるブロック回避。
- 自動スケーリング: リクエストキューとデータセットによる大規模クロールの自動管理。
- TypeScript/JavaScript & Python: Node.js版(TypeScript/JavaScript)とPython版の両方を提供。
- AI/LLM連携: スクレイピングデータをRAG、LLM、GPTの入力データとして活用可能。
- ユーザー数:
- GitHub Stars 17,000以上(JS版)。Apifyプラットフォーム全体ではSiemens、Microsoft、Accenture等が利用。
- 対応:
- Node.js(TypeScript/JavaScript)、Python。ローカル実行およびApifyクラウド上での実行が可能。
2. 使用している技術スタック
- 言語: TypeScript/JavaScript(メイン)、Python(crawlee-python)。
- ブラウザエンジン: Playwright、Puppeteer(Chromium制御)。Cheerio、JSDOM(軽量HTML解析)。
- アーキテクチャ: リクエストキュー、データセット、キー値ストアの3層構造。自動並行処理・リトライ機構。
- プロキシ: Apify Proxy統合。カスタムプロキシ対応。
- デプロイ: ローカル実行、Docker、Apify Platform(クラウド)。
- ライセンス: Apache License 2.0(オープンソース)。
3. 会社概要
- 運営会社名: Apify Technologies s.r.o.
- 設立年: 2015年(Apify社)、2022年(Crawleeとしてリブランド)
- 本社所在地: チェコ プラハ
- 従業員数: 約80〜120名(Apify全体)
4. 沿革、資本構成、国籍、役員情報
- 沿革:
- 2015年:Apify社設立。Webスクレイピングプラットフォームの開発開始。
- 2019年:apify/apify-js としてNode.jsクローラーライブラリを公開。
- 2022年:「Crawlee」にリブランドし、Apifyプラットフォームから独立したOSSとして再ローンチ。
- 2023年:Crawlee for Python をリリース。
- 資本構成:
- ベンチャーキャピタル支援。Apify社として資金調達を実施。
- 国籍:
- チェコ。
- 役員情報:
- Jan Čurn (CEO / Co-founder, Apify): 技術起業家。Webスクレイピング・自動化領域のビジョンを主導。
