Promptfoo
公式サイト1. サービス概要
Promptfoo(プロンプトフー)は、オープンソースのLLMテスト・評価フレームワークです。プロンプト、モデル、RAGパイプラインの品質をテストし、CI/CDパイプラインに統合してLLMアプリケーションの品質ゲートを実現します。LLM出力の回帰テストや比較評価を自動化し、プロダクション品質のAIアプリケーション開発を支援します。
- 主な機能:
- プロンプトテスト: 複数のプロンプトバリエーションを定義し、期待される出力との一致度を自動評価。回帰テストによる品質保証。
- モデル比較: OpenAI、Anthropic、Google、Mistral等の複数のLLMモデルを同一テストケースで比較評価。コスト・品質・レイテンシのトレードオフを可視化。
- RAGパイプライン評価: Retrieval-Augmented Generationパイプラインの検索精度と生成品質を評価。
- CI/CD統合: GitHub Actions、GitLab CI等のCI/CDパイプラインに組み込み、LLM出力の品質ゲートとして機能。品質基準を満たさない変更をブロック。
- カスタムアサーション: 正規表現マッチ、JSON スキーマ検証、LLMによるグレーディング(LLM-as-judge)、類似度スコア等の多様な評価基準。
- レッドチーミング: プロンプトインジェクション、ジェイルブレイク等のセキュリティテストを自動実行。LLMアプリケーションの脆弱性を検出。
- Web UI: テスト結果を視覚的に比較・分析できるダッシュボード。
- ユーザー数:
- GitHubスター数は5,000超。LLMアプリケーション開発者やMLOpsチームで広く採用。
- 対応プラットフォーム:
- Node.js環境(npm/npx)。Linux、macOS、Windows対応。CLI及びライブラリとして利用可能。
2. 使用している技術スタック
- 開発言語: TypeScript - CLIツール及びコアエンジン。React - Web UIフロントエンド。
- アーキテクチャ:
- YAML設定: promptfooconfig.yamlファイルでテストケース、プロバイダー(モデル)、アサーションを宣言的に定義。
- プロバイダーシステム: OpenAI、Anthropic、Azure OpenAI、Ollama、HuggingFace等の多数のLLMプロバイダーに対応するプラグイン型アーキテクチャ。
- 評価エンジン: テストケースを並列実行し、各アサーションに基づいてPass/Failを判定。スコアリングシステムで総合評価を算出。
- キャッシュ: API呼び出し結果をキャッシュし、再実行時のコストとレイテンシを削減。
- SQLiteストレージ: テスト結果のローカル保存にSQLiteを使用。履歴比較や傾向分析が可能。
3. 会社概要
- 運営会社名: Promptfoo, Inc.
- 設立年: 2023年(プロジェクト開始)
- 本社所在地: アメリカ合衆国
- 従業員数: 約5〜15名(推定)
- ライセンス: MIT License
4. 沿革、資本構成、国籍、役員情報
- 沿革:
- 2023年:Ian Webster氏がPromptfooプロジェクトをオープンソースとして開始。LLMアプリケーションのテスト・評価の課題を解決するためのツールを開発。
- 2023年:急速にGitHubスター数が増加。LLMOps・MLOpsコミュニティで広く注目を集める。
- 2023年後半:レッドチーミング機能を追加。LLMアプリケーションのセキュリティテスト自動化に対応。
- 2024年:Promptfoo, Inc.として法人化。商用サポートやエンタープライズ機能の提供を開始。
- 2024年:RAGパイプライン評価、モデル比較レポート、チームコラボレーション機能を追加。CI/CD統合の強化により、LLMアプリケーションの継続的品質管理を実現。
- 2025年:エンタープライズ向けのホスト版サービスやダッシュボード機能を拡充。LLMセキュリティテストのスタンダードツールとしての地位を確立。
- 資本構成:
- オープンソースプロジェクトとして開始。法人化後、ベンチャーキャピタルからの資金調達を実施(詳細は非公開)。
- MITライセンスによるオープンソースコアモデル。
- 国籍: アメリカ合衆国
- 役員情報:
- Ian Webster(創業者): ソフトウェアエンジニア・起業家。NASA等のオープンデータプロジェクトへの貢献でも知られる。Promptfooの設計・開発を主導し、LLMテスト・評価の標準化を推進。
