Promptfoo

1. サービス概要

Promptfoo（プロンプトフー）は、オープンソースのLLMテスト・評価フレームワークです。プロンプト、モデル、RAGパイプラインの品質をテストし、CI/CDパイプラインに統合してLLMアプリケーションの品質ゲートを実現します。LLM出力の回帰テストや比較評価を自動化し、プロダクション品質のAIアプリケーション開発を支援します。

主な機能:
プロンプトテスト: 複数のプロンプトバリエーションを定義し、期待される出力との一致度を自動評価。回帰テストによる品質保証。
モデル比較: OpenAI、Anthropic、Google、Mistral等の複数のLLMモデルを同一テストケースで比較評価。コスト・品質・レイテンシのトレードオフを可視化。
RAGパイプライン評価: Retrieval-Augmented Generationパイプラインの検索精度と生成品質を評価。
CI/CD統合: GitHub Actions、GitLab CI等のCI/CDパイプラインに組み込み、LLM出力の品質ゲートとして機能。品質基準を満たさない変更をブロック。
カスタムアサーション: 正規表現マッチ、JSON スキーマ検証、LLMによるグレーディング（LLM-as-judge）、類似度スコア等の多様な評価基準。
レッドチーミング: プロンプトインジェクション、ジェイルブレイク等のセキュリティテストを自動実行。LLMアプリケーションの脆弱性を検出。
Web UI: テスト結果を視覚的に比較・分析できるダッシュボード。
ユーザー数:
GitHubスター数は5,000超。LLMアプリケーション開発者やMLOpsチームで広く採用。
対応プラットフォーム:
Node.js環境（npm/npx）。Linux、macOS、Windows対応。CLI及びライブラリとして利用可能。

2. 使用している技術スタック

開発言語: TypeScript - CLIツール及びコアエンジン。React - Web UIフロントエンド。
アーキテクチャ:
YAML設定: promptfooconfig.yamlファイルでテストケース、プロバイダー（モデル）、アサーションを宣言的に定義。
プロバイダーシステム: OpenAI、Anthropic、Azure OpenAI、Ollama、HuggingFace等の多数のLLMプロバイダーに対応するプラグイン型アーキテクチャ。
評価エンジン: テストケースを並列実行し、各アサーションに基づいてPass/Failを判定。スコアリングシステムで総合評価を算出。
キャッシュ: API呼び出し結果をキャッシュし、再実行時のコストとレイテンシを削減。
SQLiteストレージ: テスト結果のローカル保存にSQLiteを使用。履歴比較や傾向分析が可能。

3. 会社概要

運営会社名: Promptfoo, Inc.
設立年: 2023年（プロジェクト開始）
本社所在地: アメリカ合衆国
従業員数: 約5〜15名（推定）
ライセンス: MIT License

4. 沿革、資本構成、国籍、役員情報

沿革:
2023年：Ian Webster氏がPromptfooプロジェクトをオープンソースとして開始。LLMアプリケーションのテスト・評価の課題を解決するためのツールを開発。
2023年：急速にGitHubスター数が増加。LLMOps・MLOpsコミュニティで広く注目を集める。
2023年後半：レッドチーミング機能を追加。LLMアプリケーションのセキュリティテスト自動化に対応。
2024年：Promptfoo, Inc.として法人化。商用サポートやエンタープライズ機能の提供を開始。
2024年：RAGパイプライン評価、モデル比較レポート、チームコラボレーション機能を追加。CI/CD統合の強化により、LLMアプリケーションの継続的品質管理を実現。
2025年：エンタープライズ向けのホスト版サービスやダッシュボード機能を拡充。LLMセキュリティテストのスタンダードツールとしての地位を確立。
資本構成:
オープンソースプロジェクトとして開始。法人化後、ベンチャーキャピタルからの資金調達を実施（詳細は非公開）。
MITライセンスによるオープンソースコアモデル。
国籍: アメリカ合衆国
役員情報:
Ian Webster（創業者）: ソフトウェアエンジニア・起業家。NASA等のオープンデータプロジェクトへの貢献でも知られる。Promptfooの設計・開発を主導し、LLMテスト・評価の標準化を推進。

CICD に戻る