- 基本情報
- Studio Web の UiPath エージェント
- Agent Builder の UiPath エージェント
- UiPath コード化されたエージェント

Agents ガイド
評価
エージェントを構築する際の目標は、信頼性を確保すること、つまり適切な出力を一貫して提供可能な、信頼できるものにすることです。評価を行うことで、エージェントが適切に機能しているかどうかや、改良が必要かどうかを判断できます。
評価は、入力と、出力に対して行われたアサーション (評価器) とのペアです。評価器は、エージェントの出力が期待される出力を満足するかどうかを評価するために使用する定義済みの条件またはルールです。
評価セットは、複数の評価と評価器を論理的なグループにまとめたものです。
評価結果は、完了した評価の実行のトレースであり、エージェントのパフォーマンスを評価するものです。評価の実行の間に、エージェントの正確性、効率、および意思決定能力が測定され、エージェントのパフォーマンスがどの程度良好かに基づいてスコアが付けられます。
評価スコアにより、特定の評価のアサーションに基づいてエージェントのパフォーマンスがどの程度良好であるかが判断されます。スコアは 0 から 100 の尺度で表されます。評価の実行に失敗した場合は、再実行してデバッグする必要があります。
評価を作成する前に、まずエージェントをテストして、出力が正しいかどうかを確認する必要があります。エージェントが正しい出力を生成している場合、正しい実行から評価を作成できます。エージェントが正しい出力を生成していない場合は、評価を最初から作成できます。
- エージェントの設計後、[クラウドでテスト] を選択します。
-
[テストの設定] ウィンドウで、ソリューションで使用されているリソースを確認し、テスト実行の入力を指定します。
-
[実行] を選択します。
結果は [実行結果] パネルに表示されます。
- 出力が正しい場合は、[全般] タブで利用可能になっている [評価セットに追加] ボタンを選択します。
出力が正しくない場合は、以下を行うことができます。
- プロンプトを改良する: 出力が正しくなるまで、プロンプトを調整してエージェントをテストします。
- 間違った出力から評価を作成する: 間違った出力に基づいて評価を生成し、期待される結果に一致するように手動で編集します。
-
テスト実行のリストが [評価セットに追加] ウィンドウに表示されます。評価に追加する実行の [既定のセットに追加] を選択します。
評価セットを作成済みの場合は、利用可能なドロップダウン リストから選択できます。
-
次に、[評価セット] パネルに移動し、評価セットの [詳細を表示] を選択します。
-
[セットを評価] を選択して評価を実行します。また、評価するセットから特定の評価を選択することもできます。
-
[結果] タブに移動して、評価スコアと詳細を表示します。
- エージェントの設計後、[評価セット] タブに移動し、[新規作成] を選択します。
[インポート] を選択して、他のエージェントの評価の既存の JSON データを使用することもできます。
- 評価セットに関連する名前を追加します。
-
[セットに追加] を選択して、新しい評価を作成します。セット内の新しい評価ごとに、以下の操作を行います。
-
名前を追加します。
-
[入力] フィールドの値 (定義された入力引数から継承) と、[期待される出力] の値を追加します。
-
[保存] を選択します。
-
- 次に、[評価器を設定] を使用して、評価セットに評価器を割り当てます。
1 つのセットに 1 つ以上の評価器を割り当てることができます。
-
[変更を保存] を選択します。
-
[評価セット] のメイン ページで、実行する各セットの [評価セットを実行] を選択します。
-
[結果] タブに移動して、評価スコアと詳細を表示します。
[評価器] パネルを使用して、評価器を作成および管理します。既定では、各エージェントには事前定義された LLM ベースの既定の評価器があります。
独自の評価器を作成するには、次の手順を実行します。
-
[新規作成] を選択します。
-
評価器の種類を選択します。
-
LLM-as-a-judge (LLM による評価): 意味的類似性 – 独自の LLM ベースの評価器を作成します。
-
完全一致 – エージェントの出力が期待される出力に一致するかどうかを確認します。
-
JSON の類似性 – 2 つの JSON 構造または値が類似するかどうかを確認します。
-
-
[続行] を選択します。
-
評価器を設定します。
-
関連する名前と説明を追加します。
-
対象の出力フィールドを選択します。
-
ルートレベルを対象にする場合 ([* (すべて)]): 出力全体を評価します。
-
フィールドを固有に対象にする場合: 特定の第 1 レベルのフィールドを評価します。ドロップダウン メニューを使用してフィールドを選択します。表示される出力フィールドは、システム プロンプトに対して定義した出力引数から継承されます。
-
-
プロンプトを追加します (LLM ベースの評価器の場合のみ)。
-
評価器の種類を選択する
自分のニーズに合った評価器の種類がわからない場合は、以下の推奨事項を確認します。
-
LLM-as-a-judge (LLM による評価):
-
ルート出力を対象にする場合の既定のアプローチとして推奨されます。
-
複雑な出力を柔軟に評価できます。
-
完全一致に加えて品質と正確性も評価できます。
-
推論、自然言語による回答、または構造化された複雑な出力を評価する場合に最適です。
-
-
決定論的 (完全一致または JSON の類似性):
-
完全一致が予期される場合に推奨されます。
-
出力要件が厳密に定義されている場合に最も効果的です。
-
複雑なオブジェクトを処理できますが、以下の場合に最適です。
-
Boolean 値の回答 (true/false)
-
具体的な数値
-
文字列の完全一致
-
プリミティブの配列
-
-
出力が適切に構造化されていると、評価の信頼性が高まります。そのため、構造化された出力を利用することをお勧めします。これにより、一貫性が確保され、比較が容易になります。
以下に、出力全体を評価する定義済みのプロンプトの例を示します。
評価のエキスパートとして、以下の JSON コンテンツの意味的類似性を分析し、0 から 100 のスコアを決定してください。対応するフィールドの意味とコンテキストの等価性を比較してください。その際に、言語における有効な代替表現、同義語、および妥当なバリエーションを考慮すると同時に、精度と完全性について高い基準を維持してください。また、そのスコアを付けた理由を簡単・簡潔に説明し、スコアに妥当性を与えてください。
期待される出力: {{ExpectedOutput}}
実際の出力: {{ActualOutput}}
エージェントスコアは、30+の評価を良いベンチマークと見なします。
単純なエージェントの場合は、1 個から 3 個の評価セットで約 30 回の評価を目指します。より複雑なエージェントの場合は、少なくともその 2 倍以上の量にすることをお勧めします。
評価の数は以下に応じて異なります。
- エージェントの複雑さ
- 入力パラメーターの数
- 出力構造の複雑さ
- ツールの使用パターン
- 判断の分岐
- 入力
- 可能性がある入力の範囲: データ型、値の範囲、任意のフィールド
- エッジ ケース
- 使用パターン
- 共通のユースケース
- 異なるペルソナ
- エラーのシナリオ
評価をセットにグループ化すると、評価を整理しやすくなります。たとえば、以下のようにすることができます。
- 出力を完全に評価するための 1 つのセット
- エッジ ケース用の別のセット
- スペルミスを処理するための別のセット
カバレッジの原則
- 論理的なカバレッジ: 入力の組み合わせ、エッジ ケース、境界条件を綿密に計画します。
- 冗長性の管理: 論理的に同等のケースあたり 3 回から 5 回の異なる評価を目指します。
- 量より質を重視: 評価を増やしても必ずしも結果が向上するとは限りません。意味のあるテストに重点を置きます。