- 基本情報
- Studio Web の UiPath エージェント
- Agent Builder の UiPath エージェント
- UiPath コード化されたエージェント

Agents ガイド
評価
エージェントを構築する際の目標は、信頼性を確保すること、つまり適切な出力を一貫して提供可能な、信頼できるものにすることです。評価を行うことで、エージェントが適切に機能しているかどうかや、改良が必要かどうかを判断できます。
用語
評価は、入力と、出力に対して行われたアサーションとのペアです。アサーションは、エージェントの出力が期待される出力を満足するかどうかを評価するために使用する定義済みの条件またはルールです。
評価セットは、複数の評価を論理的にグループ化したものです。
評価結果は、エージェントのパフォーマンスを評価する、完了した評価実行のトレースです。これらの実行の間に、エージェントの正確性、効率、および意思決定能力が測定され、エージェントのパフォーマンスがどの程度良好かに基づいてスコアが付けられます。特定の評価のアサーションに基づいてエージェントのパフォーマンスがどの程度良好であるかは、評価スコアによって決まります。スコアは 0 から 100 の尺度で表されます。評価の実行が失敗した場合は、再実行してデバッグする必要があります。
評価を作成する前に、まずエージェントをテストして、その出力が正しいかどうかを確認する必要があります。エージェントが正しく実行されている場合、正しいトレースから評価を作成できます。エージェントが正しく実行されておらず、その出力が正しくない場合は、評価を最初から作成できます。
エージェント・テスト実行およびトレースからの評価の作成
- エージェントを設計したら、[プレイグラウンド] ペインでテスト実行に必要な入力を追加し、[実行] を選択します。
- 実行の完了後、出力が正しい場合は [評価セットに追加] ボタンを選択します。
エージェントの出力が正しくない場合は、以下を行うことができます。
- プロンプトを改良する: 出力が正しくなるまで、プロンプトを調整してエージェントを再実行します。
- 間違った出力から評価を作成する: 間違った出力に基づいて評価を生成し、期待される結果に一致するように手動で編集します。
または、テストの実行後に [トレース] タブに移動して実行の詳細を確認します。[トレースを表示] を選択し、[評価セットに追加] を選択します。
- [ 評価セットの作成 ] を選択し、このセットの名前を選択します。チェックマーク アイコンを選択して操作を確定します。
これで、新しいセットが [評価セットを選択] ペインに表示されます。評価を選択し、[次へ] を選択して [評価を作成] ウィンドウに移動します。ここでセットの最初の評価を作成します。
- [評価を作成] ウィンドウの [入力] フィールドと [期待される出力] フィールドには、エージェントのプロンプト用に作成した入力引数と出力引数がすでに入力されています。既定のアサーションの種類である [評価者としての LLM] を使用している場合は、評価プロンプトを追加し、[作成] を選択して評価を確定します。
評価を最初から作成する
- エージェントの設計後、[評価] タブに移動し、[評価セットを作成] を選択します。
[インポート] を選択して、他のエージェントの評価の既存の JSON データを使用することもできます。
- 新しい評価セットの名前を選択し、[作成] を選択します。
評価セットが作成され、[評価を作成] ウィンドウが表示されます。
- このセットの最初の評価を作成します。
- [入力] フィールドを設定します。これらのフィールドは、プロンプト用に作成した入力引数から継承されます。
- [期待される出力] を設定します。これは、作成した出力引数から継承されます。
- [評価の設定] で、以下のフィールドを設定します。
- [対象の出力フィールド] を選択します。
-
ルートレベルを対象にする場合 ([* (すべて)]): 出力全体を評価します。
-
フィールドを固有に対象にする場合: 特定の第 1 レベルのフィールドを評価します。ドロップダウン メニューを使用してフィールドを選択します。表示される出力フィールドは、システム プロンプトに対して定義した出力引数から継承されます。
-
- [アサーションの種類] を選択します。これは以下の評価方法を表します。
- 評価者としての LLM (既定の方法)
- ルート出力を対象にする場合の既定のアプローチとして推奨されます。
- 複雑な出力を柔軟に評価できます。
- 完全一致に加えて品質と正確性も評価できます。
- 推論、自然言語による回答、または構造化された複雑な出力を評価する場合に最適です。
- 次に等しい
- 完全一致が予期される場合に推奨されます。
- 出力要件が厳密に定義されている場合に最も効果的です。
- 複雑なオブジェクトを処理できますが、以下の場合に最適です。
- Boolean 値の回答 (true/false)
- 具体的な数値
- 文字列の完全一致
- プリミティブの配列
- 評価者としての LLM (既定の方法)
- [対象の出力フィールド] を選択します。
- [作成] を選択して、新しい評価を保存します。
評価プロンプトを構成する
出力が適切に構造化されていると、評価の信頼性が高まります。そのため、構造化された出力を利用することをお勧めします。これにより、一貫性が確保され、比較が容易になります。
評価のエキスパートとして、以下の JSON コンテンツの意味的類似性を分析し、0 から 100 のスコアを決定してください。対応するフィールドの意味とコンテキストの等価性を比較してください。その際に、言語における有効な代替表現、同義語、および妥当なバリエーションを考慮すると同時に、精度と完全性について高い基準を維持してください。また、そのスコアを付けた理由を簡単・簡潔に説明し、スコアに妥当性を与えてください。
期待される出力: {{ExpectedOutput}}
実際の出力: {{ActualOutput}}
評価の数
単純なエージェントの場合は、1 個から 3 個の評価セットで約 30 回の評価を目指します。より複雑なエージェントの場合は、少なくともその 2 倍以上の量にすることをお勧めします。
評価の数は以下に応じて異なります。
- エージェントの複雑さ
- 入力パラメーターの数
- 出力構造の複雑さ
- ツールの使用パターン
- 判断の分岐
- 入力
- 可能性がある入力の範囲: データ型、値の範囲、任意のフィールド
- エッジ ケース
- 使用パターン
- 共通のユースケース
- 異なるペルソナ
- エラーのシナリオ
評価セット
評価をセットにグループ化すると、評価を整理しやすくなります。たとえば、以下のようにすることができます。
- 出力を完全に評価するための 1 つのセット
- エッジ ケース用の別のセット
- スペルミスを処理するための別のセット
カバレッジの原則
- 論理的なカバレッジ: 入力の組み合わせ、エッジ ケース、境界条件を綿密に計画します。
- 冗長性の管理: 論理的に同等のケースあたり 3 回から 5 回の異なる評価を目指します。
- 量より質を重視: 評価を増やしても必ずしも結果が向上するとは限りません。意味のあるテストに重点を置きます。
評価を作成するタイミング
引数が安定するか完成したら、評価を作成します。これは、ユース ケースが確立され、プロンプト、ツール、コンテキスト グラウンディングのインデックスが確定することも意味します。
引数を変更する場合は、それに応じて評価も調整する必要があります。追加の作業を最小限に抑えるには、明確に定義されたユース ケースを持つ安定したエージェントから始めることをお勧めします。
同じ組織内で、または異なる組織にまたがって、エージェント間で評価セットをエクスポートしてインポートできます。エージェントの設計が完了している限り、必要に応じて評価を移動することができます。評価を最初から再作成する必要はありません。