Agents ガイド

最終更新日時 2025年12月19日

エージェントのパブリッシュとデプロイのベストプラクティス

エージェントが堅牢であり、運用環境で使用でき、企業の標準に整合していることを確認するには、Orchestrator にパブリッシュしてデプロイする前に、以下のベストプラクティスに従ってください。これらの手順は、エージェントのライフサイクル全体にわたる検証、ガバナンス、準備状況に対応しています。

パブリッシュする前に、次の基本的なチェックが完了していることを確認します。

表 1.エージェントのパブリッシュの検証に関するゲート

不可欠なゲート	確認する内容	確認する場所
プロンプトと例の確定時	システム/ユーザープロンプトに、役割、制約、および入力にマップされた 3 個から 5 個の例が含まれる	Agent Builder → システムプロンプトとユーザープロンプト
ツールの説明時とバインド時	すべてのツールに名前、説明、入力/出力スキーマがある	Agent Builder → ツール
ガードレールログの有効化時 (任意)	監査/デバッグのためにツールの呼び出しがログに記録されている (ガードレールの設定で有効化)	ツール → ガードレールビルダー
コンテキストソースの接続時	関連するナレッジベースが少なくとも 1 つグラウンディングされている	コンテキストグラウンディング → ソース
30 以上の対話型テストの実施時	手動テストが標準の入力、エッジ入力、形式が正しくない入力をカバーしている	Agent Builder → テスト実行
評価セットの作成時	選定されたテストケースが 30 以上あり、実際の使用法をカバーしている	Agent Builder → [評価] タブ
評価パフォーマンスの検証時	評価セットのスコアが 70% 以上で、回帰がない	Agent Builder → [評価] タブ

ヒント:

これらのゲートをデプロイ前のチェックリストとして使用し、自身のリリースプロセスに組み込むことができます。

パブリッシュする前に、エージェントのスコープが完全に設定されていて、エージェントがプロンプトに整合しており、コンテキストを認識していることを確認します。

スコープと境界を定義する: スコープ内の意図とスコープ外の意図をシステムプロンプトに記述します。ツールとエスカレーションパスがこれらの境界と一致することを確認し、スコープクリープを防止します。
プロンプトと引数を改良する: 構造化されたシステムプロンプトとユーザープロンプトを記述します。入力引数に対応した現実的な例を使用します。入力を検証し、正しくない形式のデータや敵対的なデータから保護します。
最小コンテキストの原則を適用する: 不可欠なコンテキストのみを LLM に渡します。コンテキストグラウンディングを使用して、ペイロードの肥大化を回避します。
ツールの説明とガードレールを完成させる: 各ツールに対して、名前、目的、スキーマ、副作用を定義します。ログ、フィルター、リトライ、エスカレーション動作を追加します。
ツールの出力を正規化する: すべてのツールが一貫して構造化された応答を返すようにして、実行時の問題を防止します。
関連するコンテキストソースを接続する: 必要なインデックスを追加し、関連性と新規性のしきい値を調整します。

パフォーマンス、回復性、推論の品質を検証する必要があります。

対話型テストを実行する: エッジケース、形式が正しくない入力、多言語の例など、30 種類以上のさまざまなシナリオをテストします。
選定されたテストセットで評価する: 断定的な評価器を使用して 30 以上のテストケースを作成します。LLM による評価、完全一致、軌跡スコアリングなどの方法を使用します。
パフォーマンスの安定性を確保する: プロンプトまたはツールの変更すべてにわたってスコアを追跡します。デプロイ前に、70% 以上の一貫した評価スコアを目指します。

下流の連携とインフラストラクチャの準備状況を検証します。

ワークフローからスモークテストを実行する: Studio または Maestro からエージェントをトリガーし、エンドツーエンドのデータフローと成功時の処理を検証します。
プラットフォームの準備状況を検証する: Orchestrator で資格情報、フォルダー、RBAC、テナントの設定を確認します。
トレースとログを検査する: 実行トレースに、長いプロンプト、ツールの非効率的な使用、コンテキストの過剰な検索がないかを確認します。
人間参加型のエスカレーションを有効化する: エスカレーションアプリを設定し、結果の処理を検証します。関連するトランスクリプトとメモリの更新を渡します。