エージェント型開発を探求する -

複数のプロンプトを一括実行する

注意

以前、Bulk RunはAI Toolkitの独立したウェブビュー機能でしたが、現在はAgent Builder内のEvaluation(評価)タブに完全に統合されました。引き続き、TOOLS > Bulk Runを選択することで、AI Toolkitビューからアクセス可能です。

AI ToolkitのBulk Run機能を使用すると、エージェントやプロンプトを複数のテストケースに対してバッチモードでテストできます。一度に1つのプロンプトを実行するプレイグラウンドとは異なり、Bulk Runはデータセットを入力として使用し、すべてのプロンプトを順次実行することでプロセスを自動化します。

実行後、AIの応答が元のプロンプトの横にあるデータセットビューに表示されます。データセット全体を確認・比較し、分析のためにエクスポートすることができます。

Screenshot showing AI Toolkit interface with the bulk run feature. The dataset table displays multiple prompts and responses, with queries about weather in Paris France and Shanghai China.

一括実行(Bulk Run)を開始する

AI ToolkitでBulk Runを開始するには、以下の手順に従ってください

  1. AI Toolkitビューで、アクティビティバーから Agent Builder を選択します。
  2. 形式を使用して、プロンプトと変数を入力します。プロンプトを実行するモデルを選択します。
  3. Agent Builder 内の Evaluation タブに切り替えます。
注意

AI Toolkitは、エージェントに使用するLLMモデルと同じものを使用してデータセットを生成するため、コストが発生する可能性があります。データセット生成に使用されるメタプロンプトは、AI Toolkit GitHubリポジトリで確認できます。

  1. Generate Data(データの生成)を選択して、合成データセットを作成します。
  2. 生成する行数を選択し、データ生成ロジックを確認または変更します。AI Toolkitのデータ生成ダイアログを示すスクリーンショット。
  3. Generate(生成)を選択してデータセットを作成します。
ヒント

まだ実行されていない残りのクエリのみを実行するように選択することも可能です。

  1. データセットが読み込まれたら、Run(実行)を選択して1行だけ実行するか、Run All(すべて実行)を選択してデータセット内の全行を実行します。

データセットを操作する

Screenshot showing AI Toolkit interface with dataset operations and a table of evaluation results.

AI Toolkitでは、Bulk Run中にデータセットを管理および分析するためのいくつかの操作が提供されています。

  • Generate Data(データの生成): プロンプトと変数に基づいて合成データセットを作成します。行数を指定し、データ生成ロジックを変更できます。
  • Add Row(行の追加): データセットに新しい行を追加します。
  • Delete Row(行の削除): データセットから選択した行を削除します。
  • Export Dataset(データセットのエクスポート): 分析やレポート作成のために、データセットをCSVファイルとしてエクスポートします。
  • Import Dataset(データセットのインポート): Bulk Runの入力として使用するために、CSVファイルからデータセットをインポートします。
  • Run(実行): 選択したモデルに対して、データセットの1行を実行します。
  • Run All(すべて実行): 選択したモデルに対して、データセットの全行を実行します。
  • Run Remaining(残りを実行): 選択したモデルに対して、まだ実行されていない行のみを実行します。
  • Manual Evaluation(手動評価): 応答に対して「高評価」または「低評価」のマークを付け、手動評価の記録を保持します。

一括実行の結果を評価する

AI Toolkitでは、データセットビューで直接Bulk Runの結果を評価できます。

Screenshot showing AI Toolkit interface in full screen mode with the Evaluation tab expanded. The dataset table displays multiple columns, including query prompts and AI responses, for detailed analysis.

Evaluation(評価)タブを全画面モードに展開すると、結果を詳細に表示できます。全画面モードでは標準ビューと同じ機能が提供されますが、表示領域が広くなるため、より見やすく分析しやすくなります。

Screenshot showing detailed view of evaluation results with a modal dialog displaying a full conversation between user and assistant about weather queries.

View Details(詳細を表示)を選択して、各クエリに対する完全な応答を確認します。

詳細ビューでは、以下の操作が可能です:

  • ユーザーとアシスタント間の全会話を確認する。
  • AIの応答を分析する。
  • 応答に良い・悪いのマークを付けて、手動評価の記録を保持する。
  • データセット内の前後のクエリに移動する。
  • Exit(終了)を選択して、データセットの概要に戻る。
  • データセット内のクエリ総数と、現在のクエリのインデックスを表示する。

データ列を管理する

Screenshot showing AI Toolkit interface with dataset management options and column management controls.

データ列管理機能を使用すると、データセットビューをカスタマイズして、Bulk Runの分析に関連する情報に集中できます。

以下の操作が可能です:

  • Add Columns(列の追加): 現在の列の左側または右側に列を追加します。
  • Edit Column Name(列名の編集): データセット内の任意の列名を変更します。
  • Add Ground Truth Column(正解データの列を追加): AIの応答と比較するための正解値(Ground Truth)の列を追加します。

学んだこと

この記事では、以下の方法を学びました。

  • Bulk Run用の合成データセットを生成する。
  • CSV形式でデータセットをインポートおよびエクスポートする。
  • Bulk Runの結果に対して評価を実行する。
  • 応答に良い・悪いのマークを付けて、手動評価の記録を保持する。
  • 応答の詳細を表示し、データセット内のクエリ間を移動する。
  • 分析を効率化するためにデータ列を管理する。

次のステップ

© . This site is unofficial and not affiliated with Microsoft.