VS Codeのエージェントモードを拡張するには、を試してください!

複数のプロンプトを一括で実行する

一括実行は、以前は AI Toolkit のスタンドアロンの Webview 機能でした。現在は、Agent Builder評価 タブに完全に統合されています。AI Toolkit ビューで ツール > 一括実行 を選択して、引き続きアクセスできます。

AI Toolkit の一括実行機能を使用すると、エージェントとプロンプトを複数のテストケースに対してバッチモードでテストできます。一度に1つのプロンプトを実行するプレイグラウンドとは異なり、一括実行はデータセットを入力として使用し、すべてのプロンプトを順次実行することでプロセスを自動化します。

実行後、AI の応答はデータセットビューで元のプロンプトの横に表示されます。応答を含む完全なデータセットを確認、比較、エクスポートして、さらに分析することができます。

Screenshot showing AI Toolkit interface with the bulk run feature. The dataset table displays multiple prompts and responses, with queries about weather in Paris France and Shanghai China.

一括実行を開始する

AI Toolkit で一括実行を開始するには、次の手順に従います

  1. AI Toolkit ビューで、アクティビティバーから Agent Builder を選択します。
  2. 形式を使用してプロンプトと変数を入力します。プロンプトを実行するモデルを選択します。
  3. Agent Builder評価 タブに切り替えます。

AI Toolkit は、エージェントで使用するのと同じ LLM モデルを使用してデータセットを生成するため、コストが発生する場合があります。データセットの生成に使用されるメタプロンプトは、AI Toolkit GitHub リポジトリで確認できます。

  1. 合成データセットを作成するには、データを生成 を選択します。
  2. 生成する行数を選択し、データ生成ロジックを表示または変更します。 AI Toolkit の [データの生成] ダイアログを示すスクリーンショット。
  3. データセットを作成するには、生成 を選択します。
ヒント

まだ実行されていない残りのクエリのみを実行することを選択できます。

  1. データセットが読み込まれたら、単一の行を実行するには 実行 を選択し、データセット内のすべての行を実行するには すべて実行 を選択します。

データセットに対する操作

Screenshot showing AI Toolkit interface with dataset operations and a table of evaluation results.

AI Toolkit は、一括実行中にデータセットを管理および分析するためのいくつかの操作を提供します

  • データを生成: プロンプトと変数に基づいて合成データセットを作成します。行数を指定し、データ生成ロジックを変更します。
  • 行を追加: データセットに新しい行を追加します。
  • 行を削除: データセットから選択した行を削除します。
  • データセットをエクスポート: データセットを CSV ファイルにエクスポートして、詳細な分析やレポート作成に使用します。
  • データセットをインポート: CSV ファイルからデータセットをインポートして、一括実行の入力として使用します。
  • 実行: データセット内の単一の行を選択したモデルに対して実行します。
  • すべて実行: データセット内のすべての行を選択したモデルに対して実行します。
  • 残りを実行: 選択したモデルに対して、まだ実行されていない行のみを実行します。
  • 手動評価: 手動評価の記録を残すために、応答を高評価または低評価としてマークします。

一括実行の結果を評価する

AI Toolkit を使用すると、データセットビューで一括実行の結果を直接評価できます。

Screenshot showing AI Toolkit interface in full screen mode with the Evaluation tab expanded. The dataset table displays multiple columns, including query prompts and AI responses, for detailed analysis.

結果をより詳細に表示するには、評価 タブを全画面モードに展開できます。全画面モードは、標準ビューと同じ機能を提供しますが、表示領域が広くなり、視認性と分析が向上します。

Screenshot showing detailed view of evaluation results with a modal dialog displaying a full conversation between user and assistant about weather queries.

各クエリの完全な応答を表示するには、詳細を表示 を選択します。

詳細ビューでは、次のことができます。

  • ユーザーとアシスタント間の会話全体を確認します。
  • AI の応答を分析します。
  • 手動評価の記録を残すために、応答を良好または不良としてマークします。
  • データセット内の前または次のクエリに移動します。
  • データセットの概要に戻るには、終了 を選択します。
  • データセット内のクエリの総数と現在のクエリインデックスを表示します。

データ列を管理する

Screenshot showing AI Toolkit interface with dataset management options and column management controls.

データ列管理を使用すると、データセットビューをカスタマイズして、一括実行分析に最も関連性の高い情報に焦点を当てることができます。

次のことができます。

  • 列を追加: 現在の列の左または右に列を追加します。
  • 列名を編集: データセット内の任意の列の名前を変更します。
  • 正解列を追加: AI の応答と比較するための正解値の列を追加します。

次のステップ