複数のプロンプトを一括で実行する
以前、一括実行はAI Toolkitの独立したウェブビュー機能でした。現在は、Agent Builder の 評価 タブに完全に統合されています。AI Toolkit ビューから、ツール > 一括実行 を選択してアクセスすることも可能です。
AI Toolkit の一括実行機能を使用すると、エージェントとプロンプトを複数のテストケースに対してバッチモードでテストできます。一度に1つのプロンプトを実行するプレイグラウンドとは異なり、一括実行はデータセットを入力として使用し、すべてのプロンプトを順次実行することでプロセスを自動化します。
実行後、AI の応答は元のプロンプトの横にあるデータセットビューに表示されます。応答を含む完全なデータセットを確認、比較、エクスポートして、さらに分析することができます。

一括実行を開始する
AI Toolkit で一括実行を開始するには、以下の手順に従います。
- AI Toolkit ビューで、アクティビティバーから Agent Builder を選択します。
形式を使用してプロンプトと変数を入力します。プロンプトを実行するモデルを選択します。- Agent Builder の 評価 タブに切り替えます。
AI Toolkit は、データセットを生成するためにエージェントに使用するのと同じLLMモデルを使用します。これにはコストが発生する可能性があります。データセットの生成に使用されるメタプロンプトは、AI Toolkit GitHub リポジトリ で確認できます。
- データの生成 を選択して、合成データセットを作成します。
- 生成する行数を選択し、データ生成ロジックを表示または変更します。

- 生成 を選択してデータセットを作成します。
まだ実行されていない残りのクエリのみを実行することを選択できます。
- データセットがロードされたら、実行 を選択して単一行を実行するか、すべて実行 を選択してデータセット内のすべての行を実行します。
データセットの操作

AI Toolkit は、一括実行中にデータセットを管理および分析するためのいくつかの操作を提供します。
- データの生成: プロンプトと変数に基づいて合成データセットを作成します。行数を指定し、データ生成ロジックを変更します。
- 行の追加: データセットに新しい行を追加します。
- 行の削除: データセットから選択した行を削除します。
- データセットのエクスポート: データセットをCSVファイルにエクスポートして、さらなる分析やレポート作成に利用します。
- データセットのインポート: CSVファイルからデータセットをインポートして、一括実行の入力として使用します。
- 実行: データセット内の単一行を選択したモデルに対して実行します。
- すべて実行: データセット内のすべての行を選択したモデルに対して実行します。
- 残りを実行: まだ実行されていない行のみを選択したモデルに対して実行します。
- 手動評価: 手動評価の記録を残すために、応答をサムズアップまたはサムズダウンとしてマークします。
一括実行結果の評価
AI Toolkit では、一括実行の結果をデータセットビューで直接評価できます。

評価 タブを全画面モードに展開すると、結果をより詳細に表示できます。全画面モードは標準ビューと同じ機能を提供しますが、表示領域が広いため、視認性と分析が向上します。

詳細表示 を選択して、各クエリの完全な応答を確認します。
詳細ビューでは、次のことができます。
- ユーザーとアシスタント間の完全な会話を確認します。
- AI の応答を分析します。
- 手動評価の記録を残すために、応答を良いまたは悪いとしてマークします。
- データセット内の前または次のクエリに移動します。
- 終了 を選択して、データセットの概要に戻ります。
- データセット内のクエリの総数と現在のクエリインデックスを表示します。
データ列の管理

データ列管理を使用すると、一括実行分析の最も関連性の高い情報に焦点を当てるようにデータセットビューをカスタマイズできます。
次のことができます。
- 列の追加: 現在の列の左または右に列を追加します。
- 列名の編集: データセット内の任意の列の名前を変更します。
- 正解列の追加: AI の応答と比較するための正解値の列を追加します。
学んだこと
この記事では、次のことを学びました
- 一括実行用の合成データセットを生成します。
- CSV形式でデータセットをインポートおよびエクスポートします。
- 一括実行結果に対して評価を実行します。
- 手動評価の記録を残すために、応答を良いまたは悪いとしてマークします。
- 応答の詳細を表示し、データセット内のクエリ間を移動します。
- より良い分析のためにデータ列を管理します。