複数のプロンプトを一括実行
一括実行は以前、AI Toolkit のスタンドアロンの Webview 機能でした。現在は**エージェントビルダー**の**評価**タブに完全に統合されています。AI Toolkit ビューで**ツール** > **一括実行**を選択すると、引き続きアクセスできます。
AI Toolkit の一括実行機能を使用すると、エージェントとプロンプトを複数のテストケースに対してバッチモードでテストできます。一度に 1 つのプロンプトを実行するプレイグラウンドとは異なり、一括実行はデータセットを入力として使用し、すべてのプロンプトを順番に実行することでプロセスを自動化します。
実行後、AI の応答は元のプロンプトの横にあるデータセットビューに表示されます。完全なデータセットと応答をレビュー、比較、エクスポートして、さらに分析することができます。
一括実行を開始する
AI Toolkit で一括実行を開始するには、次の手順に従います。
- AI Toolkit ビューで、アクティビティバーから**エージェントビルダー**を選択します。
- プロンプトと変数を `` 形式で入力します。プロンプトを実行するモデルを選択します。
- **エージェントビルダー**の**評価**タブに切り替えます。
AI Toolkit は、エージェントに使用するのと同じ LLM モデルを使用してデータセットを生成するため、コストが発生する可能性があります。データセットの生成に使用されるメタプロンプトは、AI Toolkit GitHub リポジトリで確認できます。
- **データの生成**を選択して、合成データセットを作成します。
- 生成する行数を選択し、データ生成ロジックを表示または変更します。
- **生成**を選択してデータセットを作成します。
まだ実行されていない残りのクエリのみを実行することを選択できます。
- データセットがロードされたら、**実行**を選択して単一行を実行するか、**すべて実行**を選択してデータセットのすべての行を実行します。
データセットを操作する
AI Toolkit は、一括実行中にデータセットを管理および分析するためのいくつかの操作を提供します。
- **データの生成**: プロンプトと変数に基づいて合成データセットを作成します。行数を指定し、データ生成ロジックを変更します。
- **行の追加**: データセットに新しい行を追加します。
- **行の削除**: データセットから選択した行を削除します。
- **データセットのエクスポート**: データセットを CSV ファイルにエクスポートして、さらに分析またはレポートを作成します。
- **データセットのインポート**: CSV ファイルからデータセットをインポートして、一括実行の入力として使用します。
- **実行**: データセット内の単一行を選択したモデルに対して実行します。
- **すべて実行**: データセット内のすべての行を選択したモデルに対して実行します。
- **残りを実行**: まだ実行されていない行のみを選択したモデルに対して実行します。
- **手動評価**: 手動評価の記録を残すために、応答をサムアップまたはサムダウンとしてマークします。
一括実行の結果を評価する
AI Toolkit を使用すると、一括実行の結果をデータセットビューで直接評価できます。
**評価**タブを全画面モードに展開すると、結果の詳細ビューが表示されます。全画面モードは標準ビューと同じ機能を提供しますが、表示領域が広くなり、視認性と分析が向上します。
**詳細表示**を選択して、各クエリの完全な応答を確認します。
詳細ビューでは、次のことができます。
- ユーザーとアシスタント間の完全な会話を確認します。
- AI の応答を分析します。
- 手動評価の記録を残すために、応答を良いまたは悪いとしてマークします。
- データセット内の前または次のクエリに移動します。
- **終了**を選択してデータセットの概要に戻ります。
- データセット内のクエリの総数と現在のクエリインデックスを表示します。
データ列を管理する
データ列管理を使用すると、一括実行分析に最も関連性の高い情報に焦点を当てるようにデータセットビューをカスタマイズできます。
次のことができます。
- **列の追加**: 現在の列の左または右に列を追加します。
- **列名の編集**: データセット内の任意の列の名前を変更します。
- **グラウンドトゥルース列の追加**: AI の応答と比較するためのグラウンドトゥルース値の列を追加します。
学んだこと
この記事では、次の方法を学びました。
- 一括実行用の合成データセットを生成します。
- CSV 形式でデータセットをインポートおよびエクスポートします。
- 一括実行の結果を評価します。
- 手動評価の記録を残すために、応答を良いまたは悪いとしてマークします。
- 応答の詳細を表示し、データセット内のクエリ間を移動します。
- より良い分析のためにデータ列を管理します。
次のステップ
- 評価を実行するには、人気の評価ツールを使用します。