モデル評価

AI エンジニアは、グラウンドトゥルースと比較したり、比較から評価者の値を計算したりするために、異なるパラメータまたはプロンプトでモデルを評価する必要があることがよくあります。AI Toolkit を使用すると、プロンプトデータセットをアップロードするだけで、最小限の労力で評価を実行できます。

Start evaluation

評価ジョブを開始する

  1. AI Toolkit ビューで、[ツール] > [評価] を選択して、[評価] ビューを開きます。

  2. [評価の作成] を選択し、次の情報を入力します。

    • 評価ジョブ名: デフォルトまたは指定できる名前

    • 評価者: 現在、組み込みの評価者のみを選択できます。

      Screenshot of a Quick Pick with the list of built-in evaluators

    • 判断モデル: 一部の評価者に対して評価する判断モデルとして選択できるリストのモデル。

    • データセット: 学習目的のサンプルデータセットを選択するか、フィールド queryresponseground truth を含む JSONL ファイルをインポートします。

  3. 新しい評価ジョブが作成され、新しい評価ジョブの詳細を開くように求められます。

    Open evaluation

  4. データセットを確認し、[評価の実行] を選択して評価を開始します。

    Run Evaluation

評価ジョブを監視する

評価ジョブが開始されると、評価ジョブビューからそのステータスを確認できます。

Running evaluation

各評価ジョブには、使用されたデータセットへのリンク、評価プロセスからのログ、タイムスタンプ、および評価の詳細へのリンクがあります。

評価結果を見つける

評価ジョブの詳細ビューには、選択された各評価者の結果の表が表示されます。一部の結果には集計値が含まれる場合があることに注意してください。

[Data Wrangler で開く] を選択して、Data Wrangler 拡張機能でデータを開くこともできます。

Screenshot the Data Wrangler extension, showing the evaluation results.