Schnellstart: Ihren gehosteten Agent bewerten

Note

Gehostete Agents und die Azure Developer CLI-Evaluierungserfahrung befinden sich derzeit in der Vorschau.

In dieser Schnellstartanleitung bewerten Sie den gehosteten Agent, den Sie in Der Bereitstellung Ihres ersten gehosteten Agents bereitgestellt haben. Sie stellen ein Testdatenset bereit, wählen Evaluatoren aus, führen eine Auswertung für den bereitgestellten Agent aus und überprüfen die Bewertungen. Jeder Schritt zeigt drei Möglichkeiten zum Ausführen derselben Aufgabe: die Azure Developer CLI (azd), das Microsoft Foundry-Portal und das Python SDK.

Die Bewertung legt eine Qualitätsbasis für Ihren Agenten fest und ermöglicht es Ihnen, Akzeptanzschwellenwerte festzulegen, z. B. eine Bestehensquote für die Aufgabeneinhaltung, bevor Sie Änderungen für Benutzer freigeben.

Voraussetzungen

Bevor Sie beginnen, benötigen Sie Folgendes:

  • Ein bereitgestellter, aufrufbarer gehosteter Agent aus Stellen Sie Ihren ersten gehosteten Agenten bereit. Für den Azure Developer CLI-Pfad benötigen Sie außerdem das Projektverzeichnis azd, das Sie in dieser Schnellstartanleitung erstellt haben.

  • Die Rolle " Foundry User " in der Foundry-Ressource.

  • Eine Bereitstellung des Chatabschlussmodells im gleichen Foundry-Projekt, das als Bewertungsmodell verwendet werden soll, das Antworten bewertet. Sie können die Modellbereitstellung, die Ihr Agent bereits verwendet, wiederverwenden, einschließlich der Bereitstellung aus der vorherigen Schnellstartanleitung, sodass Sie keine separate Bereitstellung benötigen.

    Wichtig

    Die Foundry-RBAC-Rollen wurden kürzlich umbenannt. Foundry User, Foundry Owner, Foundry Account Owner und Foundry Project Manager wurden zuvor Azure KI-Benutzer, Azure KI-Besitzer, Azure KI-Kontobesitzer und Azure AI Project Manager benannt. Möglicherweise werden die vorherigen Namen an einigen Stellen weiterhin angezeigt, während der Umbenennungsrollout ausgeführt wird. Die Rollen-IDs und Kernberechtigungen bleiben durch die Umbenennung unverändert.

Jeder Schritt bietet drei Pfade. Verwenden Sie, je nachdem, was Sie bevorzugen:

  • Azure Developer CLI: Die azd ai agent Erweiterung (azure.ai.agents), Version 0.1.40-Preview oder höher, die die azd ai agent eval Befehle bereitstellt. Diese Erweiterung ist in der microsoft.foundry Erweiterung enthalten, die Sie im vorherigen Schnellstart installiert haben. Überprüfen Sie die installierte Version mit azd ext list und führen Sie azd ext upgrade microsoft.foundry bei Bedarf aus. Melden Sie sich mit azd auth login an.
  • Foundry-Portal: Zugriff auf das Foundry-Portal.
  • Python SDK: Python 3.9 oder höher, und bei der Azure CLI mit az login angemeldet, damit DefaultAzureCredential sich authentifizieren kann. Informationen zur Installation finden Sie unter Installieren der Azure CLI.

Schritt 1: Bestätigen Sie Ihren bereitgestellten Agenten

Auswertungen werden gegen einen bereitgestellten, aufrufbaren Agenten ausgeführt. Vergewissern Sie sich, dass Ihr Agent bereitgestellt und verfügbar ist, bevor Sie die Auswertung einrichten.

Überprüfen Sie aus Ihrem azd-Projektverzeichnis, ob der Agent bereitgestellt und aufrufbar ist:

azd ai agent show

Senden sie eine Testaufforderung:

azd ai agent invoke "Write a haiku about deploying cloud applications."

Sie sollten innerhalb weniger Sekunden eine Antwort sehen.

Schritt 2: Integrierte Evaluatoren einrichten

Beginnen Sie mit integrierten Evaluatoren, um die Leistung Ihres Agenten anhand eines Testdatensatzes zu bewerten.

Erstellen Sie zunächst eine JSONL-Datei mit Testabfragen für Ihren Agent. Jede Zeile ist ein JSON-Objekt mit einem query Feld. Speichern Sie sie im Quellordner Ihres Agents unter src/<your-agent-name>/tests/queries.jsonl:

{"query": "Write a haiku about deploying cloud applications."}

Erstellen Sie dann eine eval.yaml Datei im selben Agent-Quellordner wie src/<your-agent-name>/eval.yaml. Sie verweist auf Ihr Dataset und listet die integrierten Evaluatoren auf, die angewendet werden sollen. Der dataset.local_uri Pfad ist relativ zu diesem Ordner. Ersetzen Sie <your-agent-name> durch den Namen Ihres gehosteten Agenten und <your-chat-completion-deployment> durch die Bereitstellung des Judge-Modells:

name: agent-eval
agent:
  name: <your-agent-name>
  kind: hosted
dataset:
  local_uri: tests/queries.jsonl
evaluators:
  - builtin.intent_resolution
  - builtin.task_adherence
options:
  eval_model: <your-chat-completion-deployment>
max_samples: 15

Der Wert eval_model ist das Beurteilungsmodell, das die Antworten bewertet; Sie können das Deployment wiederverwenden, das Ihr Agent bereits verwendet.

Schritt 3: Ausführen der Auswertung

Führen Sie die Suite gegen Ihren bereitgestellten Agenten aus. Der Dienst sendet jede Testabfrage an den Agent, erfasst die Antwort und bewertet sie mit Ihren ausgewählten Auswertungen.

Note

Die zielbasierte Auswertung ruft Ihren gehosteten Agent direkt auf. Es funktioniert mit Agents, die das Antwort- oder Aufrufprotokoll mit synchroner, nicht streamingbasierter Ausführung verwenden. Um Agents auszuwerten, die das A2A- oder Activity-Protokoll oder andere Ausführungsmuster wie etwa mit langer Laufzeit oder Streaming verwenden, werten Sie stattdessen die Traces aus, die Ihr Agent erzeugt. Siehe Ablaufverfolgungsauswertung.

Führen Sie die Auswertung aus dem Azd-Arbeitsbereichsstamm aus:

azd ai agent eval run --config eval.yaml

Note

azd ai agent eval run löst den --config Pfad relativ zum Quellordner Ihres Agenten in src/ auf (zum Beispiel src/<your-agent-name>/eval.yaml), nicht relativ zum aktuellen Verzeichnis. Belassen Sie eval.yaml und den Datensatz, auf den local_uri verweist, in diesem Ordner.

Der Befehl liest eval.yaml, sendet jede Abfrage an Ihren Agent, bewertet die Antworten und druckt eine Zusammenfassung, wenn sie abgeschlossen ist:

Eval run started
   Eval: eval_b36748dede424e4ba3f8e6c99ca2cf27
   Run:  evalrun_5f72ef189ad24790a32128e6f230b131
   (✓) Done  Eval run

Results:    1 total, 1 passed, 0 failed, 0 errored

Per-criteria results:
  intent_resolution: 1 passed, 0 failed, 0 errored
  task_adherence: 1 passed, 0 failed, 0 errored

Schritt 4: Überprüfen der Ergebnisse

Auswertungen werden je nach Anzahl der Abfragen in der Regel in wenigen Minuten abgeschlossen.

Aktuelle Auswertungen auflisten:

azd ai agent eval list
    Eval ID                                Name        Status of last run  Runs
    -------                                ----        ------------------  ----
*   eval_b36748dede424e4ba3f8e6c99ca2cf27  agent-eval  Completed           1

* = active eval in current environment

Zeigen Sie die letzte Auswertung und deren Ausführung an:

azd ai agent eval show
Eval:   eval_b36748dede424e4ba3f8e6c99ca2cf27
Name:   agent-eval
Agent:  <your-agent-name>
Runs:   1

Recent runs:
  Run ID                                    Status     Passed  Failed  Created
  ------                                    ------     ------  ------  -------
  evalrun_5f72ef189ad24790a32128e6f230b131  Completed  1/1     0       2026-06-17 14:52 UTC

Verwenden Sie die Ergebnisse, um zu überprüfen, welche Version des Agenten ausgewertet wurde und welche Bewertungen des Evaluators erzeugt wurden. Um Details zu jedem Evaluator sowie einen Link zum Bericht im Foundry-Portal anzuzeigen, führen Sie azd ai agent eval show <eval-id> --eval-run-id <run-id> aus.

Bereinigen von Ressourcen

Diese Schnellstartanleitung registriert ein Dataset, eine Auswertung und den Ausführungsverlauf in Ihrem Foundry-Projekt. Diese Vermögenswerte verursachen nur geringe oder keine laufenden Kosten.

Um den gehosteten Agent und die von Ihnen erstellten Azure Ressourcen zu entfernen, führen Sie die Bereinigungsschritte in "Bereitstellen Ihres ersten gehosteten Agents" aus.

Troubleshooting

Angelegenheit Lösung
Befehl azd ai agent eval nicht gefunden Führen Sie azd ext list aus, und überprüfen Sie, ob die Version der azd ai agent-Erweiterung 0.1.40-preview oder höher ist. Mit azd ext upgrade microsoft.foundry aktualisieren.
azd ai agent eval run kann den Agenten nicht finden. Vergewissern Sie sich, dass der Agent bereitgestellt und mit azd ai agent show aufrufbar ist. Erneut mit azd deploy bereitstellen, falls erforderlich.
ModuleNotFoundError für azure.ai.projects oder azure.identity Installieren Sie das SDK: pip install "azure-ai-projects>=2.0.0" azure-identity.
AuthenticationError, DefaultAzureCredentialoder Forbidden Fehler Melden Sie sich mit az login an (oder mit azd auth login für den CLI-Pfad), und bestätigen Sie, dass Ihnen im Projekt die Rolle Foundry User zugewiesen ist. Datasetuploads erfordern auch Schreibzugriff auf den Speicher des Projekts.
Agentziel nicht gefunden Überprüfen Sie den Agentnamen und die Version mit project_client.agents.get("<your-agent-name>") oder project_client.agents.list().
Viele fehlerierte Zeilen oder unerwartet niedrige Ergebnisse Öffnen Sie die Berichts-URL und überprüfen Sie, ob Zeilen aufgrund von Fehlern in der Agentenantwort oder des Evaluators fehlgeschlagen sind. Beheben Sie die zugrunde liegenden Fehler, und führen Sie die Auswertung erneut aus.
Die Bereitstellung des Auswertungsmodells wurde nicht gefunden. Stellen Sie sicher, dass die Bereitstellung des Judge-Modells (AZURE_AI_MODEL_DEPLOYMENT_NAME für das SDK oder eval_model in eval.yaml) in Ihrem Projekt unter Build>Deployments vorhanden ist.

Was Sie gelernt haben

In dieser Schnellstartanleitung führen Sie die folgenden Schritte aus:

  • Erstellt ein Test-Dataset und wählte Evaluatoren für Ihren gehosteten Agent aus.
  • Eine Evaluierung des bereitgestellten Agenten wurde ausgeführt.
  • Bewertete aggregierte ergebnisse und Ergebnisse auf Zeilenebene.
  • Die einzelnen Aufgaben wurden mit der Azure Developer CLI, dem Foundry-Portal und dem Python SDK abgeschlossen.

Nächste Schritte

Verbessern Sie ihren Auswertungsworkflow weiter: