Schnellstart: Ihren gehosteten Agent bewerten

Note

Gehostete Agents und die Azure Developer CLI-Evaluierungserfahrung befinden sich derzeit in der Vorschau.

In dieser Schnellstartanleitung bewerten Sie den gehosteten Agent, den Sie in Der Bereitstellung Ihres ersten gehosteten Agents bereitgestellt haben. Sie stellen ein Testdatenset bereit, wählen Evaluatoren aus, führen eine Auswertung für den bereitgestellten Agent aus und überprüfen die Bewertungen. Jeder Schritt zeigt drei Möglichkeiten zum Ausführen derselben Aufgabe: die Azure Developer CLI (azd), das Microsoft Foundry-Portal und das Python SDK.

Die Bewertung legt eine Qualitätsbasis für Ihren Agenten fest und ermöglicht es Ihnen, Akzeptanzschwellenwerte festzulegen, z. B. eine Bestehensquote für die Aufgabeneinhaltung, bevor Sie Änderungen für Benutzer freigeben.

Voraussetzungen

Bevor Sie beginnen, benötigen Sie Folgendes:

Ein bereitgestellter, aufrufbarer gehosteter Agent aus Stellen Sie Ihren ersten gehosteten Agenten bereit. Für den Azure Developer CLI-Pfad benötigen Sie außerdem das Projektverzeichnis azd, das Sie in dieser Schnellstartanleitung erstellt haben.
Die Rolle " Foundry User " in der Foundry-Ressource.
Eine Bereitstellung des Chatabschlussmodells im gleichen Foundry-Projekt, das als Bewertungsmodell verwendet werden soll, das Antworten bewertet. Sie können die Modellbereitstellung, die Ihr Agent bereits verwendet, wiederverwenden, einschließlich der Bereitstellung aus der vorherigen Schnellstartanleitung, sodass Sie keine separate Bereitstellung benötigen.

Wichtig

Die Foundry-RBAC-Rollen wurden kürzlich umbenannt. Foundry User, Foundry Owner, Foundry Account Owner und Foundry Project Manager wurden zuvor Azure KI-Benutzer, Azure KI-Besitzer, Azure KI-Kontobesitzer und Azure AI Project Manager benannt. Möglicherweise werden die vorherigen Namen an einigen Stellen weiterhin angezeigt, während der Umbenennungsrollout ausgeführt wird. Die Rollen-IDs und Kernberechtigungen bleiben durch die Umbenennung unverändert.

Jeder Schritt bietet drei Pfade. Verwenden Sie, je nachdem, was Sie bevorzugen:

Azure Developer CLI: Die azd ai agent Erweiterung (azure.ai.agents), Version 0.1.40-Preview oder höher, die die azd ai agent eval Befehle bereitstellt. Diese Erweiterung ist in der microsoft.foundry Erweiterung enthalten, die Sie im vorherigen Schnellstart installiert haben. Überprüfen Sie die installierte Version mit azd ext list und führen Sie azd ext upgrade microsoft.foundry bei Bedarf aus. Melden Sie sich mit azd auth login an.
Foundry-Portal: Zugriff auf das Foundry-Portal.
Python SDK: Python 3.9 oder höher, und bei der Azure CLI mit az login angemeldet, damit DefaultAzureCredential sich authentifizieren kann. Informationen zur Installation finden Sie unter Installieren der Azure CLI.

Schritt 1: Bestätigen Sie Ihren bereitgestellten Agenten

Auswertungen werden gegen einen bereitgestellten, aufrufbaren Agenten ausgeführt. Vergewissern Sie sich, dass Ihr Agent bereitgestellt und verfügbar ist, bevor Sie die Auswertung einrichten.

Überprüfen Sie aus Ihrem azd-Projektverzeichnis, ob der Agent bereitgestellt und aufrufbar ist:

azd ai agent show

Senden sie eine Testaufforderung:

azd ai agent invoke "Write a haiku about deploying cloud applications."

Sie sollten innerhalb weniger Sekunden eine Antwort sehen.

Installieren Sie das Foundry SDK:

pip install "azure-ai-projects>=2.0.0" azure-identity

Legen Sie zwei Umgebungsvariablen fest, und erstellen Sie dann den Projektclient. Setzen Sie AZURE_AI_PROJECT_ENDPOINT auf Ihren Projektendpunkt und AZURE_AI_MODEL_DEPLOYMENT_NAME auf eine Chat-Completion-Bereitstellung, die als Bewertungsmodell verwendet wird. In den folgenden Codebeispielen wird davon ausgegangen, dass Sie sie in diesem Kontext ausführen:

import os
from azure.identity import DefaultAzureCredential
from azure.ai.projects import AIProjectClient

endpoint = os.environ["AZURE_AI_PROJECT_ENDPOINT"]
model_deployment = os.environ["AZURE_AI_MODEL_DEPLOYMENT_NAME"]

credential = DefaultAzureCredential()
project_client = AIProjectClient(endpoint=endpoint, credential=credential)
client = project_client.get_openai_client()

Vergewissern Sie sich, dass Ihr bereitgestellter Agent registriert und verfügbar ist. Ersetzen Sie <your-agent-name> durch den Namen Ihres gehosteten Agenten:

agent = project_client.agents.get("<your-agent-name>")
print(f"Found agent: {agent.name}")

Der Aufruf gibt den Agent zurück, falls er vorhanden ist, oder löst einen Fehler aus, wenn der Name falsch ist oder der Agent nicht bereitgestellt wird.

Schritt 2: Integrierte Evaluatoren einrichten

Beginnen Sie mit integrierten Evaluatoren, um die Leistung Ihres Agenten anhand eines Testdatensatzes zu bewerten.

Erstellen Sie zunächst eine JSONL-Datei mit Testabfragen für Ihren Agent. Jede Zeile ist ein JSON-Objekt mit einem query Feld. Speichern Sie sie im Quellordner Ihres Agents unter src/<your-agent-name>/tests/queries.jsonl:

{"query": "Write a haiku about deploying cloud applications."}

Erstellen Sie dann eine eval.yaml Datei im selben Agent-Quellordner wie src/<your-agent-name>/eval.yaml. Sie verweist auf Ihr Dataset und listet die integrierten Evaluatoren auf, die angewendet werden sollen. Der dataset.local_uri Pfad ist relativ zu diesem Ordner. Ersetzen Sie <your-agent-name> durch den Namen Ihres gehosteten Agenten und <your-chat-completion-deployment> durch die Bereitstellung des Judge-Modells:

name: agent-eval
agent:
  name: <your-agent-name>
  kind: hosted
dataset:
  local_uri: tests/queries.jsonl
evaluators:
  - builtin.intent_resolution
  - builtin.task_adherence
options:
  eval_model: <your-chat-completion-deployment>
max_samples: 15

Der Wert eval_model ist das Beurteilungsmodell, das die Antworten bewertet; Sie können das Deployment wiederverwenden, das Ihr Agent bereits verwendet.

Öffnen Sie im Foundry-Portal Ihren Agent, und wählen Sie die Registerkarte "Auswertung " und dann " Erstellen" aus.
Wählen Sie unter „Auswertungsziel auswählen“„Agent“ aus.
Wählen Sie für „Evaluierungsbereich auswählen“„Einzelne Gesprächswechsel“ aus.
Wählen Sie unter „Datenquelle auswählen“ die Option „Vorhandenes Dataset“ aus, und wählen Sie eine CSV- oder JSONL-Datei mit Testabfragen aus den Datenressourcen Ihres Projekts aus.
Wenn der Schritt "Agents konfigurieren" angezeigt wird, überprüfen Sie den Agent, und akzeptieren Sie die Standardbenutzeraufforderung. {{item.query}} Passen Sie sie nur an, wenn Ihr Agent ein anderes Eingabeformat erwartet.
Wählen Sie für „Testkriterien auswählen“ einen oder mehrere Agent-Bewerter aus, z. B. Aufgabeneinhaltung und Absichtserkennung.

Lassen Sie den Assistenten geöffnet. Sie übermitteln die Auswertung im nächsten Schritt.

Erstellen Sie zunächst eine JSONL-Datei mit Testabfragen für Ihren Agent. Jede Zeile ist ein JSON-Objekt mit einem query Feld. Speichern als queries.jsonl:

{"query": "Write a haiku about deploying cloud applications."}

Laden Sie die Datei als Dataset in Ihr Projekt hoch:

dataset = project_client.datasets.upload_file(
    name="agent-test-queries",
    version="1",
    file_path="./queries.jsonl",
)

Wählen Sie als Nächstes integrierte Bewerter aus, und ordnen Sie ihre Eingaben zu. Der data_mapping Wert teilt jedem Evaluator mit, wo die Abfrage und die Agentantwort gefunden werden sollen. KI-unterstützte Bewerter benötigen ein Bewertungsmodell in initialization_parameters; der Wert muss eine Chat-Vervollständigungsbereitstellung in Ihrem Projekt sein.

from azure.ai.projects.models import TestingCriterionAzureAIEvaluator

testing_criteria = [
    TestingCriterionAzureAIEvaluator(
        type="azure_ai_evaluator",
        name="Intent Resolution",
        evaluator_name="builtin.intent_resolution",
        initialization_parameters={"model": model_deployment},
        data_mapping={
            "query": "{{item.query}}",
            "response": "{{sample.output_items}}",
        },
    ),
    TestingCriterionAzureAIEvaluator(
        type="azure_ai_evaluator",
        name="Task Adherence",
        evaluator_name="builtin.task_adherence",
        initialization_parameters={"model": model_deployment},
        data_mapping={
            "query": "{{item.query}}",
            "response": "{{sample.output_items}}",
        },
    ),
]

Erstellen Sie die Auswertung. Es definiert das Testdatenschema und Testkriterien und dient als Container für eine oder mehrere Ausführungen:

from openai.types.eval_create_params import DataSourceConfigCustom

data_source_config = DataSourceConfigCustom(
    type="custom",
    item_schema={
        "type": "object",
        "properties": {"query": {"type": "string"}},
        "required": ["query"],
    },
    include_sample_schema=True,
)

evaluation = client.evals.create(
    name="Agent Quality Evaluation",
    data_source_config=data_source_config,
    testing_criteria=testing_criteria,
)
print(f"Evaluation created: {evaluation.id}")

Schritt 3: Ausführen der Auswertung

Führen Sie die Suite gegen Ihren bereitgestellten Agenten aus. Der Dienst sendet jede Testabfrage an den Agent, erfasst die Antwort und bewertet sie mit Ihren ausgewählten Auswertungen.

Note

Die zielbasierte Auswertung ruft Ihren gehosteten Agent direkt auf. Es funktioniert mit Agents, die das Antwort- oder Aufrufprotokoll mit synchroner, nicht streamingbasierter Ausführung verwenden. Um Agents auszuwerten, die das A2A- oder Activity-Protokoll oder andere Ausführungsmuster wie etwa mit langer Laufzeit oder Streaming verwenden, werten Sie stattdessen die Traces aus, die Ihr Agent erzeugt. Siehe Ablaufverfolgungsauswertung.

Führen Sie die Auswertung aus dem Azd-Arbeitsbereichsstamm aus:

azd ai agent eval run --config eval.yaml

Note

azd ai agent eval run löst den --config Pfad relativ zum Quellordner Ihres Agenten in src/ auf (zum Beispiel src/<your-agent-name>/eval.yaml), nicht relativ zum aktuellen Verzeichnis. Belassen Sie eval.yaml und den Datensatz, auf den local_uri verweist, in diesem Ordner.

Der Befehl liest eval.yaml, sendet jede Abfrage an Ihren Agent, bewertet die Antworten und druckt eine Zusammenfassung, wenn sie abgeschlossen ist:

Eval run started
   Eval: eval_b36748dede424e4ba3f8e6c99ca2cf27
   Run:  evalrun_5f72ef189ad24790a32128e6f230b131
   (✓) Done  Eval run

Results:    1 total, 1 passed, 0 failed, 0 errored

Per-criteria results:
  intent_resolution: 1 passed, 0 failed, 0 errored
  task_adherence: 1 passed, 0 failed, 0 errored

Erstellen Sie eine Ausführung, die jede Testabfrage an Ihren Agent sendet und die Auswertungen anwendet. Ersetzen Sie <your-agent-name> durch den Namen Ihres gehosteten Agenten:

eval_run = client.evals.runs.create(
    eval_id=evaluation.id,
    name="Agent Evaluation Run",
    data_source={
        "type": "azure_ai_target_completions",
        "source": {"type": "file_id", "id": dataset.id},
        "input_messages": {
            "type": "template",
            "template": [
                {
                    "type": "message",
                    "role": "user",
                    "content": {"type": "input_text", "text": "{{item.query}}"},
                }
            ],
        },
        "target": {
            "type": "azure_ai_agent",
            "name": "<your-agent-name>",
            # "version": "1",  # Optional; omit to use the latest version
        },
    },
)

print(f"Evaluation run started: {eval_run.id}")

Schritt 4: Überprüfen der Ergebnisse

Auswertungen werden je nach Anzahl der Abfragen in der Regel in wenigen Minuten abgeschlossen.

Aktuelle Auswertungen auflisten:

azd ai agent eval list

    Eval ID                                Name        Status of last run  Runs
    -------                                ----        ------------------  ----
*   eval_b36748dede424e4ba3f8e6c99ca2cf27  agent-eval  Completed           1

* = active eval in current environment

Zeigen Sie die letzte Auswertung und deren Ausführung an:

azd ai agent eval show

Eval:   eval_b36748dede424e4ba3f8e6c99ca2cf27
Name:   agent-eval
Agent:  <your-agent-name>
Runs:   1

Recent runs:
  Run ID                                    Status     Passed  Failed  Created
  ------                                    ------     ------  ------  -------
  evalrun_5f72ef189ad24790a32128e6f230b131  Completed  1/1     0       2026-06-17 14:52 UTC

Verwenden Sie die Ergebnisse, um zu überprüfen, welche Version des Agenten ausgewertet wurde und welche Bewertungen des Evaluators erzeugt wurden. Um Details zu jedem Evaluator sowie einen Link zum Bericht im Foundry-Portal anzuzeigen, führen Sie azd ai agent eval show <eval-id> --eval-run-id <run-id> aus.

Den Abschlussstatus abfragen und anschließend den Status sowie die URL des Berichts ausgeben, über die sich die Ergebnisse im Foundry-Portal öffnen lassen:

import time

while True:
    run = client.evals.runs.retrieve(run_id=eval_run.id, eval_id=evaluation.id)
    if run.status in ["completed", "failed"]:
        break
    time.sleep(5)

print(f"Status: {run.status}")
print(f"Report URL: {run.report_url}")

Auf Run-Ebene können Sie für jeden Evaluator die aggregierte Anzahl erfolgreicher und fehlgeschlagener Bewertungen sehen:

print(run.result_counts)
for criteria in run.per_testing_criteria_results:
    print(criteria.testing_criteria, "passed:", criteria.passed, "failed:", criteria.failed)

ResultCounts(errored=0, failed=0, passed=1, total=1, skipped=0)
Intent Resolution passed: 1 failed: 0
Task Adherence passed: 1 failed: 0

Listen Sie für Details auf Zeilenebene die Ausgabeelemente auf. Jedes Ergebnis enthält den Namen des Evaluators, bestanden oder nicht bestanden und eine Punktzahl:

for item in client.evals.runs.output_items.list(run_id=eval_run.id, eval_id=evaluation.id):
    for result in item.results:
        print(item.id, result.name, "passed:", result.passed, "score:", result.score)

Bereinigen von Ressourcen

Diese Schnellstartanleitung registriert ein Dataset, eine Auswertung und den Ausführungsverlauf in Ihrem Foundry-Projekt. Diese Vermögenswerte verursachen nur geringe oder keine laufenden Kosten.

Um den gehosteten Agent und die von Ihnen erstellten Azure Ressourcen zu entfernen, führen Sie die Bereinigungsschritte in "Bereitstellen Ihres ersten gehosteten Agents" aus.

Troubleshooting

Angelegenheit	Lösung
Befehl `azd ai agent eval` nicht gefunden	Führen Sie `azd ext list` aus, und überprüfen Sie, ob die Version der `azd ai agent`-Erweiterung 0.1.40-preview oder höher ist. Mit `azd ext upgrade microsoft.foundry` aktualisieren.
`azd ai agent eval run` kann den Agenten nicht finden.	Vergewissern Sie sich, dass der Agent bereitgestellt und mit `azd ai agent show` aufrufbar ist. Erneut mit `azd deploy` bereitstellen, falls erforderlich.
`ModuleNotFoundError` für `azure.ai.projects` oder `azure.identity`	Installieren Sie das SDK: `pip install "azure-ai-projects>=2.0.0" azure-identity`.
`AuthenticationError`, `DefaultAzureCredential`oder `Forbidden` Fehler	Melden Sie sich mit `az login` an (oder mit `azd auth login` für den CLI-Pfad), und bestätigen Sie, dass Ihnen im Projekt die Rolle Foundry User zugewiesen ist. Datasetuploads erfordern auch Schreibzugriff auf den Speicher des Projekts.
Agentziel nicht gefunden	Überprüfen Sie den Agentnamen und die Version mit `project_client.agents.get("<your-agent-name>")` oder `project_client.agents.list()`.
Viele fehlerierte Zeilen oder unerwartet niedrige Ergebnisse	Öffnen Sie die Berichts-URL und überprüfen Sie, ob Zeilen aufgrund von Fehlern in der Agentenantwort oder des Evaluators fehlgeschlagen sind. Beheben Sie die zugrunde liegenden Fehler, und führen Sie die Auswertung erneut aus.
Die Bereitstellung des Auswertungsmodells wurde nicht gefunden.	Stellen Sie sicher, dass die Bereitstellung des Judge-Modells (`AZURE_AI_MODEL_DEPLOYMENT_NAME` für das SDK oder `eval_model` in `eval.yaml`) in Ihrem Projekt unter Build>Deployments vorhanden ist.

Was Sie gelernt haben

In dieser Schnellstartanleitung führen Sie die folgenden Schritte aus:

Erstellt ein Test-Dataset und wählte Evaluatoren für Ihren gehosteten Agent aus.
Eine Evaluierung des bereitgestellten Agenten wurde ausgeführt.
Bewertete aggregierte ergebnisse und Ergebnisse auf Zeilenebene.
Die einzelnen Aufgaben wurden mit der Azure Developer CLI, dem Foundry-Portal und dem Python SDK abgeschlossen.

Nächste Schritte

Optimieren eines gehosteten Agents

Verbessern Sie ihren Auswertungsworkflow weiter:

Richten Sie kontinuierliche und geplante Auswertungen ein, um die Qualität Ihres Agenten in der Produktion nachzuverfolgen.

Bewerten Sie Ihre KI-Agenten
Ausführen von Batchauswertungen aus dem SDK
Generieren Sie ein synthetisches Auswertungs-Dataset , um Testabfragen und Auswertungen automatisch zu erstellen.
Behandeln von Bewertungs- und Beobachtbarkeitsproblemen
Referenz zu Agent-Evaluatoren
Was sind gehostete Agenten?

Feedback

War diese Seite hilfreich?

Last updated on 2026-06-22

Schnellstart: Ihren gehosteten Agent bewerten

Voraussetzungen

Schritt 1: Bestätigen Sie Ihren bereitgestellten Agenten

Schritt 2: Integrierte Evaluatoren einrichten

Schritt 3: Ausführen der Auswertung

Schritt 4: Überprüfen der Ergebnisse

Bereinigen von Ressourcen

Troubleshooting

Was Sie gelernt haben

Nächste Schritte

Verwandte Inhalte

Feedback

Zusätzliche Ressourcen