Übersicht über den Azure SRE-Agent

Azure SRE-Agent automatisiert operative Aufgaben auf sichere Weise und reduziert den manuellen Aufwand, sodass Ihr Team weniger Zeit für die Incident-Triage und manuelle Runbooks und mehr Zeit für die Entwicklung aufwenden muss.

Sie verbindet Ihre Observability-Tools, Vorfallplattformen und Quellcoderepositorys mit einem einzigen automatisierten Workflow. Wenn um 3 Uhr morgens etwas ausfällt, erhalten Sie statt zwischen Grafana, PagerDuty und Slack hin- und herzuspringen eine einzige Analyse, in der die Antworten bereits enthalten sind – einschließlich dessen, was sich geändert hat, was betroffen ist und was als Nächstes zu tun ist.

Der Agent schlägt Änderungen vor, und Ihr Team genehmigt. Keine Änderung wird ohne menschliche Anmeldung bereitgestellt.

Jede Untersuchung, die der Agent ausführt, erstellt institutionelle Kenntnisse, die über Unterhaltungen hinweg bestehen und sich im Laufe der Zeit ansammeln, unabhängig davon, ob Sie ein Team von zwanzig oder die einzige Person sind, die weiß, wie das System funktioniert.

SRE-Agent in Aktion

Stellen Sie sich vor, um 2:47 Uhr werden Warnmeldungen für Ihren Zahlungsdienst von Azure Monitor, PagerDuty oder einer anderen angebundenen Überwachungsplattform ausgelöst.

Innerhalb von Minuten, SRE-Agent:

Fragt Application Insights ab und identifiziert einen Speichertrend, der 40 Minuten vor der Warnung gestartet wurde.
Korreliert den Trend mit einem Bereitstellungsereignis aus Ihrem GitHub Repository zwei Stunden früher
Identifiziert den spezifischen Commit und schlägt zwei Gegenmaßnahmen vor: Starten Sie den betroffenen Pod neu, und passen Sie den Speicherskalierungsschwellenwert (HPA) an.
Erstellt ein Ticket in ServiceNow, PagerDuty oder Ihrem Incident-Kanal, das mit der vollständigen Untersuchungszusammenfassung vorausgefüllt ist

Eine Benachrichtigung zeigt die vorgeschlagene Abhilfemaßnahme an. Der Bereitschaftsingenieur prüft die Zusammenfassung und genehmigt sie mit einer einzigen Aktion, ohne dass ein Runbook erforderlich ist und ohne Kontextwechsel. Die Untersuchung wird in 7 Minuten in einem einzigen Thread aufgelöst, ohne War room und ohne Tab-Switch zwischen Grafana, PagerDuty und Slack.

Azure-Dienstverwaltungsfunktionen

Der SRE-Agent kann das gesamte Spektrum an Azure Diensten verwalten, auf die Ihr Team angewiesen ist:

Computedienste: Virtuelle Computer, App Service, Container-Apps, Azure Kubernetes Service (AKS), Azure Functions und vieles mehr.
Speicherdienste: Blob-Speicher, Dateifreigaben, verwaltete Datenträger und Speicherkonten.
Netzwerkdienste: Virtuelle Netzwerke, Lastenausgleichsgeräte, Anwendungsgateways und Netzwerksicherheitsgruppen.
Datenbankdienste: Azure SQL-Datenbank, Cosmos DB, PostgreSQL, MySQL und Redis.
Überwachung und Verwaltung: Azure Monitor, Log Analytics, Application Insights und Resource Manager.

Sie können jeden Azure CLI Vorgang über den SRE-Agent mithilfe von Runbooks, Subagenten und Agent-Hooks automatisieren.

Primäre Anwendungsfälle

Automatisieren Sie Vorfälle: Wenn eine Warnung ausgelöst wird, fragt der Agent Ihre Überwachungstools ab, korreliert Signale über Systeme hinweg, identifiziert wahrscheinliche Ursache und schlägt Gegenmaßnahmen vor. Dieser Prozess reduziert die Zeit für die Wiederherstellung (MTTR), verbessert die Dienstverfügbarkeit und fängt Fehlermuster ab, bevor sie zu Vorfällen werden.
Automatisieren Sie geplante Arbeitsabläufe: Führen Sie proaktive Zustandsprüfungen, Compliance-Überprüfungen und routinemäßige Betriebsaufgaben nach einem festgelegten Zeitplan aus. Ergebnisse werden in Ihrer verbundenen Vorfallplattform oder in Ihrem Benachrichtigungskanal angezeigt.
Untersuchen und beraten: Stellen Sie Fragen in natürlicher Sprache zu Ihrer Umgebung, z. B. "Was hat sich in der letzten Stunde geändert?" oder "Warum ist dieser Dienst beeinträchtigt?", und erhalten Sie geerdete Antworten mit Quellenzitationen.

Wie funktioniert der SRE-Agent?

SRE Agent kombiniert fein abgestimmte Azure-Expertise mit vollständigen Anpassungsfunktionen. Standardmäßig versteht und verwaltet es Azure Ressourcen mit intelligenten Standardwerten für allgemeine betriebliche Vorgänge.

Der Agent arbeitet mit fünf Erweiterungsprimitiven:

Fähigkeiten: Diskrete Funktionen, einschließlich Marketplace-Runbooks und Azure CLI-Skripts, die die operative Reichweite des Agents erweitern, ohne dass benutzerdefinierter Code erforderlich ist.
Subagenten: Zweckorientierte Agents für bestimmte operative Domänen. Fünf Subagenten sind standardmäßig enthalten (für Architektur, Protokolle und Metriken, Quellcode, Root-Cause-Analyse und Scans), und Sie können zusätzliche benutzerdefinierte Subagenten erstellen oder sie für domänenübergreifende Untersuchungen kombinieren.
Python Tools: Benutzerdefinierte Logik, Datentransformationen und API-Integrationen für Szenarien, die Code anstelle der Konfiguration erfordern.
MCP-Server: Verbinden Sie sich mit 40+ vordefinierten Connectors (Datadog, Prometheus, Grafana, New Relic, Splunk, Elasticsearch, Dynatrace, AWS CloudWatch, GCP Stackdriver und mehr) oder einem beliebigen benutzerdefinierten Tool über den Modellkontextprotokollstandard.
Agent-Hooks: Ereignisgesteuerte Automatisierungen, die an definierten Punkten im Agent-Lebenszyklus ausgeführt werden, entweder vor der Untersuchung oder nach der Lösung. Zwei Executortypen werden unterstützt: Befehlshaken führen deterministische CLI-Vorgänge aus, und Eingabeaufforderungs-Hooks erzeugen LLM-ausgewertete strukturierte JSON-Ausgabe. Verwenden Sie Hooks, um Richtlinien zu erzwingen, Telemetrie auszustrahlen oder in externe Genehmigungsworkflows zu integrieren. Siehe agent hooks.
Berechtigungsgater: Eine Vorausführungssicherheitsebene, die jeden vorgeschlagenen Toolaufruf auswertet, bevor es ausgeführt wird. Operatoren können eine menschliche Genehmigung erfordern, Richtlinienregeln erzwingen oder unzulässige Vorgänge blockieren, um sicherzustellen, dass Ihr Team auch während vollständig automatisierter Workflows in der Kontrolle bleibt. Audit-Telemetriedaten werden für Compliance-Transparenz an Ihre eigene Application Insights-Instanz weitergeleitet.

Die vollständige primitive Taxonomie, einschließlich RBAC-Bereichsdefinition, Kostenzuordnung und Überwachungspfadmuster, finden Sie unter Subagenten und Erweiterbarkeits - und Agent-Hooks.

Wissen, das nie verloren geht

Jede Ermittlung bringt Ihrem Agenten etwas Neues bei, und dieses Wissen bleibt erhalten, auch wenn Sie es nicht tun. Er erfasst die Ursachen, Lösungsschritte, Präferenzen und Betriebsmuster. Wenn Sie die einzige Person sind, die weiß, wie das System funktioniert, ist dies kein einziger Fehlerpunkt mehr. Für Teams gilt: Neue Mitglieder finden sich schneller ein, die Qualität im Bereitschaftsdienst bleibt unabhängig davon konsistent, wer alarmiert wird, und das gemeinsame Fachwissen wächst automatisch.

Tip

Beispiel aus dem Team: Ein neuer Ingenieur kommt in den Bereitschaftsdienst. Der Agent kennt bereits Bereitstellungsmuster, vergangene Vorfälle und Teamprozeduren und liefert von Tag 1 an konsistente Qualität.

Solobeispiel: Sie fahren in den Urlaub. Der Agent enthält Ihren operativen Kontext, sodass jeder, der übernimmt, nicht bei null anfangen muss.

Integrationen

Azure SRE Agent lässt sich auf folgende Weise in Ihr operatives Ökosystem integrieren:

Überwachung und Beobachtbarkeit:

Azure Monitor (Metriken, Protokolle, Warnungen, Arbeitsmappen)
Application Insights
Log Analytics
Grafana

Vorfallverwaltung:

Azure Monitor-Warnungen
PagerDuty
ServiceNow

Quellcodeverwaltung und CI/CD:

GitHub (Repositorys, Probleme)
Azure DevOps (Repositorien, Arbeitsaufgaben)

Datenquellen:

Azure Data Explorer (Kusto)-Cluster
Model Context Protocol (MCP) Server

Kommunikation und Benachrichtigungen:

Slack
Microsoft Teams

Get started

Beginnen Sie mit der Arbeit mit Azure SRE Agent, indem Sie eine Aufgabe planen, einen Vorfall behandeln oder einen benutzerdefinierten Agent erstellen.

Verwenden Sie geplante Aufgaben, um routinemäßige Betriebsaufgaben (Zustandsprüfungen, Bereinigungen und Compliance-Prüfungen) zu automatisieren, ohne Infrastrukturcode schreiben zu müssen.

Wählen Sie die Registerkarte "Vorgänge planen" aus .
Geben Sie Vorgangsdetails ein.
Definieren Sie den Zeitplan für die Ausführung Ihrer Aufgabe.
Erstellen Sie benutzerdefinierte Agent-Anweisungen für die Aufgabe.
Wählen Sie "Geplante Aufgabe erstellen" aus.
Die Ergebnisse Ihrer geplanten Aufgabe werden auf Ihrer angebundenen Vorfallplattform oder in Ihrem Benachrichtigungskanal angezeigt.

Verwenden Sie den Agent-Generator, um den SRE-Agent für Ihre Umgebung zu erweitern. Beginnen Sie mit dem Grundtyp, der ihrem Anwendungsfall entspricht:

Primitiv	Verwenden Sie, wenn	Docs
Fähigkeiten	Sie möchten eine diskrete Funktion vom Marketplace hinzufügen	Fähigkeiten
Subagenten	Sie benötigen einen spezialisierten Agent für eine bestimmte operative Domäne.	Subagenten
Python-Tools	Sie benötigen benutzerdefinierte Logik, Transformationen oder API-Aufrufe.	Python-Codeausführung
MCP-Server	Sie müssen eine externe Datenquelle oder Plattform verbinden	MCP-Integrationen
Hooks	Sie benötigen ereignisgesteuerte Automatisierungen an Lebenszykluspunkten	Agent-Hooks

Builder-Funktionen werden durch RBAC festgelegt. Siehe die Sicherheitsübersicht für Rollendefinitionen und die Konfiguration des Audit-Trails.

Wert im Laufe der Zeit

Der SRE-Agent bietet progressiven Wert, da er Ihre Umgebung, Ihre Muster und Ihre Betriebshistorie lernt.

Meilenstein	Was ist los
Tag 1	Verbinden Sie Ihre Tools, triagen Sie Ihren ersten Vorfall, und erhalten Sie sofortigen Diagnosewert aus integrierten Azure-Kenntnissen.
Woche 1	Der Agent lernt Ihre Umgebungstopologie, häufige Fehlermuster und Eskalationseinstellungen kennen. Untersuchungen werden schneller und genauer.
Monat 1	Institutionelles Wissen wächst durch Akkumulation. Teams berichten, dass sie Fehlermuster erkennen, bevor diese eskalieren. Neue Teammitglieder tragen von ihrer ersten Schicht bei, ohne dass Stammeswissen erforderlich ist.

Organisationen, die Azure SRE Agent verwenden, melden erhebliche Reduzierungen des Zeitaufwands für die Wiederherstellung und den Betriebsaufwand bei frühen Pilotprojekten.

Auswerten für Ihre Organisation

Ganz gleich, ob Sie eine Bewertung für ein Team durchführen oder Vorgänge solo ausführen, beginnen Sie mit der progressiven Werttabelle im vorherigen Abschnitt. Erkunden Sie dann Folgendes:

Ressource	Was Sie finden
Preise und Abrechnung	Nutzungsbasierte Preisgestaltung, Berechtigung für die kostenlose Stufe und Kapazitätsplanung
Sicherheitsübersicht	Datenverarbeitung, Datenschutz, Netzwerkintegration
Erstellen und Einrichten	So führen Sie ein strukturiertes Pilotprojekt aus
Teameinrichtung und -rollen	Rollen für Administratoren und Standardbenutzer – Leitfaden für die schrittweise Einführung

Considerations

Beachten Sie beim Verwenden des Azure SRE-Agents die folgenden Überlegungen:

Englisch ist die einzige unterstützte Sprache in der Chatoberfläche.
Weitere Informationen dazu, wie der Azure SRE-Agent Daten verwaltet, finden Sie in der Microsoft-Datenschutzrichtlinie.
Die Verfügbarkeit variiert je nach Region und Mandantenkonfiguration.
Kosten sind nutzungsbasiert. Siehe Preise und Abrechnung für das aktuelle Preismodell und Details zur kostenlosen Stufe.
Wie bei jedem KI-System kann der SRE-Agent gelegentlich falsche Schlussfolgerungen erstellen oder Gegenmaßnahmen vorschlagen, die nicht für Ihre Umgebung gelten. Überprüfen Sie vor der Genehmigung immer vorgeschlagene Aktionen.

Wenn Sie einen Agent erstellen, werden die folgenden Ressourcen auch automatisch für Sie erstellt:

Azure-Anwendung Insights
Log Analytics-Arbeitsbereich
Verwaltete Identität

Diese Ressourcen unterstützen die Beobachtbarkeit von Agenten und die Identitätsverwaltung. Sie können sie in Ihrem Azure-Abonnement anzeigen und verwalten.

Nächster Schritt

Erstellen sie einen Agent, und verbinden Sie ihn mit Ihren Azure-Ressourcen.

Feedback

War diese Seite hilfreich?

Last updated on 2026-06-20