Panoramica dell'agente SRE di Azure

Azure SRE Agent automatizza in modo sicuro le attività operative e riduce le attività ripetitive, così il tuo team dedica meno tempo allo smistamento degli incidenti e all'esecuzione manuale dei runbook e più tempo allo sviluppo.

Connette gli strumenti di osservabilità, le piattaforme di eventi imprevisti e i repository di codice sorgente in un singolo flusso di lavoro automatizzato. Quando qualcosa si interrompe alle 3:00, invece di saltare tra Grafana, PagerDuty e Slack, si ottiene un'indagine con risposte già in esso contenute, incluse le modifiche, le conseguenze e le operazioni da eseguire successivamente.

L'agente propone modifiche e il team approva. Nessuna modifica viene distribuita senza approvazione umana.

Ogni indagine eseguita dall'agente crea conoscenze istituzionali che vengono mantenute nelle conversazioni e si accumula nel tempo, sia che si sia un team di venti o l'unica persona che sa come funziona il sistema.

Agente SRE in azione

Immagina avvisi che scattano alle 2:47 del mattino per il tuo servizio di pagamento da Monitoraggio di Azure, PagerDuty o qualsiasi piattaforma di monitoraggio connessa.

Entro pochi minuti, agente SRE:

Esegue query su Application Insights e identifica una tendenza di memoria che ha iniziato 40 minuti prima dell'avviso
Correla la tendenza con un evento di distribuzione dal repository GitHub due ore prima
Identifica il commit specifico e propone due mitigazioni: riavviare il pod interessato e regolare la soglia di dimensionamento della memoria (HPA)
Crea un ticket in ServiceNow, PagerDuty o nel canale dell'incidente con il riepilogo completo dell'indagine precompilato

Una notifica visualizza la mitigazione proposta. L'ingegnere reperibile esamina il riepilogo e approva con un'unica azione, senza che sia necessario alcun runbook e senza dover cambiare contesto. L’analisi si conclude in 7 minuti in un thread unico, senza war room e senza dover passare da una scheda all’altra tra Grafana, PagerDuty e Slack.

Funzionalità di gestione dei servizi di Azure

L'agente SRE può gestire l'intera gamma di servizi Azure su cui si basa il team:

Servizi di calcolo: macchine virtuali, servizio app, app contenitore, Servizio Azure Kubernetes (AKS), Funzioni di Azure e altro ancora.
Servizi di archiviazione: archiviazione di BLOB, condivisioni di file, dischi gestiti e account di archiviazione.
Servizi di rete: reti virtuali, servizi di bilanciamento del carico, gateway applicazione e gruppi di sicurezza di rete.
Servizi di database: database SQL di Azure, Cosmos DB, PostgreSQL, MySQL e Redis.
Monitoraggio e gestione: Monitoraggio di Azure, Log Analytics, Application Insights e Resource Manager.

È possibile automatizzare qualsiasi operazione di interfaccia della riga di comando di Azure tramite l'agente SRE usando runbook, subagenti e hook dell'agente.

Casi d'uso principali

Automatizza gli incidenti: quando viene generato un avviso, l'agente interroga i tuoi strumenti di monitoraggio, correla i segnali tra i sistemi, identifica la causa principale più probabile e propone azioni di mitigazione. Questo processo riduce il tempo medio di ripristino (MTTR), migliora la disponibilità del servizio e rileva i modelli di errore prima che diventino eventi imprevisti.
Automatizzare i flussi di lavoro pianificati: eseguire controlli di integrità proattivi, sweep di conformità e attività operative di routine in base a una pianificazione definita. I risultati vengono visualizzati nella piattaforma di eventi imprevisti connessi o nel canale di notifica.
Esaminare e consigliare: porre domande in linguaggio naturale sull'ambiente, ad esempio "cosa è cambiato nell'ultima ora?" o "perché questo servizio è danneggiato?", e ottenere risposte con citazioni di origine.

Come funziona l'agente SRE?

L'agente SRE combina competenze ottimizzate di Azure con funzionalità di personalizzazione complete. Per impostazione predefinita, riconosce e gestisce le risorse Azure con configurazioni predefinite intelligenti per le attività operative comuni.

L'agente opera tramite cinque primitive di estensione:

Competenze: funzionalità discrete, inclusi i runbook del marketplace e gli script interfaccia della riga di comando di Azure, che estendono la portata operativa dell'agente senza richiedere codice personalizzato.
Subagenti: agenti creati appositamente per domini operativi specifici. Cinque subagenti sono inclusi di default (architettura, log e metriche, codice sorgente, analisi delle cause principali e scansione) ed è possibile creare ulteriori subagenti personalizzati o combinarli per indagini tra domini.
Python strumenti: logica personalizzata, trasformazioni dei dati e integrazioni API per scenari che richiedono codice anziché configurazione.
Server MCP: connettersi a 40 connettori predefiniti (Datadog, Prometheus, Grafana, New Relic, Splunk, Elasticsearch, Dynatrace, AWS CloudWatch, GCP Stackdriver e altro ancora) o a qualsiasi strumento personalizzato tramite lo standard Model Context Protocol.
Hook dell'agente: automazioni attivate da eventi, eseguite in punti definiti del ciclo di vita dell'agente, prima dell'indagine o dopo la risoluzione. Sono supportati due tipi di executor: gli hook di comando eseguono operazioni CLI deterministiche e gli hook di prompt producono output JSON strutturato valutato da un LLM. Usa gli hook per far rispettare i criteri, emettere dati di telemetria o per l'integrazione con flussi di lavoro di approvazione esterni. Vedere Hook dell'agente.
Controllo delle autorizzazioni: livello di sicurezza di pre-esecuzione che valuta ogni chiamata di strumento proposta prima dell'esecuzione. Gli operatori possono richiedere l'approvazione umana, applicare le regole dei criteri o bloccare le operazioni non consentite, assicurando che il team rimanga in controllo anche durante i flussi di lavoro completamente automatizzati. Esegui l'audit dei percorsi di telemetria verso la tua istanza di Application Insights per una maggiore visibilità ai fini della conformità.

Per la tassonomia completa dei primitivi, inclusi la definizione dell’ambito RBAC, l’attribuzione dei costi e i modelli di audit trail, vedere Sottoagenti ed estensibilità e Hook degli agenti.

Conoscenza che non lascia mai

Ogni indagine insegna qualcosa di nuovo al tuo agente, e questa conoscenza resta anche quando tu non ci sei. Acquisisce le cause radice, i passaggi di risoluzione, le preferenze e i modelli operativi. Se sei l'unico che sa come funziona il sistema, questo non è più un singolo punto di guasto. Per i team, i nuovi membri diventano operativi più rapidamente, la qualità della reperibilità rimane costante indipendentemente da chi venga allertato e le competenze collettive del team crescono automaticamente.

Tip

Esempio di team: un nuovo tecnico partecipa alla chiamata. L'agente conosce già i modelli di distribuzione, gli eventi imprevisti passati e le procedure del team, offrendo qualità coerente dal primo giorno.

Un solo esempio: Tu vai in vacanza. L'agente mantiene il contesto operativo, così chi subentra non deve ripartire da zero.

Integrations

L'agente SRE di Azure si integra con l'ecosistema operativo nei modi seguenti:

Monitoraggio e osservabilità:

Monitoraggio di Azure (metriche, log, avvisi, cartelle di lavoro)
Approfondimenti sulle Applicazioni
Log Analytics
Grafana

Gestione degli eventi imprevisti:

Avvisi di Monitoraggio di Azure
PagerDuty
ServiceNow

Controllo del codice sorgente e CI/CD:

GitHub (repository, problemi)
Azure DevOps (repository, elementi di lavoro)

Origini dati:

Cluster di Esplora dati di Azure (Kusto)
Server MCP (Model Context Protocol)

Comunicazione e notifiche:

Slack
Microsoft Teams

Get started

Iniziare a usare l'agente SRE di Azure pianificando un'attività, gestendo un evento imprevisto o creando un agente personalizzato.

Usa le attività pianificate per automatizzare le attività operative di routine (controlli dello stato, pulizia e verifiche di conformità) senza scrivere codice infrastrutturale.

Selezionare la scheda Pianifica attività .
Immettere i dettagli dell'attività.
Definire la pianificazione per eseguire l'attività.
Creare istruzioni personalizzate per l'agente per il compito.
Selezionare Crea attività pianificata.
I risultati della tua attività programmata vengono visualizzati nella piattaforma di gestione degli incidenti collegata o nel canale di notifica collegato.

Usa il generatore di agenti per estendere SRE Agent per il tuo ambiente. Iniziare con la primitiva adatta al caso d'uso:

Primitivo	Usa quando	Documenti
Abilità	Si vuole aggiungere una funzionalità discreta dal marketplace	Abilità
Subagenti	È necessario un agente specializzato per un dominio operativo specifico	Subagenti
Strumenti Python	Sono necessarie logiche, trasformazioni o chiamate API personalizzate	Esecuzione del codice Python
Server MCP	È necessario connettere un'origine dati esterna o una piattaforma	Integrazioni MCP
Agganci	Sono necessarie automazione attivate da eventi nei punti del ciclo di vita	Hook dell'agente

L'ambito delle funzionalità di Builder è definito dal controllo degli accessi basato sui ruoli. Vedere Panoramica della sicurezza per le definizioni dei ruoli e la configurazione del audit trail.

Valore nel tempo

L'agente SRE offre valore progressivo man mano che apprende l'ambiente, i modelli e la cronologia operativa.

Pietra miliare	Che succede
Giorno 1	Connettere gli strumenti, valutare il primo evento imprevisto e ottenere un valore di diagnostica immediato dalle conoscenze predefinite di Azure.
Settimana 1	L'agente apprende la topologia dell'ambiente, i modelli di errore comuni e le preferenze di escalation. Le indagini si ottengono più velocemente e più accurate.
Mese 1	La conoscenza istituzionale si accumula. I team riferiscono di individuare schemi di errore prima che si aggravino. I nuovi membri del team contribuiscono dal loro primo turno di chiamata senza alcuna conoscenza tribale necessaria.

Le organizzazioni che usano Azure agente SRE segnalano riduzioni significative del tempo medio per il ripristino e il sovraccarico operativo nei primi progetti pilota.

Valuta per la tua organizzazione

Indipendentemente dal fatto che si stia valutando un team o si eseguano operazioni da solo, iniziare con la tabella dei valori progressivi nella sezione precedente. Esplorare quindi:

risorsa	Cosa trovi
Prezzi e fatturazione	Prezzi basati sull'utilizzo, idoneità al livello gratuito e pianificazione della capacità
Panoramica della sicurezza	Gestione dei dati, privacy, integrazione di rete
Creare e configurare	Come eseguire un progetto pilota strutturato
Configurazione e ruoli del team	Amministratore e ruoli utente standard, guida all'implementazione in più fasi

Considerations

Tenere presenti le considerazioni seguenti quando si usa l'agente SRE di Azure:

L'inglese è l'unica lingua supportata nell'interfaccia della chat.
Per altre informazioni sulla gestione dei dati da parte dell'agente SRE di Azure, vedere l'informativa sulla privacy di Microsoft.
La disponibilità varia in base all'area e alla configurazione del tenant.
I costi sono basati sull'utilizzo. Vedere Prezzi e fatturazione per il modello di tariffa corrente e i dettagli del livello gratuito.
Come per qualsiasi sistema di intelligenza artificiale, l'agente SRE può occasionalmente produrre conclusioni errate o proporre mitigazioni che non si applicano all'ambiente. Esaminare sempre le azioni proposte prima dell'approvazione.

Quando si crea un agente, vengono create automaticamente anche le risorse seguenti:

applicazione Azure Insights
Area di lavoro di Log Analytics
Identità gestita

Queste risorse supportano l'osservabilità dell'agente e la gestione delle identità. È possibile visualizzarli e gestirli nella sottoscrizione Azure.

Passo successivo

Creare un agente e connetterlo alle risorse Azure

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-06-20