Creare un piano di risposta agli eventi imprevisti nell'agente SRE di Azure

I piani di risposta instradano gli eventi imprevisti in ingresso all'agente personalizzato corretto in base ai criteri di filtro definiti. In questa esercitazione, crei un piano di risposta dal canvas dell'agente, visualizzi in anteprima gli incidenti a cui si applica e usi l'interruttore di attivazione/disattivazione per controllare quando è attivo.

Prerequisiti

  • Un agente con una piattaforma di eventi imprevisti connessa (PagerDuty, ServiceNow o Monitoraggio di Azure)
  • Almeno un agente personalizzato configurato
  • Ruolo collaboratore o proprietario nella risorsa agente

Passaggio 1: Aprire l'area di disegno dell'agente

Nel portale dell'agente SRE, seleziona il tuo agente. Nella barra laterale sinistra passare a BuilderAgent Canvas.

Importante

Quando si connette per la prima volta una piattaforma di eventi imprevisti, viene creato automaticamente un piano di risposta di avvio rapido predefinito. Se si creano piani di risposta personalizzati, il piano di avvio rapido viene eseguito in parallelo a essi e può causare l'instradamento degli incidenti all'agente personalizzato errato o la loro elaborazione due volte. Per evitare conflitti, vai a Generatore>Piani di risposta agli incidenti, passa alla vista tabella ed elimina il piano di avvio rapido.

Passaggio 2: Creare un nuovo piano di risposta

Nell'area di disegno agente selezionare Crea sulla barra degli strumenti. Selezionare Trigger>Piano di risposta agli incidenti.

Verrà visualizzata la finestra di dialogo di creazione.

Compilare i criteri di filtro. I campi visualizzati dipendono dalla piattaforma degli incidenti:

  • Nome del piano di risposta agli eventi imprevisti: immettere un nome descrittivo, ad esempio high-sev-api-trigger.

Per Monitoraggio di Azure:

  • Gravità: selezionare uno o più livelli di gravità.

  • Title contains (facoltativo): aggiungere una parola chiave per restringere ulteriormente le corrispondenze.

Per PagerDuty/ServiceNow:

  • Servizio interessato: selezionare il piano di servizio a cui si riferisce o selezionare Tutto.

  • Tipo di evento imprevisto: scegliere la classificazione degli eventi imprevisti oppure selezionare Tutti i tipi di evento imprevisto.

  • Priorità: selezionare uno o più livelli di priorità, ad esempio P1 e P2.

  • Title contains (facoltativo): aggiungere una parola chiave per restringere ulteriormente le corrispondenze.

Scegliere la configurazione della risposta:

  • Agente personalizzato di risposta: selezionare l'agente personalizzato che gestisce gli eventi imprevisti corrispondenti.

  • Livello di autonomia dell'agente: scegliere la modalità di risposta dell'agente:

    • Autonomo (impostazione predefinita): l'agente analizza in modo indipendente ed esegue la mitigazione.
    • Revisione: l'agente propone azioni per l'approvazione prima dell'esecuzione.

Annotazioni

Quando si seleziona Autonomo (impostazione predefinita), accanto all'opzione viene visualizzata un'icona ℹ️ . Selezionarlo per esaminare il riconoscimento della modalità autonoma, che riepiloga il significato dell'esecuzione autonoma, inclusi i limiti dell'agente, le limitazioni del modello di intelligenza artificiale e le responsabilità dell'utente. Per informazioni dettagliate, vedere Riconoscimento della modalità autonoma .

Suggerimento

Iniziare con la modalità di revisione per i nuovi piani se si vuole convalidare il comportamento di indagine dell'agente prima di concedere l'autonomia completa. Per impostazione predefinita, i nuovi piani sono impostati su Autonomo.

Configurare il tempo di raffreddamento per la ripetizione dell'indagine sugli avvisi (solo Monitoraggio di Azure)

Se la tua piattaforma di incidenti è Monitoraggio di Azure, sotto il livello di autonomia appare una sezione Reinvestigation cooldown:

  • Abilita (casella di controllo, attivata per impostazione predefinita): se abilitata, le attivazioni ricorrenti della stessa regola di avviso nella finestra di raffreddamento si uniscono al thread di indagine esistente invece di avviarne uno nuovo. I thread risolti all'interno della finestra vengono riaperti.

  • Tempo di raffreddamento (spinner, impostazione predefinita: 3 ore, intervallo: 1-24): tempo dopo che un thread viene risolto o chiuso prima che un nuovo incendio crei un'indagine aggiornata invece di riaprire il thread esistente.

Lasciare le impostazioni predefinite per la maggior parte delle regole di avviso. Disabilitare il cooldown solo per gli avvisi critici in cui ogni incendio richiede un'indagine indipendente.

Avviso

La disabilitazione del raffreddamento può aumentare significativamente il consumo di token per le regole di avviso rumorose. Una regola che si attiva ogni 5 minuti crea una nuova indagine ogni volta.

Compilare tutti i campi obbligatori: nome del piano, servizio interessato, tipo di evento imprevisto e almeno un livello di priorità. Il pulsante Avanti diventa abilitato.

Passaggio 3: Visualizzare in anteprima gli eventi imprevisti corrispondenti

Seleziona Avanti. L'anteprima degli eventi imprevisti mostra una tabella degli eventi imprevisti precedenti che soddisfano i criteri di filtro.

La tabella visualizza:

  • Priorità, data di creazione, titolo, ID evento imprevisto e stato per ogni evento imprevisto corrispondente
  • Filtro intervallo di tempo (impostazione predefinita: Ultimi 90 giorni) per modificare la finestra di anteprima

Esaminare i risultati:

  • Troppe coincidenze? Torna indietro e aggiungi una restrizione di gravità o una parola chiave nel titolo.
  • Nessuna corrispondenza? Questo risultato è normale per i nuovi servizi. Il piano funziona ancora per eventi imprevisti futuri.
  • Numero giusto? Il filtro è ben regolato.

Selezionare Crea piano di risposta agli eventi imprevisti per salvare il piano.

Checkpoint: Il piano viene visualizzato nella griglia con Stato attivato (badge verde).

Passaggio 4. Disattivare e attivare un piano

Selezionare il piano selezionandone la casella di controllo nella griglia.

  1. Selezionare Disattiva sulla barra degli strumenti. Viene visualizzata una finestra di dialogo di conferma.

  2. Selezionare per disabilitare il piano.

Il badge di stato diventa Disattivato. Lo scanner smette di abbinare gli incidenti con questo piano. La configurazione del filtro viene mantenuta.

Per riabilitare il piano:

  1. Selezionare di nuovo il piano.

  2. Seleziona Attiva. Ha effetto immediatamente senza conferma.

Il badge di stato torna su .

Checkpoint: L'interruttore funziona. È possibile passare un piano tra Attivato e Disattivato senza eliminarlo.

Passaggio 5: Verificare nella griglia dei piani di risposta

È possibile visualizzare il piano direttamente nella griglia dei piani di risposta agli eventi imprevisti con il badge di stato, l'agente personalizzato, il filtro di gravità e le colonne a livello di autonomia.

Checkpoint: Il piano compare nella griglia con lo stato, l'agente personalizzato e la gravità corretti.

Suggerimento

** Utilizzare il filtro Title contiene per eseguire il test in modo sicuro. Impostarlo in modo che corrisponda a un titolo specifico dell'evento imprevisto di test (ad esempio, "[TEST] CPU spike") e creare un evento imprevisto di test con tale titolo. Questo metodo convalida il comportamento dell'agente senza influire sul routing di produzione. Dopo la verifica, regolare o rimuovere il filtro del titolo.

Modificare o eliminare un piano di risposta

Modifica

  1. Nella griglia dei piani di risposta selezionare il collegamento ID del piano per aprire il piano.
  2. La vista di modifica si apre con tutte le impostazioni correnti precompilate.
  3. Modificare i criteri di filtro, l'agente personalizzato o il livello di autonomia.
  4. Seleziona Salva per applicare le modifiche.

Delete

  1. Selezionare il piano usando la casella di controllo nella griglia.
  2. Selezionare Elimina sulla barra degli strumenti.
  3. Viene visualizzata una finestra di dialogo di conferma. Seleziona per confermare.

I piani eliminati arrestano immediatamente gli incidenti di routing. Indagini attive avviate dal piano continuano a essere completate.

Che cosa si è appreso

  • Come creare piani di risposta dalla pagina Piani di risposta agli eventi imprevisti .
  • In che modo i criteri di filtro (gravità, servizio, tipo, titolo) instradano gli eventi imprevisti all'agente personalizzato corretto.
  • Come visualizzare in anteprima gli incidenti storici corrispondenti prima della conferma.
  • Come usare l'interruttore enable/disable per sospendere e riprendere il routing.
  • Come verificare i piani nella vista unificata a griglia nel Canvas dell'agente.
  • La differenza tra i livelli di autonomia autonoma e quelli di revisione.
risorsa Cosa imparerai
Piani di risposta agli eventi imprevisti Comprendere la funzionalità completa dei piani di risposta
Connettere un'origine dati Concedere all'agente personalizzato l'accesso ai dati di log
Analisi approfondita Analisi della causa radice complessa
Agenti personalizzati Agenti personalizzati specializzati per tipi di incidente diversi