Cosa sono le pipeline?

Una pipeline è l'unità principale di sviluppo ed esecuzione in Lakeflow Spark Declarative Pipelines (SDP). Una pipeline è una raccolta di file di codice sorgente e una configurazione. I file di origine dichiarano set di dati (tabelle di streaming, viste materializzate e viste) insieme alle query e ai flussi che li producono. La configurazione specifica la modalità di esecuzione della pipeline e la posizione in cui vengono archiviati i dati.

Una pipeline è il contenitore per i flussi, le tabelle di streaming, le viste materializzate e i sink definiti dall'utente. Durante l'esecuzione della pipeline, analizza automaticamente le dipendenze tra questi oggetti e orchestra l'ordine di esecuzione e parallelizzazione. Per informazioni dettagliate sugli oggetti contenuti in una pipeline, vedere Che cos'è Lakeflow Spark Declarative Pipelines.

Codice sorgente della pipeline

Il codice sorgente della pipeline viene scritto in Python o SQL. Una singola pipeline può combinare Python e file di origine SQL, ma ogni file può contenere una sola lingua. Poiché la pipeline analizza le dipendenze dei set di dati in tutti i file di origine, è possibile organizzare il codice sorgente tra i file in qualsiasi ordine.

Per indicazioni sullo sviluppo specifiche del linguaggio, vedere Sviluppare codice della pipeline con Python e Sviluppare codice di pipeline dichiarative Spark di Lakeflow con SQL.

Diagramma della pipeline

Le pipeline inferiscono automaticamente le dipendenze tra set di dati e le organizzano in un grafo aciclico diretto (DAG). Il grafico determina l'ordine di valutazione: i set di dati upstream vengono calcolati prima di quelli downstream. È possibile visualizzare e interagire con il grafico della pipeline nell'editor delle pipeline di Lakeflow.

Aggiornamenti della pipeline

Un aggiornamento della pipeline calcola lo stato corrente di ogni set di dati in base a:

  1. Avvio di un cluster con la configurazione corretta.
  2. Analisi dei file di origine e creazione del grafico delle dipendenze.
  3. Calcolo o aggiornamento incrementale di ogni set di dati in ordine di dipendenza.

Le pipeline vengono eseguite in due modalità:

  • Attivato: la pipeline viene eseguita una sola volta e si arresta quando tutti i set di dati sono aggiornati.
  • Continuo: la pipeline viene eseguita per un periodo illimitato ed elabora nuovi dati man mano che arriva.

Gli aggiornamenti avviati in modo interattivo nell'editor sono ottimizzati per iterazioni rapide, riutilizzando il cluster e disabilitando i tentativi automatici. Vedere Aggiornare il comportamento dell'esecuzione.

Tipi di pipeline

L'elenco Processi e pipeline include più pipeline create in Pipeline dichiarative di Lakeflow Spark. Azure Databricks esegue diversi tipi di pipeline e l'elenco Processi e pipeline e la pagina di monitoraggio delle pipeline contrassegnano ciascuna con un tipo, in modo da poter distinguere l'una dall'altra. La tabella seguente esegue il mapping di ogni tipo di pipeline al pipeline_type valore registrato nel registro eventi:

Digitare processi e pipeline pipeline_type nel registro eventi Description
ETL WORKSPACE Una pipeline definita nelle pipeline dichiarative di Lakeflow Spark. Vedere Pipeline dichiarative di Lakeflow Spark.
Ingestion MANAGED_INGESTION Pipeline di inserimento gestita creata con Lakeflow Connect. Vedi Connettori gestiti in Lakeflow Connect.
MV/ST DBSQL Una pipeline indipendente. Vedere Pipeline autonome.
Sincronizzazione tabelle di database DATABASE_TABLE_SYNC Pipeline che sincronizza una tabella con un database Lakebase. Vedere Fornire dati di lakehouse con tabelle sincronizzate (Lakebase Provisioned).

Pipeline autonome

È possibile creare e gestire tabelle di streaming e viste materializzate all'esterno delle pipeline dichiarative di Lakeflow Spark come pipeline autonome. È possibile usare Databricks SQL o Python per creare e aggiornare tabelle di streaming autonome e viste materializzate. Vengono eseguiti nella stessa infrastruttura Azure Databricks e hanno la stessa semantica di elaborazione usata nelle pipeline dichiarative di Lakeflow Spark. Quando si definisce una tabella di streaming autonoma o una vista materializzata, i flussi vengono definiti in modo implicito come parte della definizione della tabella di streaming o della vista materializzata.

Per informazioni dettagliate, vedere Pipeline autonome.

Editor di pipeline di Lakeflow

Lakeflow Pipelines Editor è un IDE creato per lo sviluppo di pipeline. Offre:

  • Editor di codice multi-file per Python e file di origine SQL
  • Un browser delle risorse della pipeline per organizzare file e cartelle
  • Grafico interattivo della pipeline che mostra le dipendenze e lo stato del set di dati
  • Anteprime dei dati per tabelle di streaming e viste materializzate
  • Informazioni dettagliate sull'esecuzione e un riquadro dei problemi che mostra i risultati dell'esecuzione più recente
  • Esecuzione selettiva per aggiornare singoli file o tabelle senza eseguire la pipeline completa

L'editor si integra con la piattaforma Azure Databricks e supporta il controllo della versione tramite le cartelle Git. Per istruzioni dettagliate, vedere Sviluppare ed eseguire il debug di pipeline ETL con l'editor di Pipeline di Lakeflow.

Risorse aggiuntive