Cosa sono le pipeline?

Una pipeline è l'unità principale di sviluppo ed esecuzione in Lakeflow Spark Declarative Pipelines (SDP). Una pipeline è una raccolta di file di codice sorgente e una configurazione. I file di origine dichiarano set di dati (tabelle di streaming, viste materializzate e viste) insieme alle query e ai flussi che li producono. La configurazione specifica la modalità di esecuzione della pipeline e la posizione in cui vengono archiviati i dati.

Una pipeline è il contenitore per i flussi, le tabelle di streaming, le viste materializzate e i sink definiti dall'utente. Durante l'esecuzione della pipeline, analizza automaticamente le dipendenze tra questi oggetti e orchestra l'ordine di esecuzione e parallelizzazione. Per informazioni dettagliate sugli oggetti contenuti in una pipeline, vedere Che cos'è Lakeflow Spark Declarative Pipelines.

Codice sorgente della pipeline

Il codice sorgente della pipeline viene scritto in Python o SQL. Una singola pipeline può combinare Python e file di origine SQL, ma ogni file può contenere una sola lingua. Poiché la pipeline analizza le dipendenze dei set di dati in tutti i file di origine, è possibile organizzare il codice sorgente tra i file in qualsiasi ordine.

Per indicazioni sullo sviluppo specifiche del linguaggio, vedere Sviluppare codice della pipeline con Python e Sviluppare codice di pipeline dichiarative Spark di Lakeflow con SQL.

Diagramma della pipeline

Le pipeline inferiscono automaticamente le dipendenze tra set di dati e le organizzano in un grafo aciclico diretto (DAG). Il grafico determina l'ordine di valutazione: i set di dati upstream vengono calcolati prima di quelli downstream. È possibile visualizzare e interagire con il grafico della pipeline nell'editor delle pipeline di Lakeflow.

Aggiornamenti della pipeline

Un aggiornamento della pipeline calcola lo stato corrente di ogni set di dati in base a:

Avvio di un cluster con la configurazione corretta.
Analisi dei file di origine e creazione del grafico delle dipendenze.
Calcolo o aggiornamento incrementale di ogni set di dati in ordine di dipendenza.

Le pipeline vengono eseguite in due modalità:

Attivato: la pipeline viene eseguita una sola volta e si arresta quando tutti i set di dati sono aggiornati.
Continuo: la pipeline viene eseguita per un periodo illimitato ed elabora nuovi dati man mano che arriva.

Gli aggiornamenti avviati in modo interattivo nell'editor sono ottimizzati per iterazioni rapide, riutilizzando il cluster e disabilitando i tentativi automatici. Vedere Aggiornare il comportamento dell'esecuzione.

Tipi di pipeline

L'elenco Processi e pipeline include più pipeline create in Pipeline dichiarative di Lakeflow Spark. Azure Databricks esegue diversi tipi di pipeline e l'elenco Processi e pipeline e la pagina di monitoraggio delle pipeline contrassegnano ciascuna con un tipo, in modo da poter distinguere l'una dall'altra. La tabella seguente esegue il mapping di ogni tipo di pipeline al pipeline_type valore registrato nel registro eventi:

Digitare processi e pipeline	`pipeline_type` nel registro eventi	Description
ETL	`WORKSPACE`	Una pipeline definita nelle pipeline dichiarative di Lakeflow Spark. Vedere Pipeline dichiarative di Lakeflow Spark.
Ingestion	`MANAGED_INGESTION`	Pipeline di inserimento gestita creata con Lakeflow Connect. Vedi Connettori gestiti in Lakeflow Connect.
MV/ST	`DBSQL`	Una pipeline indipendente. Vedere Pipeline autonome.
Sincronizzazione tabelle di database	`DATABASE_TABLE_SYNC`	Pipeline che sincronizza una tabella con un database Lakebase. Vedere Fornire dati di lakehouse con tabelle sincronizzate (Lakebase Provisioned).

Pipeline autonome

È possibile creare e gestire tabelle di streaming e viste materializzate all'esterno delle pipeline dichiarative di Lakeflow Spark come pipeline autonome. È possibile usare Databricks SQL o Python per creare e aggiornare tabelle di streaming autonome e viste materializzate. Vengono eseguiti nella stessa infrastruttura Azure Databricks e hanno la stessa semantica di elaborazione usata nelle pipeline dichiarative di Lakeflow Spark. Quando si definisce una tabella di streaming autonoma o una vista materializzata, i flussi vengono definiti in modo implicito come parte della definizione della tabella di streaming o della vista materializzata.

Per informazioni dettagliate, vedere Pipeline autonome.

Editor di pipeline di Lakeflow

Lakeflow Pipelines Editor è un IDE creato per lo sviluppo di pipeline. Offre:

Editor di codice multi-file per Python e file di origine SQL
Un browser delle risorse della pipeline per organizzare file e cartelle
Grafico interattivo della pipeline che mostra le dipendenze e lo stato del set di dati
Anteprime dei dati per tabelle di streaming e viste materializzate
Informazioni dettagliate sull'esecuzione e un riquadro dei problemi che mostra i risultati dell'esecuzione più recente
Esecuzione selettiva per aggiornare singoli file o tabelle senza eseguire la pipeline completa

L'editor si integra con la piattaforma Azure Databricks e supporta il controllo della versione tramite le cartelle Git. Per istruzioni dettagliate, vedere Sviluppare ed eseguire il debug di pipeline ETL con l'editor di Pipeline di Lakeflow.

Risorse aggiuntive

Commenti e suggerimenti

Questa pagina è stata utile?

Last updated on 2026-06-24