Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Una pipeline è l'unità principale di sviluppo ed esecuzione in Lakeflow Spark Declarative Pipelines (SDP). Una pipeline è una raccolta di file di codice sorgente e una configurazione. I file di origine dichiarano set di dati (tabelle di streaming, viste materializzate e viste) insieme alle query e ai flussi che li producono. La configurazione specifica la modalità di esecuzione della pipeline e la posizione in cui vengono archiviati i dati.
Una pipeline è il contenitore per i flussi, le tabelle di streaming, le viste materializzate e i sink definiti dall'utente. Durante l'esecuzione della pipeline, analizza automaticamente le dipendenze tra questi oggetti e orchestra l'ordine di esecuzione e parallelizzazione. Per informazioni dettagliate sugli oggetti contenuti in una pipeline, vedere Che cos'è Lakeflow Spark Declarative Pipelines.
Codice sorgente della pipeline
Il codice sorgente della pipeline viene scritto in Python o SQL. Una singola pipeline può combinare Python e file di origine SQL, ma ogni file può contenere una sola lingua. Poiché la pipeline analizza le dipendenze dei set di dati in tutti i file di origine, è possibile organizzare il codice sorgente tra i file in qualsiasi ordine.
Per indicazioni sullo sviluppo specifiche del linguaggio, vedere Sviluppare codice della pipeline con Python e Sviluppare codice di pipeline dichiarative Spark di Lakeflow con SQL.
Diagramma della pipeline
Le pipeline inferiscono automaticamente le dipendenze tra set di dati e le organizzano in un grafo aciclico diretto (DAG). Il grafico determina l'ordine di valutazione: i set di dati upstream vengono calcolati prima di quelli downstream. È possibile visualizzare e interagire con il grafico della pipeline nell'editor delle pipeline di Lakeflow.
Aggiornamenti della pipeline
Un aggiornamento della pipeline calcola lo stato corrente di ogni set di dati in base a:
- Avvio di un cluster con la configurazione corretta.
- Analisi dei file di origine e creazione del grafico delle dipendenze.
- Calcolo o aggiornamento incrementale di ogni set di dati in ordine di dipendenza.
Le pipeline vengono eseguite in due modalità:
- Attivato: la pipeline viene eseguita una sola volta e si arresta quando tutti i set di dati sono aggiornati.
- Continuo: la pipeline viene eseguita per un periodo illimitato ed elabora nuovi dati man mano che arriva.
Gli aggiornamenti avviati in modo interattivo nell'editor sono ottimizzati per iterazioni rapide, riutilizzando il cluster e disabilitando i tentativi automatici. Vedere Aggiornare il comportamento dell'esecuzione.
Tipi di pipeline
L'elenco Processi e pipeline include più pipeline create in Pipeline dichiarative di Lakeflow Spark. Azure Databricks esegue diversi tipi di pipeline e l'elenco Processi e pipeline e la pagina di monitoraggio delle pipeline contrassegnano ciascuna con un tipo, in modo da poter distinguere l'una dall'altra. La tabella seguente esegue il mapping di ogni tipo di pipeline al pipeline_type valore registrato nel registro eventi:
| Digitare processi e pipeline |
pipeline_type nel registro eventi |
Description |
|---|---|---|
| ETL | WORKSPACE |
Una pipeline definita nelle pipeline dichiarative di Lakeflow Spark. Vedere Pipeline dichiarative di Lakeflow Spark. |
| Ingestion | MANAGED_INGESTION |
Pipeline di inserimento gestita creata con Lakeflow Connect. Vedi Connettori gestiti in Lakeflow Connect. |
| MV/ST | DBSQL |
Una pipeline indipendente. Vedere Pipeline autonome. |
| Sincronizzazione tabelle di database | DATABASE_TABLE_SYNC |
Pipeline che sincronizza una tabella con un database Lakebase. Vedere Fornire dati di lakehouse con tabelle sincronizzate (Lakebase Provisioned). |
Pipeline autonome
È possibile creare e gestire tabelle di streaming e viste materializzate all'esterno delle pipeline dichiarative di Lakeflow Spark come pipeline autonome. È possibile usare Databricks SQL o Python per creare e aggiornare tabelle di streaming autonome e viste materializzate. Vengono eseguiti nella stessa infrastruttura Azure Databricks e hanno la stessa semantica di elaborazione usata nelle pipeline dichiarative di Lakeflow Spark. Quando si definisce una tabella di streaming autonoma o una vista materializzata, i flussi vengono definiti in modo implicito come parte della definizione della tabella di streaming o della vista materializzata.
Per informazioni dettagliate, vedere Pipeline autonome.
Editor di pipeline di Lakeflow
Lakeflow Pipelines Editor è un IDE creato per lo sviluppo di pipeline. Offre:
- Editor di codice multi-file per Python e file di origine SQL
- Un browser delle risorse della pipeline per organizzare file e cartelle
- Grafico interattivo della pipeline che mostra le dipendenze e lo stato del set di dati
- Anteprime dei dati per tabelle di streaming e viste materializzate
- Informazioni dettagliate sull'esecuzione e un riquadro dei problemi che mostra i risultati dell'esecuzione più recente
- Esecuzione selettiva per aggiornare singoli file o tabelle senza eseguire la pipeline completa
L'editor si integra con la piattaforma Azure Databricks e supporta il controllo della versione tramite le cartelle Git. Per istruzioni dettagliate, vedere Sviluppare ed eseguire il debug di pipeline ETL con l'editor di Pipeline di Lakeflow.