Trasformazioni del flusso di dati di mapping in Dataflow Gen2 (anteprima)

Importante

Le trasformazioni di mapping dei flussi di dati in dataflow gen2 sono attualmente in anteprima pubblica e sono soggette a modifiche.

Le trasformazioni Mapping Data Flow (MDF) in Dataflow Gen2 consentono di creare, eseguire e monitorare trasformazioni dei dati basate su Spark direttamente in Data Factory in Microsoft Fabric.

Le trasformazioni MDF portano in Microsoft Fabric le funzionalità di Azure Data Factory e dei flussi di dati di mapping di Azure Synapse Analytics tramite una familiare esperienza di creazione visuale low-code integrata con Dataflow Gen2.

Con le trasformazioni MDF, è possibile:

  • Migrare le pipeline di Mapping Data Flow esistenti di Azure Data Factory e Azure Synapse Analytics in Fabric.
  • Creare nuove trasformazioni basate su Spark direttamente in Fabric.
  • Esegui trasformazioni MDF usando le pipeline di dati di Fabric.
  • Monitorare l'esecuzione della trasformazione usando esperienze di monitoraggio integrate.
  • Continua a usare i familiari modelli di trasformazione di Mapping Flusso di dati in Fabric.

Che cosa sono le trasformazioni nel flusso di dati di mapping?

Le trasformazioni MDF estendono dataflow gen2 con funzionalità di trasformazione basate su Spark per carichi di lavoro di preparazione e trasformazione dei dati su larga scala.

Le trasformazioni MDF offrono:

  • Esperienza di creazione di oggetti visivi con poco codice
  • Esecuzione basata su Spark
  • Orchestrazione integrata tramite pipeline di Fabric
  • Monitoraggio e informazioni dettagliate sull'esecuzione direttamente in Fabric

Utilizzare trasformazioni MDF per:

  • Eseguire la migrazione a Fabric delle pipeline dei flussi di dati di mapping esistenti di Azure Data Factory o di Azure Synapse Analytics.
  • Creare nuove pipeline di trasformazione basate su Spark in modo nativo in Fabric.

Le trasformazioni MDF si integrano pienamente con dataflow gen2 e offrono un'esperienza di creazione familiare simile a quella di Azure Data Factory e dei Mapping Data Flows di Azure Synapse Analytics.

Schermata dell'interfaccia di creazione della trasformazione di mapping del flusso di dati incorporata in un canvas di Dataflow Gen2 in Microsoft Fabric.

Scenari supportati

Le trasformazioni MDF supportano attualmente gli scenari seguenti.

Eseguire la migrazione dei flussi di dati di mapping esistenti

È possibile eseguire la migrazione di flussi di dati di mapping esistenti Azure Data Factory e di Azure Synapse Analytics in Fabric usando l'esperienza di migrazione predefinita di Azure Data Factory/Synapse Analytics.

Schermata dell'esperienza di migrazione di Azure Data Factory per aggiornare le pipeline Mapping Data Flows a Fabric.

Durante la migrazione:

  1. I Flussi di dati di mapping vengono convertiti in trasformazioni MDF in Dataflow Gen2.
  2. Le pipeline e la logica di trasformazione vengono migrate insieme.
  3. Le trasformazioni MDF si aprono all'interno del canvas di trasformazione incorporato in Dataflow Gen2.
  4. La logica di trasformazione esistente può continuare a essere creata, convalidata, eseguita e monitorata in Fabric.

Creare nuove trasformazioni nei flussi di dati di mapping in Fabric

È anche possibile creare nuove trasformazioni MDF direttamente nel flusso di dati gen2. Questa esperienza consente di:

  • Creare trasformazioni basate su Spark usando un'interfaccia visiva.
  • Usa le familiari funzionalità di trasformazione di Mapping Flusso di dati.
  • Esegui trasformazioni usando le pipeline di dati di Fabric.
  • Monitorare l'esecuzione tramite esperienze di monitoraggio integrate.

Prerequisiti

Prima di usare trasformazioni MDF in DataFlow Gen2, assicurarsi che siano soddisfatti i prerequisiti seguenti:

  • Una capacità Fabric.
  • Autorizzazioni di Collaboratore o autorizzazioni superiori per l'area di lavoro di Fabric.
  • Connessioni Fabric esistenti per le origini dati supportate.
  • (Facoltativo) Un'area di lavoro Azure Data Factory o Azure Synapse Analytics esistente, se si usano scenari di migrazione.

Limitations

Le funzionalità seguenti non sono attualmente supportate nell'anteprima pubblica:

Area Limitation
Flowlets Non supportato.
Libreria Flusso di dati Non supportato.
Funzioni definite dall'utente Non supportato.
Esecuzione del flusso di dati Le trasformazioni MDF possono essere eseguite solo tramite l'attività Dataflow della pipeline. L'esecuzione diretta dal flusso di dati gen2 non è attualmente supportata. Solo l'azione Salva è disponibile dal menu Salva ed esegui .
Rete virtuale gestita Il supporto per Managed Rete virtuale (Managed VNet) non è disponibile in questa versione preliminare.
Esecuzione del runtime L'esecuzione delle trasformazioni MDF utilizza attualmente il runtime Synapse Spark sottostante, simile a quello usato da Azure Data Factory e dai Flussi di dati di mapping di Azure Synapse Analytics.
Parità delle funzionalità Non tutte le funzionalità di mapping Flusso di dati sono disponibili in questa anteprima.

Connettori supportati

Le trasformazioni MDF supportano i connettori di origine e di destinazione più comunemente usati disponibili in Azure Data Factory e nei flussi di dati di mapping di Azure Synapse Analytics.

Sono attualmente supportati i connettori seguenti:

Categoria Archiviazione dati Trasformazioni MDF in Dataflow Gen2 (origine/destinazione)
Azure Archiviazione BLOB di Azure (Servizio di archiviazione Blob di Azure) ✓/✓
Azure Cosmos DB per il NoSQL ✓/✓
Esplora dati di Azure ✓/✓
Azure Data Lake Storage Gen1 ✓/✓
Azure Data Lake Storage Gen2 ✓/✓
Database di Azure per MySQL ✓/✓
Database di Azure per PostgreSQL ✓/✓
Azure Databricks Delta Lake ✓/✓ Usare il formato delta
Database SQL di Microsoft Azure ✓/✓
Istanza gestita di SQL di Azure (Istanza gestita di Azure SQL) ✓/✓
Azure Synapse Analytics ✓/✓
Banca dati Snowflake ✓/✓
File Amazon S3 ✓/✓
SFTP ✓/✓
REST generico ✓/✓

Durante la redazione:

  • È possibile riutilizzare le connessioni Fabric esistenti.
  • È possibile creare nuove connessioni direttamente dall'esperienza di creazione usando l'esperienza Recupera dati .
  • La configurazione dell'origine e del sink segue i modelli di mapping Flusso di dati noti.

Trasformazioni supportate

Le trasformazioni MDF offrono una nota esperienza di trasformazione visiva a basso codice per creare pipeline scalabili di trasformazione dei dati basate su Spark in Fabric.

Sono attualmente supportate le trasformazioni seguenti:

Name Categoria Description
Aggregate Modificatore dello schema Definire aggregazioni come SUM, MIN, MAX e COUNT raggruppate per colonne esistenti o calcolate.
Alter Row Modificatore di riga Consente di configurare i criteri di inserimento, eliminazione, aggiornamento e upsert sulle righe.
Assert Modificatore di riga Definire le regole di asserzione per le righe nel flusso di dati.
Cast Modificatore dello schema Modifica i tipi di dati delle colonne con il controllo dei tipi.
Suddivisione condizionale Più input/output Instradare le righe a flussi diversi in base alle condizioni corrispondenti.
Colonna derivata Modificatore dello schema Generare nuove colonne o modificare i campi esistenti usando le espressioni.
Chiamata esterna Modificatore dello schema Chiama endpoint esterni in linea per ogni riga.
Exists Più input/output Controllare se i dati esistono in un'altra origine o flusso.
Filter Modificatore di riga Filtrare le righe in base alle condizioni.
Flatten Formattatori Appiattire strutture gerarchiche come matrici JSON in righe.
Unisciti. Più input/output Consente di combinare dati da due origini o flussi.
Lookup Più input/output Dati di riferimento da un'altra origine o flusso.
Nuovo ramo Più input/output Applicare più percorsi di trasformazione nello stesso flusso.
Parse Formattatori Analizzare stringhe in formato JSON, testo delimitato o XML.
Pivot Modificatore dello schema Trasformare valori di riga distinti in colonne.
Rank Modificatore dello schema Generare classificazioni ordinate in base alle condizioni di ordinamento.
Select Modificatore dello schema Rinominare, riordinare o rimuovere colonne.
Sink - Definire la destinazione per i dati trasformati.
Sort Modificatore di riga Ordinare le righe nel flusso di dati corrente.
Source - Definire l'origine per il flusso di dati.
Stringify Formattatori Convertire i tipi complessi in valori stringa.
Chiave surrogata Modificatore dello schema Generare valori di chiave surrogata incrementati.
Union Più input/output Combinare più flussi di dati verticalmente.
Unpivot Modificatore dello schema Trasformare le colonne in valori di riga.
Window Modificatore dello schema Definire aggregazioni basate su finestre su flussi di dati.

Creare una trasformazione del flusso di dati di mapping in DataFlow Gen2

Per creare una nuova trasformazione MDF in Fabric:

  1. Aprire l'area di lavoro di Fabric.

  2. Selezionare Nuovo elemento.

  3. Selezionare Flusso di dati Gen2.

  4. Specificare un nome per l'elemento dataflow gen2 e selezionare Crea.

  5. Nell'area di disegno del flusso di dati gen2 usare una delle opzioni seguenti:

    • Selezionare Esegui trasformazioni del flusso di dati di mappatura dal gruppo di azioni Nuovo nella barra multifunzione Home di Dataflow Gen2.
    • Selezionare il riquadro Run Mapping Data Flow transforms (ADF Mapping Data Flows) (Esegui trasformazioni del flusso di dati mapping ADF) nell'area di disegno.

    Schermata che mostra l'opzione per creare una trasformazione del mapping data flow dalla barra multifunzione di Dataflow Gen2 in Microsoft Fabric.

    Screenshot che mostra l'opzione per creare una trasformazione del flusso di dati di mapping dal riquadro canvas di DataFlow Gen2 in Microsoft Fabric.

Compare una nuova azione di trasformazione MDF nel canvas di Dataflow Gen2 e si apre l'ambiente di creazione integrato per la trasformazione MDF.

Tip

L'esperienza di creazione delle trasformazioni MDF utilizza un'interfaccia visiva nota, simile a quella di Azure Data Factory e dei flussi di dati di mapping di Azure Synapse Analytics.

Creare trasformazioni del flusso di dati di mappatura

Dopo aver creato una trasformazione MDF, è possibile iniziare a creare la logica di trasformazione.

Abilitare la modalità di debug

Per la creazione interattiva e l'anteprima dei dati:

  1. Attiva l'opzione Debug del flusso di dati dalla barra degli strumenti fluttuante.
  2. Attendere che la sessione di debug venga inizializzata.
  3. Dopo l'abilitazione, è possibile visualizzare in anteprima i dati di origine e trasformazione durante la creazione.

Schermata dell'area di disegno della trasformazione del flusso di dati di mapping con la modalità di debug del flusso di dati abilitata.

Annotazioni

L'inizializzazione delle sessioni di debug potrebbe richiedere alcuni minuti a seconda della disponibilità del runtime spark.

Aggiungere un'origine

Per configurare un'origine:

  1. Selezionare Aggiungi origine.
  2. Selezionare il tipo di connessione.
  3. Selezionare una connessione Fabric esistente o creare nuove connessioni direttamente tramite l'esperienza Recupera dati, se necessario.
  4. Esplorare e selezionare il file di origine, la tabella o il set di dati.

Schermata delle impostazioni di configurazione dell'origine nell'interfaccia di creazione della trasformazione del flusso di dati di mapping.

Dopo aver configurato la connessione e il set di dati di origine, usare la scheda Anteprima dati per convalidare e visualizzare in anteprima i dati di origine durante la creazione interattiva.

Screenshot della scheda Anteprima dati che mostra i dati di origine nell'esperienza di creazione della trasformazione del flusso di dati di mapping.

Aggiungere trasformazioni

Per aggiungere trasformazioni:

  1. Selezionare l'icona + accanto a un'origine o a una trasformazione.
  2. Selezionare il tipo di trasformazione.
  3. Configurare le impostazioni di trasformazione.

È possibile continuare a creare la logica di trasformazione utilizzando il canvas di trasformazione visiva.

Schermata del grafico di trasformazione visiva nell'interfaccia di creazione delle trasformazioni del flusso di dati di mapping.

Configurare un sink

Al termine della logica di trasformazione:

  1. Aggiungere una trasformazione sink.
  2. Configurare la connessione di destinazione.
  3. Configurare le impostazioni di scrittura.

Schermata della configurazione della trasformazione sink nell'interfaccia di creazione delle trasformazioni del flusso di dati di mapping.

Convalidare e salvare

Prima dell'esecuzione:

  1. Selezionare Convalida nella barra degli strumenti di trasformazione MDF.

    Screenshot del pulsante Convalida nella barra degli strumenti di trasformazione del flusso di dati di mapping.

  2. Risolvere i problemi di convalida se vengono segnalati.

  3. Selezionare Salva dal menu Salva ed esegui .

    Schermata dell'opzione Salva nel menu Salva ed esegui per una trasformazione di un flusso di dati di mapping.

Annotazioni

Solo l'azione Salva è attualmente supportata per il flusso di dati gen2 con trasformazioni MDF in anteprima pubblica.

Eseguire trasformazioni del flusso di dati di mapping tramite le pipeline di Fabric

È possibile eseguire le trasformazioni MDF tramite le pipeline di dati di Fabric usando un'attività Dataflow.

Per eseguire una trasformazione MDF:

  1. Creare una nuova pipeline di Fabric.
  2. Aggiungere un'attività Flusso di dati alla pipeline.
  3. Nelle impostazioni dell'attività selezionare l'elemento dataflow gen2 contenente la trasformazione MDF.
  4. Selezionare la query di trasformazione MDF da eseguire.
  5. Configurare le impostazioni di runtime di Spark in base alle esigenze.
  6. Convalidare e pubblicare la pipeline.
  7. Esegui la pipeline manualmente o configura una pianificazione o attivatori.

Schermata di una pipeline di Fabric con un'attività Dataflow configurata per eseguire la trasformazione di un flusso di dati di mapping.

Configurare le impostazioni di runtime di Spark

Le trasformazioni MDF vengono eseguite usando il runtime Spark gestito integrato con Data Factory in Microsoft Fabric. È possibile configurare le impostazioni di runtime di Spark durante l'esecuzione della pipeline, tra cui:

  • Dimensionamento del calcolo
  • Proprietà del ricettore

Schermata delle impostazioni di configurazione del runtime Spark per un'attività di flusso di dati in una pipeline di Fabric.

Monitorare le esecuzioni delle trasformazioni del flusso di dati di mapping

È possibile monitorare l'esecuzione della trasformazione MDF tramite:

  • Riquadro di output della pipeline

    Schermata del riquadro di output della pipeline che mostra i risultati dell'esecuzione della trasformazione del mapping del flusso di dati.

  • Hub di monitoraggio

    Schermata dell'Hub di monitoraggio che mostra le esecuzioni dell'attività per l'esecuzione di una trasformazione del flusso di dati di mapping.

Per visualizzare i dettagli di monitoraggio:

  1. Aprire i dettagli dell'esecuzione della pipeline.
  2. Selezionare l'attività Dataflow da Esecuzioni dell'attività.
  3. Esaminare lo stato di esecuzione e i dettagli del runtime.

Schermata della pagina di monitoraggio della trasformazione del flusso di dati di mapping che mostra lo stato di esecuzione e i dettagli di runtime.