Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
Flusso di dati Gen2 consente di modellare e trasformare i dati con facilità. Offre un'interfaccia a basso codice e oltre 300 trasformazioni di dati e intelligenza artificiale predefinite, tutte basate sull'esperienza di Power Query familiare disponibile in Excel, Power BI, Power Platform e Dynamics 365. Dataflow Gen2 supporta anche l'esecuzione della trasformazione basata su Spark tramite trasformazioni MDF (Mapping Data Flow) per carichi di lavoro nativi ed migrati.
Quando si pubblica un flusso di dati, viene creata una definizione eseguita durante l'aggiornamento. Il motore Dataflow Gen2 usa tale definizione per pianificare e gestire il modo in cui le query vengono eseguite tra origini dati, gateway e motori di calcolo. Compila tabelle nella memoria temporanea o le invia alla destinazione scelta, in modo da ottenere risultati affidabili senza dover affrontare pesanti carichi di lavoro.
Il diagramma rappresenta i componenti dell'architettura Data Factory Dataflow Gen2, tra cui il Lakehouse utilizzato per preparare i dati acquisiti e l'elemento Warehouse utilizzato come motore di calcolo per scrivere i risultati nel staging o nell'output in modo più rapido. Quando non è possibile usare il calcolo del Warehouse o quando lo staging è disabilitato per una query, il motore Mashup estrae, trasforma o carica i dati in destinazioni di staging o di dati. Per altre informazioni sul funzionamento di Dataflow Gen2, vedere questo blog: Data Factory Spotlight: DataFlow Gen2.
Dataflow Gen2 può eseguire carichi di lavoro utilizzando il motore Mashup o il motore Spark. Quando le trasformazioni MDF vengono usate all'interno di Dataflow Gen2, le risorse di calcolo basate su Spark vengono usate per l'esecuzione della trasformazione e l'elaborazione dei dati.
Quando si aggiorna o si pubblica un elemento Dataflow Gen2, le unità di capacità Fabric vengono utilizzate per i seguenti engine:
- Calcolo standard: il costo è addebitato in base al tempo di valutazione delle query in tutte le tue query Dataflow eseguite tramite il motore Mashup.
- Calcolo del flusso di dati a elevata scalabilità: viene addebitato quando lo staging è abilitato, in base alla durata del consumo del motore SQL di Lakehouse (memoria temporanea) e del motore SQL di Warehouse (capacità di calcolo).
- Copia rapida: vengono addebitati costi quando i connettori di copia rapida sono abilitati e possono essere usati nel flusso di dati, in base alla durata del processo di copia.
- Elaborazione Spark: ti vengono addebitati costi in base alla durata dell'esecuzione di Spark e all'utilizzo dei core Spark quando le trasformazioni MDF vengono eseguite durante l'esecuzione delle pipeline. I carichi di lavoro di trasformazione MDF in Dataflow Gen2 vengono attualmente eseguiti tramite l'attività Dataflow della pipeline di Fabric.
Modello di prezzi di Dataflow Gen2
Come vengono determinate le tariffe dei prezzi
I prezzi di Dataflow Gen2 dipendono dal modo in cui ogni query usa il calcolo. Per il calcolo standard, le query vengono eseguite nel motore mashup. A seconda che il flusso di dati sia Dataflow Gen2 (CI/CD), la classificazione varia.
In Dataflow Gen2 (CI/CD) è presente una frequenza a due livelli applicata alla durata della query:
- Se una query viene eseguita in meno di 10 minuti, viene valutata con una valutazione di 12 CU
- Se viene eseguito più a lungo, ogni secondo aggiuntivo viene valutato a 1,5 CU.
Se il Dataflow Gen2 non è CI/CD, il tasso è di 16 CU applicato all'intera durata della query.
Negli scenari su larga scala, quando lo staging è attivato, le query vengono eseguite nel motore SQL di Lakehouse o Warehouse. Ogni secondo del tempo di calcolo usa 6 secondi cu, quindi le query più lunghe consumano di più.
Se si attiva la copia veloce, esiste una velocità separata per lo spostamento dei dati: 1,5 CU, in base al tempo di esecuzione dell'attività.
Per i carichi di lavoro di trasformazione MDF, viene addebitato un costo di 1,5 CU per core-hour di Spark in base alla durata dell'esecuzione Spark e al numero di core Spark allocati per l'esecuzione.
Al termine di ogni esecuzione, Dataflow Gen2 somma l'utilizzo dei CU da ogni motore e lo fattura in base al pricing della capacità del Fabric nella tua regione.
Tabella tasso CU
| Tipo di motore Dataflow Gen2 | Contatori del consumo | Tasso di consumo di CU Fabric | Granularità dei report sul consumo |
|---|---|---|---|
| Calcolo Standard (Dataflow Gen2 (CI/CD)) | Basato sulla durata dell'esecuzione delle query del motore mashup, espressa in secondi. Il calcolo Standard prevede due piani tariffari a seconda della durata della query. | - Per ogni secondo fino a 10 minuti, 12 CU - Per ogni secondo oltre 10 minuti, 1,5 CU |
Per elemento Dataflow Gen2 |
| Computazione standard (non CI/CD) | Basato sulla durata dell'esecuzione delle query del motore mashup, espressa in secondi. | 16 CU | Per elemento Dataflow Gen2 |
| Calcolo dei flussi di dati su larga scala | In base alla durata in secondi dell'esecuzione del motore SQL del Lakehouse/Warehouse (con staging abilitato). | 6 Unità di Controllo | Per l'area di lavoro |
| Spostamento dei dati | In base alla durata dell'esecuzione di Copia veloce in secondi e alle risorse di throughput usate per l'ottimizzazione intelligente. | 1,5 CU | Per elemento Dataflow Gen2 |
| Trasformazioni di calcolo di Mapping Flusso di dati (Anteprima) | In base alla durata dell'esecuzione della trasformazione MDF in secondi usando il calcolo basato su Spark all'interno di Dataflow Gen2. | 1.5 CU per ora core Spark Esempio: un cluster Spark a 8 core usa 12 CU per ogni ora di esecuzione (8 × 1,5 CU). |
Per elemento Dataflow Gen2 |
Prezzi del Gateway Dati della Rete Virtuale con Dataflow Gen2
Il gateway dati della rete virtuale (VNET) viene fatturato come costo aggiuntivo dell'infrastruttura, associato a una capacità Fabric. Ciò significa che ha un proprio contatore e comporta una fattura coerente e aggiuntiva per l'utilizzo degli articoli Fabric.
Il costo totale per l'esecuzione di Dataflow Gen2 tramite il Gateway dati della rete virtuale viene calcolato come segue: costo di Dataflow Gen2 + costo del Gateway dati della rete virtuale.
Il costo del Gateway dati di rete virtuale è proporzionale al relativo utilizzo, dove per utilizzo si intende il tempo di attività, ovvero qualsiasi periodo in cui il Gateway dati di rete virtuale è attivo.
Rete virtuale frequenza di utilizzo CU del gateway dati: 4 CU
Per altre informazioni, si veda Prezzi e fatturazione dei gateway dati di Rete virtuale.
Modifiche al tasso di consumo del carico di lavoro di Microsoft Fabric
Le tariffe a consumo sono soggette a variazioni in qualsiasi momento. Microsoft farà del suo meglio per fornire comunicazioni e-mail o tramite notifica nel prodotto. Le modifiche sono valide alla data indicata nelle note sulla versione e nel blog di Microsoft Fabric. Se una modifica a una tariffa a consumo del carico di lavoro di Microsoft Fabric aumenta materialmente le unità di capacità (CU) necessarie per usare un determinato carico di lavoro, i clienti possono usare le opzioni di annullamento disponibili per il metodo di pagamento scelto.
Calcolare i costi stimati usando l'app per le metriche dell'infrastruttura e la cronologia dell'aggiornamento del flusso di dati
L'app Microsoft Fabric Capacity Metrics offre visibilità sull'utilizzo della capacità per tutte le aree di lavoro di Fabric associate a una capacità. Viene usato dagli amministratori della capacità per monitorare le prestazioni dei carichi di lavoro e il relativo utilizzo rispetto alla capacità acquistata. L'uso dell'app Metriche è il modo più accurato per stimare i costi delle esecuzioni dell'aggiornamento di Dataflow Gen2. Per comprendere in che modo i prezzi a livelli influiscono sui costi di calcolo standard, è necessario usare anche la cronologia degli aggiornamenti del flusso di dati.
Questi esercizi illustrano come convalidare i costi per i flussi di dati CI/CD e non CI/CD. Per il flusso di dati CI/CD con calcolo standard, verrà usato un esempio e verranno fornite istruzioni per tutti gli altri scenari.
Esercizio 1: Calcolo standard per un flusso di dati CI/CD
Il flusso di dati seguente include due query che comportano la trasformazione e lo staging dei dati è disabilitato.
Dataflow Gen2 userà solo l'ambiente di calcolo Standard.
Per ogni query, accedere alla durata della query dalla cronologia dei refresh e applicare la seguente formula per calcolare il consumo di CU per ogni query.
Per la prima query, la durata è di 2.131 secondi.
Analogamente, per la seconda query, la durata è di 913 secondi
StandardComputeCapacityConsumptionInCUSeconds = if(QueryDurationInSeconds < 600, QueryDurationInSeconds x 12, (QueryDurationInSeconds - 600) x 1.5 + 600 x 12)
Per la query 1, il consumo calcolato è di 9497 secondi cu e per la query 2, il consumo calcolato è di 7670 secondi cu.
Aggregare il consumo di capacità in secondi CU e convalidare il consumo di capacità nell'app Metriche di Capacità Fabric. In questo scenario, l'app per le metriche mostra 17.180 secondi cu come utilizzo standard di calcolo che confronta bene con il consumo calcolato di 17.167 secondi cu. Eventuali discrepanze potrebbero essere dovute all'arrotondamento nella segnalazione periodica dell'utilizzo.
Esercizio 2: Calcolo standard per un flusso di dati non CI/CD
Quando il flusso di dati comporta la trasformazione e la gestione temporanea è disabilitata, Dataflow Gen2 userà solo l'ambiente di calcolo Standard.
Per ogni query, accedere alla durata della query dalla cronologia dei refresh e applicare la seguente formula per calcolare il consumo di CU per ogni query.
StandardComputeCapacityConsumptionInCUSeconds = QueryDurationInSeconds x 16
Aggregare il consumo di capacità in secondi CU e convalidare il consumo di capacità nell'app Metriche di Capacità Fabric.
Esercizio 3: Comprendere il consumo di calcolo a scalabilità elevata - flussi di dati CI/CD e non CI/CD
Se il flusso di dati usa la gestione temporanea, per determinare la quantità di calcolo a scalabilità elevata usata, aprire l'app per le metriche di capacità Fabric e filtrare in base al nome del flusso di dati. Fare clic con il pulsante destro del mouse sul nome, cercare Calcolo a scalabilità elevata nell'elenco delle operazioni e controllare la durata.
HighScaleComputeCapacityConsumptionInCUSeconds = QueryDurationInSeconds x 6
Esercizio 4: Comprendere il consumo delle risorse di calcolo della copia rapida (flussi di dati CI/CD e non CI/CD)
Se il flusso di dati usa una copia rapida, per scoprire la quantità di calcolo dello spostamento dati usata, aprire l'app per le metriche di capacità Fabric e filtrare in base al nome del flusso di dati. Fare clic con il pulsante destro del mouse sul nome, cercare l'opzione Spostamento dati nell'elenco delle operazioni e verificare la durata.
FastCopyComputeCapacityConsumptionInCUSeconds = QueryDurationInSeconds x 1.5
Esercizio 5: Comprendere il consumo di calcolo della trasformazione nel flusso di dati di mapping
Se il tuo Dataflow Gen2 utilizza trasformazioni MDF, puoi esaminare il consumo di calcolo Spark tramite l'app Fabric Capacity Metrics filtrando per il nome dell'elemento Dataflow Gen2 e verificando le operazioni di esecuzione relative a Spark associate a tale esecuzione.
MDFTransformComputeConsumptionInCUSeconds = (SparkExecutionDurationInSeconds × NumberOfSparkCores × 1.5) / 3600
Example:
Esecuzione di 30 minuti con 8 core Spark:
(1800 × 8 × 1.5) / 3600 = 6 CU-seconds
Altre considerazioni:
- Il tempo di avvio del runtime Spark contribuisce alla durata totale dell'esecuzione.
- Il consumo di calcolo per le trasformazioni MDF è distinto dal consumo di calcolo di Mashup Engine, Fast Copy e High Scale Compute.
- Le sessioni di debug delle trasformazioni MDF usano una configurazione Spark a 8 core fissa e usano 12 CU per ogni ora di runtime.