Kortlægning af dataflow-transformationer i dataflow gen2 (Forhåndsvisning)

Vigtigt!

Mapping af dataflow-transformationer i dataflow gen2 er i øjeblikket i offentlig forhåndsvisning og kan ændres.

Mapping data flow (MDF)-transformationer i dataflow gen2 gør det muligt for dig at udarbejde, udføre og overvåge Spark-baserede datatransformationer direkte i Data Factory i Microsoft Fabric.

MDF-transformationer bringer kapaciteterne fra Azure Data Factory og Azure Synapse Analytics Mapping Data Flows ind i Microsoft Fabric gennem en velkendt low-code visuel forfatteroplevelse integreret med dataflow gen2.

Med MDF-transformationer kan du:

  • Migrer eksisterende Azure Data Factory og Azure Synapse Analytics Mapping Data Flows-pipelines til Fabric.
  • Skab nye Spark-baserede transformationer direkte i Fabric.
  • Udfør MDF-transformationer ved hjælp af Fabric-datapipelines.
  • Overvåg transformationsudførelsen ved hjælp af integrerede overvågningsoplevelser.
  • Fortsæt med at bruge de velkendte Mapping dataflow-transformationsmønstre inde i Fabric.

Hvad er mapping data flow-transformer?

MDF-transformationer udvider dataflow gen2 med Spark-drevne transformationskapaciteter til storskala dataforberedelse og transformationsarbejdsbyrder.

MDF-transformationer giver:

  • En low-code visuel authoring-oplevelse
  • Gnist-baseret udførelse
  • Integreret orkestrering gennem Fabric-pipelines
  • Overvågning og udførelsesindsigter direkte i Fabric

Brug MDF-transformationer til at:

  • Migrate eksisterende Azure Data Factory eller Azure Synapse Analytics Mapping Data Flows pipelines til Fabric.
  • Byg nye Spark-baserede transformationspipelines direkte i Fabric.

MDF-transformationer integreres fuldt ud med dataflow gen2 og giver en velkendt forfatteroplevelse, der ligner Azure Data Factory og Azure Synapse Analytics Mapping Data Flows.

Skærmbillede af den kortlæggende dataflow-transform-oplevelse indlejret i et dataflow gen2-lærred i Microsoft Fabric.

Understøttede scenarier

MDF-transformationer understøtter i øjeblikket følgende scenarier.

Migrer eksisterende mapping dataflows

Du kan migrere eksisterende Azure Data Factory og Azure Synapse Analytics Mapping Data Flows til Fabric ved hjælp af Azure Data Factory/Synapse Analytics indbyggede migrationsoplevelse.

Skærmbillede af Azure Data Factory-migreringsoplevelsen til opgradering af Mapping Data Flows-pipelines til Fabric.

Under migration:

  1. Mapping Data Flows konverteres til MDF-transformationer i dataflow gen2.
  2. Pipelines og transformationslogik migreres sammen.
  3. MDF transformeres åbent inde i det indlejrede transformationslærred i dataflow gen2.
  4. Eksisterende transformationslogik kan fortsat blive udarbejdet, valideret, udført og overvåget i Fabric.

Opret nye mapping dataflow-transformationer i Fabric

Du kan også oprette nye MDF-transformationer direkte i dataflow gen2. Denne erfaring gør det muligt for dig at:

  • Byg Spark-baserede transformationer ved hjælp af en visuel grænseflade.
  • Brug de velkendte transformationsfunktioner til Mapping dataflow.
  • Udfør transformationer ved hjælp af Fabric-datapipelines.
  • Overvåg udførelsen gennem integrerede overvågningsoplevelser.

Forudsætninger

Før du bruger MDF-transformationer i dataflow gen2, skal du sikre dig, at følgende forudsætninger er opfyldt:

  • En Fabric-kapacitet.
  • Bidragyder eller højere rettigheder til Fabric-arbejdsområdet.
  • Eksisterende Fabric-forbindelser til understøttede datakilder.
  • (Valgfrit) Et eksisterende Azure Data Factory eller Azure Synapse Analytics workspace, hvis du bruger migrationsscenarier.

Begrænsninger

Følgende funktioner understøttes i øjeblikket ikke i offentlig forhåndsvisning:

Areal Begrænsning
Flowlets Understøttes ikke.
dataflow Library Understøttes ikke.
Brugerdefinerede funktioner (UDF'er) Understøttes ikke.
Dataflow-udførelse MDF-transformationer kan kun udføres gennem pipeline Dataflow-aktiviteten. Direkte udførelse fra dataflow gen2 understøttes ikke i øjeblikket. Kun gem-handlingen er tilgængelig fra Gem & kør-menuen .
Administreret virtuelt netværk Managed virtuelt netværk (Managed VNet) understøttelse er ikke tilgængelig i denne forhåndsvisning.
Kørselstidsudførelse MDF transform execution bruger i øjeblikket den underliggende Synapse Spark runtime, lignende Azure Data Factory og Azure Synapse Analytics Mapping Data Flows.
Funktionsparitet Ikke alle Mapping dataflow-funktioner er tilgængelige i denne forhåndsvisning.

Understøttede stik

MDF-transforms understøtter de mest almindeligt anvendte source- og sink-connectors, der findes i Azure Data Factory og Azure Synapse Analytics Mapping Data Flows.

Følgende stik understøttes i øjeblikket:

Kategori Datalager MDF-transformationer i dataflow gen2 (kilde/sænkning) Understøttede autentificeringstyper
Azure Azure Blob Storage ✓/✓ Grundlæggende, Managed Identity / Workspace Identity, Service Principal
Azure Cosmos DB til NoSQL ✓/✓ Basic
Azure Data Explorer ✓/✓ Administreret identitet / arbejdsområdeidentitet
Azure Data Lake Storage Gen1 ✓/✓ Grundlæggende, Managed Identity / Workspace Identity, Service Principal
Azure Data Lake Storage Gen2 ✓/✓ Grundlæggende, Managed Identity / Workspace Identity, Service Principal
Azure Database for MySQL ✓/✓ Basic
Azure Database for PostgreSQL ✓/✓ Basic
Azure Databricks Delta Lake ✓/✓ Brug delta-format Basic
Azure SQL Database ✓/✓ Grundlæggende, Managed Identity / Workspace Identity, Service Principal
Administreret forekomst af Azure SQL ✓/✓ Grundlæggende, Managed Identity / Workspace Identity, Service Principal
Azure Synapse Analytics ✓/✓ Basic
Database Snowflake ✓/✓ Basic
Filer Amazon S3 ✓/✓ Basic
SFTP ✓/✓ Basic
Generisk REST ✓/✓ Grundlæggende, tjenesteleder

Under forfatterskabet:

  • Eksisterende Fabric-forbindelser kan genbruges.
  • Nye forbindelser kan skabes direkte fra forfatteroplevelsen ved hjælp af Get Data-oplevelsen .
  • Konfiguration af kilde og sluk følger de velkendte mønstre for Mapping dataflow.

Understøttede transformationer

MDF-transformationer giver en velkendt low-code visuel transformationsoplevelse til at opbygge skalerbare Spark-baserede datatransformationspipelines i Fabric.

Følgende transformationer understøttes i øjeblikket:

Navn Kategori Beskrivelse
Aggregering Skemaændring Definér aggregationer som SUM, MIN, MAX og COUNT grupperet efter eksisterende eller beregnede kolonner.
Alter-række Rækkemodifikator Angiv politikker for indsættelse, sletning, opdatering og upsert for rækker.
Hævde Rækkemodifikator Definér assert-regler for rækker i datastrømmen.
Medvirkende Skemaændring Skift kolonnedatatyper med typekontrol.
Betinget splittelse Flere input/output Rut rækker til forskellige vandløb baseret på matchende forhold.
Afledt kolonne Skemaændring Generer nye kolonner eller ændr eksisterende felter ved hjælp af udtryk.
Ekstern kald Skemaændring Kald eksterne endepunkter inline for hver række.
Findes Flere input/output Tjek om data findes i en anden kilde eller strøm.
Filtrer Rækkemodifikator Filtrer rækker baseret på betingelser.
Flatten Formatters Udflad hierarkiske strukturer som JSON-arrays til rækker.
Tilmeld dig Flere input/output Kombiner data fra to kilder eller streams.
Lookup Flere input/output Referer til data fra en anden kilde eller strøm.
Ny gren Flere input/output Anvend flere transformationsveje på den samme strøm.
Opdel tekst Formatters Parse JSON, afgrænset tekst eller XML-formaterede strenge.
Pivot Skemaændring Omdann forskellige rækkeværdier til kolonner.
Ranger Skemaændring Generer ordnede placeringer baseret på sorteringsbetingelser.
Markér Skemaændring Omdøb, omarranger eller fjern kolonner.
Synke - Definér destinationen for de transformerede data.
Sortere Rækkemodifikator Sorter rækker i den aktuelle datastrøm.
Source - Definér kilden til dataflowet.
Stringify Formatters Konverter komplekse typer til strengværdier.
Erstatningsnøgle Skemaændring Generer stigende surrogatnøgleværdier.
Unionen Flere input/output Kombiner flere datastrømme lodret.
Fjernpivot Skemaændring Omdann kolonner til rækkeværdier.
Vindue Skemaændring Definér vinduesbaserede aggregationer over datastrømme.

Opret en mapping dataflow-transform i dataflow gen2

For at skabe en ny MDF-transformation i Fabric:

  1. Åbn dit Fabric-arbejdsområde.

  2. Vælg Nyt element.

  3. Vælg Dataflow Gen2.

  4. Angiv et navn til dataflow-gen2-elementet og vælg Opret det.

  5. I dataflow gen2-lærredet kan du bruge en af følgende muligheder:

    • Vælg Kør Mapping dataflow-transformationer fra New action-grupperingen i dataflow gen2 home ribbon.
    • Vælg flisen Run Mapping data flow transforms (ADF Mapping Data Flows) fra lærredet.

    Skærmbillede viser mulighed for at oprette en mapping dataflow-transform fra dataflow gen2-båndet i Microsoft Fabric.

    Skærmbillede viser mulighed for at oprette en mapping dataflow-transformation fra dataflow gen2 lærredflisen i Microsoft Fabric.

En ny MDF-transformationshandling vises på dataflow gen2-lærredet og åbner den indlejrede MDF-transform-forfatteroplevelse.

Tip

MDF transform authoring-oplevelsen bruger en velkendt visuel grænseflade, der ligner Azure Data Factory og Azure Synapse Analytics Mapping Data Flows.

Forfatterkortlægning af dataflow-transformationer

Når du har oprettet en MDF-transformation, kan du begynde at udarbejde transformationslogik.

Aktivér debug-tilstand

For interaktiv forfatterskab og dataforhåndsvisning:

  1. Slå Data flow debug-knappen til fra den flydende værktøjslinje.
  2. Vent på, at debug-sessionen initialiseres.
  3. Når det er aktiveret, kan du forhåndsvise kilde- og transformationsdata under forfatterskabet.

Skærmbillede af mapping data flow transform canvas med Data flow debug mode aktiveret.

Bemærkning

Debug-sessioner kan tage flere minutter at initialisere afhængigt af Spark-runtime-tilgængeligheden.

Tilføj en kilde

For at konfigurere en kilde:

  1. Vælg Tilføj kilde.
  2. Vælg forbindelsestypen.
  3. Vælg en eksisterende Fabric-forbindelse eller opret nye forbindelser direkte gennem Get Data-oplevelsen, hvis det er nødvendigt.
  4. Gennemse og vælg kildefilen, tabellen eller datasættet.

Skærmbillede af kildekonfigurationsindstillingerne i mapping data flow-transformeringsoplevelsen.

Efter du har konfigureret kildeforbindelsen og datasættet, brug fanen Data preview-menuen til at validere og forhåndsvise kildedataene under interaktiv authoring.

Skærmbillede af fanen Data preview, der viser kildedata i mapping data flow transform authoring experience.

Tilføj transformationer

For at tilføje transformationer:

  1. Vælg + ikonet ved siden af en kilde eller transformation.
  2. Vælg transformationstypen.
  3. Konfigurer transformationsindstillinger.

Du kan fortsætte med at bygge transformationslogik ved hjælp af det visuelle transformationslærred.

Skærmbillede af den visuelle transformationsgraf i mapping data flow transform-forfatteroplevelsen.

Konfigurér en vask

Efter transformationslogikken er fuldført:

  1. Tilføj en vask-transformation.
  2. Konfigurer destinationsforbindelsen.
  3. Konfigurer skriveindstillinger.

Skærmbillede af sink-transformationskonfigurationen i mapping data flow transform-forfatteroplevelsen.

Valider og gem

Før henrettelsen:

  1. Vælg Valider fra MDF-transformværktøjslinjen.

    Skærmbillede af Valider-knappen i mappingdataflow-transformværktøjslinjen.

  2. Løs valideringsproblemer, hvis nogen rapporteres.

  3. Vælg Gem fra Gem og kør menuen.

    Skærmbillede af Gem-muligheden i Gem og kør-menuen for en mapping dataflow-transformation.

Bemærkning

Kun Gem-handlingen understøttes i øjeblikket for dataflow gen2 med MDF-transformationer i offentlig forhåndsvisning.

Udfør mapping af dataflow-transformationer ved hjælp af Fabric-pipelines

Du udfører MDF-transformationer gennem Fabric datapipelines ved hjælp af en Dataflow-aktivitet.

For at udføre en MDF-transformation:

  1. Opret en ny Fabric-pipeline.
  2. Tilføj en Dataflow-aktivitet til pipelinen.
  3. I aktivitetsindstillingerne skal du vælge dataflow-gen2-elementet, der indeholder MDF-transformen.
  4. Vælg MDF-transformforespørgslen for at udføre.
  5. Konfigurer Spark-runtime-indstillinger efter behov.
  6. Valider og publicér pipelinen.
  7. Kør pipelinen manuelt eller konfigurer en tidsplan eller triggere.

Skærmbillede af en Fabric-pipeline med en Dataflow-aktivitet konfigureret til kortlægning af dataflow-transform.

Konfigurer Spark-runtime-indstillinger

MDF-transformationer udføres ved hjælp af managed Spark-runtime integreret med Data Factory i Microsoft Fabric. Du kan konfigurere Spark-runtime-indstillinger under pipeline-eksekvering, herunder:

  • Beregningsdimensionering
  • Slukegenskaber

Skærmbillede af Spark-runtime-konfigurationsindstillingerne for en Dataflow-aktivitet i en Fabric-pipeline.

Overvåg udførelser af mapping dataflow-transformer

Du kan overvåge MDF-transformudførelsen gennem:

  • Pipeline-outputpanelet

    Skærmbillede af pipeline-outputpanelet, der viser resultaterne af udførelsen af mapping dataflow-transformen.

  • Overvågningshubben

    Skærmbillede af Monitoring Hub, der viser aktivitet, kører for en mapping dataflow-transform.

For at se overvågningsdetaljer:

  1. Åbn detaljerne om pipeline-kørslen.
  2. Vælg Dataflow-aktiviteten fra Activity Runs.
  3. Gennemgå eksekveringsstatus og detaljer under kørselstid.

Skærmbillede af overvågningssiden for mapping data flow transform, der viser eksekveringsstatus og runtime-detaljer.