Erstellen von Pipelines

Erstellen Sie Pipelines in Lakeflow Spark Declarative Pipelines, indem Sie Daten laden und transformieren, Datenqualitätsprüfungen anwenden und Ergebnisse in Ihre Zieltabellen schreiben. Die folgenden Themen behandeln die Aufgaben, die beim Erstellen und Ausführen von Pipelines anfallen.

Informationen zu den deklarativen Konzepten hinter Pipelines (Datasets, Flüssen und dem Pipelinediagramm) finden Sie unter "What is Lakeflow Spark Declarative Pipelines". Eine schrittweise exemplarische Vorgehensweise finden Sie im Lernprogramm: Erstellen einer ETL-Pipeline mithilfe der Änderungsdatenerfassung.

Thema Description
Entwickeln im Lakeflow Pipelines Editor Pipelines im Editor erstellen, ausführen und debuggen – mit einem Pipeline-Graphen, Datenvorschauen und selektiver Ausführung.
Verwenden von Genie Code für die Pipelineentwicklung Generieren, bearbeiten und debuggen Sie Pipelinecode aus einer einzigen Eingabeaufforderung mit dem Modus "Genie Code Agent" im Editor.
Verwalten von Identitäten und Berechtigungen Steuern Sie, mit welcher Identität eine Pipeline ausgeführt wird und wer Pipelines und ihre Ausgabe erstellen, ausführen, aktualisieren und anzeigen kann.
Laden von Daten Nehmen Sie Daten aus Cloud-Objektspeichern und Streaming-Nachrichtenbussen in Ihre Pipeline auf.
Transformieren von Daten Wenden Sie Transformationen, Verknüpfungen und Aggregationen an, um abgeleitete Datasets zu erstellen.
Vollständige Aktualisierung für Streamingtabellen Verarbeiten Sie alle Quelldaten erneut, um eine Streamingtabelle neu zu erstellen.
Datenqualität Überprüfen Sie Datensätze mit Erwartungen und steuern Sie, was passiert, wenn ein Datensatz fehlschlägt.
Datensätze schreiben Schreiben Sie Pipelineergebnisse in Senken wie Apache Kafka und Azure Event Hubs, und verwenden Sie Datenflüsse, um in Streamingziele zu schreiben.

Weitere Ressourcen