Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Erstellen Sie Pipelines in Lakeflow Spark Declarative Pipelines, indem Sie Daten laden und transformieren, Datenqualitätsprüfungen anwenden und Ergebnisse in Ihre Zieltabellen schreiben. Die folgenden Themen behandeln die Aufgaben, die beim Erstellen und Ausführen von Pipelines anfallen.
Informationen zu den deklarativen Konzepten hinter Pipelines (Datasets, Flüssen und dem Pipelinediagramm) finden Sie unter "What is Lakeflow Spark Declarative Pipelines". Eine schrittweise exemplarische Vorgehensweise finden Sie im Lernprogramm: Erstellen einer ETL-Pipeline mithilfe der Änderungsdatenerfassung.
| Thema | Description |
|---|---|
| Entwickeln im Lakeflow Pipelines Editor | Pipelines im Editor erstellen, ausführen und debuggen – mit einem Pipeline-Graphen, Datenvorschauen und selektiver Ausführung. |
| Verwenden von Genie Code für die Pipelineentwicklung | Generieren, bearbeiten und debuggen Sie Pipelinecode aus einer einzigen Eingabeaufforderung mit dem Modus "Genie Code Agent" im Editor. |
| Verwalten von Identitäten und Berechtigungen | Steuern Sie, mit welcher Identität eine Pipeline ausgeführt wird und wer Pipelines und ihre Ausgabe erstellen, ausführen, aktualisieren und anzeigen kann. |
| Laden von Daten | Nehmen Sie Daten aus Cloud-Objektspeichern und Streaming-Nachrichtenbussen in Ihre Pipeline auf. |
| Transformieren von Daten | Wenden Sie Transformationen, Verknüpfungen und Aggregationen an, um abgeleitete Datasets zu erstellen. |
| Vollständige Aktualisierung für Streamingtabellen | Verarbeiten Sie alle Quelldaten erneut, um eine Streamingtabelle neu zu erstellen. |
| Datenqualität | Überprüfen Sie Datensätze mit Erwartungen und steuern Sie, was passiert, wenn ein Datensatz fehlschlägt. |
| Datensätze schreiben | Schreiben Sie Pipelineergebnisse in Senken wie Apache Kafka und Azure Event Hubs, und verwenden Sie Datenflüsse, um in Streamingziele zu schreiben. |
Weitere Ressourcen
- Optimierung der zustandsbehafteten Verarbeitung mit Wasserzeichen
- Inkrementelle Aktualisierung für materialisierte Ansichten
- Zugreifen auf materialisierte Ansichten und Streamingtabellen mithilfe externer Systeme
- Entwickeln und Debuggen von Pipelines mit einem Notizbuch (Legacy)
- Entwickeln von Pipelinecode in Ihrer lokalen Entwicklungsumgebung
- Verwenden von Parametern mit Pipelines
- Konvertieren einer Pipeline in ein Bündelprojekt
- Vorbereiten Ihrer Daten für die DSGVO-Compliance