Hinweis
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, sich anzumelden oder das Verzeichnis zu wechseln.
Für den Zugriff auf diese Seite ist eine Autorisierung erforderlich. Sie können versuchen, das Verzeichnis zu wechseln.
Diese Seite bietet eine Übersicht über die Verwendung von Databricks-to-Databricks OpenSharing, um Daten sicher mit jedem Databricks-Benutzer zu teilen, unabhängig von Konto oder Cloudhost, solange dieser Benutzer Zugriff auf einen Arbeitsbereich hat, der für Unity-Katalog aktiviert ist.
Wer sollte Databricks-to-Databricks OpenSharing verwenden?
Es gibt drei Möglichkeiten zum Freigeben von Daten mithilfe von OpenSharing.
Mit dem Databricks-zu-Databricks-Freigabeprotokoll, das in diesem Artikel besprochen wurde, können Sie Daten aus Ihrem Unity Catalog-fähigen Arbeitsbereich für Benutzer*innen freigeben, die ebenfalls Zugriff auf einen Unity Catalog-fähigen Databricks-Arbeitsbereich haben.
Dieser Ansatz verwendet den in Azure Databricks integrierten OpenSharing-Server und bietet Unterstützung für die Notizbuchfreigabe, Unity Catalog-Datengovernance, Überwachung und Nutzungsnachverfolgung für Anbieter und Empfänger. Die Integration in Unity Catalog vereinfacht die Einrichtung und Governance für Anbieter und Empfänger und verbessert die Leistung.
Mit dem Databricks-to-Open-Freigabeprotokoll können Sie Daten freigeben, die Sie in einem Unity Catalog-fähigen Databricks-Arbeitsbereich für Benutzer auf jeder Computerplattform verwalten.
Siehe Was ist das OpenSharing-Databricks-zu-Open-Sharing-Protokoll?.
Mit einer kundenseitig verwalteten Implementierung des Open-Source-Servers OpenSharing können Sie Daten von jeder Plattform für jede Plattform freigeben, unabhängig davon, ob mit Databricks oder ohne.
Siehe das Open-Source-Projekt.
Eine Einführung in OpenSharing und weitere Informationen zu diesen drei Ansätzen finden Sie unter What is OpenSharing?.
Databricks-to-Databricks OpenSharing-Workflow
Dieser Abschnitt bietet eine allgemeine Übersicht über den Databricks-zu-Databricks-Freigabeworkflow mit Links zu ausführlichen Dokumentationen für jeden Schritt.
Im Databricks-to-Databricks OpenSharing-Modell:
Ein Datenempfänger gibt einem Datenanbieter den eindeutigen Freigabebezeichner für den Unity Catalog-Metastore in Databricks, der an den Databricks-Arbeitsbereich angefügt ist, den der Empfänger (der einen Benutzer oder eine Benutzergruppe darstellt) verwendet, um auf die vom Datenanbieter freigegebenen Daten zuzugreifen.
Ausführliche Informationen finden Sie unter Schritt 1: Anfordern des Freigabebezeichners des Empfängers.
Der Datenanbieter erstellt eine Freigabe im Unity Catalog-Metastore des Anbieters. Dieses benannte Objekt enthält eine Sammlung von Tabellen, Ansichten, Volumes und Notizbüchern, die im Metastore registriert sind.
Ausführliche Informationen finden Sie unter Erstellen von Freigaben für OpenSharing.
Der Datenanbieter erstellt ein Empfängerobjekt im Unity Catalog-Metaspeicher des Anbieters. Dieses benannte Objekt stellt den Benutzer oder die Gruppe von Benutzern dar, die auf die in der Freigabe enthaltenen Daten zugreifen, zusammen mit dem Freigabebezeichner des Unity Catalog-Metastores, der an den Arbeitsbereich angefügt ist, den der Benutzer bzw. die Benutzergruppe für den Zugriff auf die Freigabe verwendet. Der Freigabebezeichner ist die Schlüsselkennung, die die sichere Verbindung ermöglicht.
Ausführliche Informationen finden Sie unter Schritt 2: Erstellen des Empfängers.
Der Datenanbieter gewährt dem Empfänger Zugriff auf die Freigabe.
Ausführliche Informationen finden Sie unter Verwalten des Zugriffs auf OpenSharing-Datenfreigaben (für Anbieter).
Die Freigabe ist im Databricks-Arbeitsbereich des Empfängers verfügbar, und der Empfänger kann mithilfe des Katalog-Explorers, der Databricks CLI oder von SQL-Befehlen in einem Azure-Databricks-Notebook oder dem Databricks SQL-Abfrage-Editor darauf zugreifen.
Um auf die Tabellen, Ansichten und Notebooks in einer Freigabe zuzugreifen, muss ein*e Metastore-Administrator*in oder privilegierte*r Benutzer*in einen Katalog aus der Freigabe erstellen. Anschließend können die Benutzer*innen oder andere Benutzer*innen, denen die entsprechenden Berechtigungen gewährt werden, anderen Benutzer*innen Zugriff auf den Katalog und die Objekte im Katalog gewähren. Das Erteilen von Berechtigungen für freigegebene Kataloge und Datenressourcen funktioniert genauso wie bei allen anderen Ressourcen, die im Unity-Katalog registriert sind, mit dem wichtigen Unterschied, dass Benutzern nur Lesezugriff auf Objekte in Katalogen gewährt werden kann, die aus OpenSharing-Freigaben erstellt werden.
Freigegebene Notebooks befinden sich auf Katalogebene, und jeder Benutzer mit den
USE CATALOG-Berechtigungen für den Katalog kann darauf zugreifen.Ausführliche Informationen finden Sie unter Lesen von Daten, die mithilfe von Databricks-to-Databricks OpenSharing (für Empfänger) freigegeben wurden.
Verbesserung der Leistung beim Lesen von Tabellen durch Teilen der Verlaufsgeschichte
Tabellenfreigaben von Databricks zu Databricks können die Leistung verbessern, indem die Verlaufsfreigabe aktiviert wird. Die gemeinsame Nutzung von Sicherheitsinformationen verbessert die Leistung, indem temporäre Sicherheitsanmeldeinformationen aus Ihrem Cloud-Speicher verwendet werden. Diese sind auf das Stammverzeichnis der freigegebenen Delta-Tabelle des Anbieters beschränkt, was zu einer Leistung führt, die mit dem direkten Zugriff auf Quelltabellen vergleichbar ist.
- Geben Sie für neue Tabellenfreigaben
WITH HISTORYbeim Erstellen der Tabellenfreigabe an. Weitere Informationen finden Sie unter Hinzufügen von Tabellen zu einer Freigabe. Wenn Sie eine Tabelle mithilfe der Berechnung für Databricks Runtime 16.2 und höher freigeben, istWITH HISTORYdie Standardeinstellung. - Bei vorhandenen Tabellenfreigaben müssen Sie die Freigabe ändern, um den Tabellenverlauf freizugeben. Weitere Informationen finden Sie unter Aktualisieren von Freigaben. Wenn Sie eine Tabelle mithilfe der Berechnung für Databricks Runtime 16.2 und höher freigeben, ist
WITH HISTORYdie Standardeinstellung.
Wenn Sie ein gesamtes Schema freigeben, werden alle Tabellen im Schema standardmäßig mit Verlaufshistorie freigegeben.
Hinweis
Tabellen mit aktivierter Partitionierung profitieren nicht von den Leistungsvorteilen der Verlaufsfreigabe. Weitere Informationen finden Sie unter Angeben der freizugebenden Tabellenpartitionen.
Informationen zu Anforderungen an die Berechtigung von Cloudtoken und Datenschutzaspekten finden Sie unter Cloudtokenberechtigung.
Unterstützungsmatrix für Databricks-to-Databricks OpenSharing in Cloudumgebungen
Databricks-to-Databricks OpenSharing unterstützt die Freigabe innerhalb desselben Umgebungstyps. Kommerzielle Clouds umfassen Arbeitsbereiche mit aktivierten Compliancesteuerelementen, z. B. FedRAMP Moderate. Das Teilen mit Azure Government-Umgebungen wird nicht unterstützt.
Important
Das Teilen über regulatorische Domänen ist in der eingeschränkten Public Preview verfügbar. Wenden Sie sich an Ihr Databricks-Kontoteam, um zu beginnen.
In dieser Matrix stellt jede Zeile die Anbieterumgebung (die Metastorefreigabedaten) dar, und jede Spalte stellt die Empfängerumgebung (den Metastore, der freigegebene Daten empfängt) dar.
| Anbieter | Empfänger: Kommerzielle Cloud-Dienste | Empfänger: AWS GovCloud | Empfänger: AWS GovCloud DoD | Empfänger: Azure China |
|---|---|---|---|---|
| Kommerzielle Cloud-Dienste | ✓ | ✓ | ✓ | ✓ |
| AWS GovCloud | ✓ | ✓ | ✓ | |
| AWS GovCloud DoD | ✓ | ✓ | ✓ | |
| Azure China | ✓ | ✓ |
Einschränkungen
Die folgenden Einschränkungen gelten für die domänenübergreifende Freigabe zwischen Regulierungsbereichen:
-
Cloud-Token werden verwendet, es sei denn, eine Freigabe wechselt in AWS GovCloud oder AWS GovCloud DoD hinein oder daraus hinaus. In den folgenden Fällen werden Tabellen stattdessen mit vorsignierten URLs gemeinsam verwendet:
- Eine kommerzielle Cloud gibt entweder Freigaben für AWS GovCloud oder AWS GovCloud DoD frei oder empfängt Freigaben von AWS GovCloud oder AWS GovCloud DoD.
- AWS GovCloud und AWS GovCloud DoD teilen miteinander.