Konzepte der Analyse-Verbrauchszone

Analytics Consumption Zone (ACZ) exportiert ausgewählte Entitätsdaten aus Azure Data Manager for Energy in Ihr Azure Data Lake Storage Gen2 Konto. ACZ schreibt Azure Data Manager for Energy-Daten im offenen Delta Parquet-Format. Dienste wie Microsoft Fabric und Azure Databricks können dieses Format direkt lesen.

Important

Analytics Consumption Zone ist derzeit als Vorschau verfügbar. Zu den rechtlichen Bestimmungen, die für Azure-Funktionen gelten, die sich in der Betaversion oder Vorschau befinden oder noch nicht allgemein verfügbar sind, siehe Ergänzende Nutzungsbedingungen für Microsoft Azure-Vorschauversionen.

Während der Vorschau ist ACZ nur für Entwicklerebeneninstanzen verfügbar und erfordert die Verwendung von Zulassungslisten. Befolgen Sie die Anleitungen in der Zone "Analysenutzung aktivieren", und wenden Sie sich an Ihren Microsoft Vertreter.

Was ist ACZ?

ACZ ist eine verwaltete Synchronisierungsschicht. Es exportiert Entitätsdaten aus Ihrem Azure Data Manager für Energie in ein Azure Data Lake Storage Gen2 Speicherkonto, das Sie besitzen. Anschließend können Sie diese Daten mit Analyse-, Berichterstellungs- und Machine Learning-Tools verbinden.

Hauptmerkmale von ACZ:

  • Kundeneigener Speicher: Sie erstellen und verwalten ein Data Lake Storage Gen2 Speicherkonto, in dem Ihre Daten abgelegt werden. Wenn Sie Anforderungen an die Datenresidenz haben, sind Sie für die Auswahl eines Zielspeicherkontos in derselben geografischen Region zuständig.
  • Offenes Format: Ihre Datenexporte im Delta-Parkettformat. Analyse-Engines unterstützen dieses Format weithin.
  • Selective sync: Sie wählen aus, welche Entitätstypen synchronisiert werden sollen. Zu den Optionen gehören Katalogtypen und Wellbore Domain Datenverwaltung Service (DDMS)-Typen.
  • Historische und inkrementelle Synchronisierung: Sie erhalten eine erste Momentaufnahme vorhandener Daten aus ACZ. Dann synchronisiert ACZ Änderungen, sobald sie auftreten.
  • API-gesteuert: Sie konfigurieren und verwalten ACZ vollständig über REST-APIs.

Aufbau

Das folgende Diagramm zeigt den ACZ-Datenfluss.

Diagramm, das Daten zeigt, die von Azure Data Manager für Energie zu Data Lake Storage Gen2 zu Analysetools wechseln.

Funktionsweise von ACZ

Unterstützte Entitätstypen

ACZ synchronisiert zwei Kategorien von Azure Data Manager für Energie-Entitätstypen.

Kategorie Beschreibung Beispieltypen
Katalogtypen Primäre Daten und Referenzdaten aus dem Speicherdienst osdu:wks:master-data--Well:*, osdu:wks:reference-data--UnitOfMeasure:*
Wellbore DDMS-Arten Entitäten von Wellbore DDMS osdu:wks:work-product-component--WellLog:*

Wenn Sie eine ACZ-Instanz erstellen, geben Sie an, welche Entitätstypen synchronisiert werden sollen, indem Sie Folgendes angeben:

  • catalogKinds: Eine Liste von Mustern für Katalogarten (z. B. osdu:wks:master-data--Well:*).
  • wellboreDDMSKinds: Eine Liste der Wellbore DDMS-Artmuster (z. B osdu:wks:work-product-component--WellLog:*. ).

Muster dieser Art dienen als Filter, die bestimmen, welche Datensätze von Azure Data Manager for Energy ACZ exportiert und synchron hält.

Verwenden des allCatalogSync-Flags

Das allCatalogSync Flag ist ein optionaler boolescher Parameter, den Sie beim Erstellen einer ACZ-Instanz angeben können. Bei Festlegung auf true, synchronisiert es alle Katalogtypen aus der Datenpartition.

Wichtige Verhaltensweisen:

  • allCatalogSync wird außerhalb des configuration Abschnitts im Anforderungstext angegeben.
  • Wenn allCatalogSync: true, exportiert ACZ automatisch alle Katalogtypen.
  • Die Arrays catalogKinds und wellboreDDMSKinds in der Konfiguration werden bei Katalogdaten ignoriert.
  • Wellbore DDMS-Massendateidownloads sind von diesem Flag nicht betroffen . Dateien werden nur für Dateitypen heruntergeladen, die in wellboreDDMSKinds explizit aufgeführt sind.

Beispielkonfigurationen:

// Selective catalog sync - only Wells and Fields
{
  "allCatalogSync": false,
  "configuration": {
    "catalogKinds": [
      "osdu:wks:master-data--Well:*",
      "osdu:wks:master-data--Field:*"
    ]
  }
}

// Sync all catalog kinds using allCatalogSync flag
{
  "allCatalogSync": true,
  "configuration": {
    // catalogKinds is ignored when allCatalogSync is true
  }
}

// Sync all catalog kinds, but Wellbore DDMS files only for specified kinds
{
  "allCatalogSync": true,
  "configuration": {
    "wellboreDDMSKinds": [
      "osdu:wks:work-product-component--WellLog:*"
    ]
  }
}

Versionstypen

Wenn Sie eine ACZ-Instanz erstellen, wählen Sie aus, wie Entitätsversionen behandelt werden sollen.

Typ Beschreibung
LATEST_VERSION Exportiert nur die neueste Version jeder Entität. Standardmäßig und empfohlen.
ALL_VERSIONS Exportiert alle Versionen jeder Entität. Behält den vollständigen Versionsverlauf bei.

Lebenszyklusstatus

Jede ACZ durchläuft die folgenden Zustände:

Status Beschreibung
AKTIV Betriebsbereit. ACZ synchronisiert Änderungen inkrementell.
FEHLGESCHLAGEN Ein Fehler hat das Setup oder die Synchronisierung beendet.
ACCESS_DENIED ACZ kann das Zielkonto für Data Lake Storage Gen2 nicht erreichen.

Historische Momentaufnahme

Wenn Sie eine neue ACZ-Instanz erstellen, übernimmt der Dienst eine historische Momentaufnahme. Diese Momentaufnahme exportiert alle vorhandenen Datensätze, die den konfigurierten Entitätstypen (catalogKinds und wellboreDDMSKinds) entsprechen. Die Momentaufnahme durchläuft die folgenden Zustände:

Status Beschreibung
VERARBEITUNG Aktives Exportieren von Daten.
ABGESCHLOSSEN Alle historischen Daten wurden exportiert.
FEHLGESCHLAGEN Ein Fehler ist aufgetreten.

Nachdem die Momentaufnahme abgeschlossen ist, wechselt ACZ in den inkrementellen Modus. Es erfasst neue und aktualisierte Datensätze in nahezu Echtzeit.

So verarbeitet ACZ Datenänderungen

ACZ verteilt erstellte, aktualisierte und gelöschte Datensätze aus Azure Data Manager for Energy in die Delta-Tabellen.

  • Creations and updates: Wenn Sie einen Datensatz erstellen oder dessen Datenblock ändern, erstellt Azure Data Manager for Energy eine neue Version. ACZ erkennt die Änderung und schreibt eine neue Zeile in die Delta-Tabelle.
  • Aktualisierungen nur an Metadaten: Wenn ein PATCH-Vorgang die Zugriffskontrollliste, rechtliche Einstellungen oder Tags ändert, ohne eine neue Version zu erstellen, erkennt ACZ diese Änderung und führt für die vorhandene Zeile ein Merge-Upsert aus.
  • Soft löscht: Wenn Sie einen Datensatz in Azure Data Manager for Energy vorläufig löschen, legt ACZ das Feld isActive auf False in der Zeile fest, anstatt ihn zu entfernen. Vorläufiges Löschen behält den Verlauf für Überwachungs- und Zeitreiseabfragen bei.
  • Purges: Wenn Sie einen Datensatz in Azure Data Manager for Energy löschen, entfernt ACZ den Datensatz dauerhaft aus der Delta-Tabelle. Die Zeile wird gelöscht und kann nicht aus den ACZ-Daten wiederhergestellt werden.

Warning

ACZ ist eine unidirektionale, schreibgeschützte Synchronisierung von Azure Data Manager for Energy zu Data Lake Storage Gen2:

  • Daten fließen nur von Azure Data Manager für Energie zu Data Lake Storage Gen2.
  • Ändern, löschen oder fügen Sie Dateien nicht direkt in den ACZ-Ordnern in Data Lake Storage Gen2 hinzu.
  • Manuelle Änderungen an ACZ-Daten beschädigt die Synchronisierung und verursachen Inkonsistenzen von Daten.
  • ACZ verwaltet alle Delta Lake-Vorgänge (Transaktionsprotokolle, Prüfpunkte und Komprimierung).

Behandeln Sie die exportierten Daten für Analysen und Berichte als schreibgeschützt. Alle Datenänderungen müssen im Azure Data Manager für Energie erfolgen.

Datenausgabeformat

ACZ schreibt Daten im Delta Lake-Format mit Parkett-codierten Dateien (DELTA_PARQUET). Delta Lake unterstützt Atomität, Konsistenz, Isolation und Haltbarkeitstransaktionen. Es unterstützt auch Zeitreisen und effiziente inkrementelle Lesevorgänge.

Data Lake Storage Gen2 Ordnerstruktur

ACZ organisiert Daten in Ihrem Data Lake Storage Gen2 Speicherkonto nach Ordner. Jede ACZ-Instanz erhält einen eigenen Ordner unter dem Container oder unter dem Basispfad, falls Sie einen angegeben haben. ACZ partitioniert Delta-Lake-Tabellen im Katalog nach Typ. Ein Ordner pro DDMS-Entitätstyp und Datensatz-ID.

Ordnerstruktur

Diagramm, das die Ordnerstruktur für Azure Data Lake Storage zeigt.

Wichtige Details

Element Beschreibung
Ordner auf oberster Ebene Mit dem Namen <acz-id> im Container oder, wenn angegeben, unter <base-path>. Ein Ordner pro ACZ-Instanz.
osducatalog/ Eine Delta-Tabelle für alle Katalogtypen. Partitioniert nach Typ (z. B. kind=osdu:wks:master-data--Well:1.0.0).
_delta_log/ Das Delta Lake-Transaktionsprotokoll. Erfasst alle Tabellenänderungen für ACID-Transaktionen und Zeitreisen.
DDMS-Entitätsordner Ein Ordner pro DDMS-Entitätstyp (z. B work-product-component--WellLog. ). Enthält DDMS-spezifische Parquet-Dateien nach Entitätstyp und Datensatz-ID.
Parquet-Dateien Snappy-komprimierte Datendateien. Aktualisierungen erstellen neue Dateien. ACZ führt VACUUM und OPTIMIZE aus, um kleine Dateien zu komprimieren und alte Dateien zu entfernen.

Delta-Tabellenschema

Die Delta-Tabelle weist die folgenden Felder auf:

Feld Typ Beschreibung
id String OSDU®-Datensatz-ID.
version String Versionsnummer.
kind String Voll qualifizierter OSDU®-Typ.
data String Datenblock (JSON).
meta String Metadaten (JSON).
acl String Zugriffskontrollliste.
legal String Rechtliche Tags.
tags String Benutzerdefinierte Tags.
createUser String Benutzer, der den Datensatz erstellt hat.
createTime Zeitstempel Wann der Datensatz erstellt wurde.
ingestTime Zeitstempel Wenn ACZ den Datensatz aufgenommen hat.
isActive Boolean True wenn aktiv. False falls vorläufig gelöscht.

Note

Wellbore DDMS-Entitäten verfügen auch über fileDownloadTime, fileDownloadStateund fileDownloadFolder Felder für die Dateiverfolgung.

Beschränkungen und Zugriff

Vorschaubeschränkungen

Constraint Limit
Maximale ACZ-Instanzen pro Datenpartition Three
Eindeutigkeit des ACZ-Namens Muss innerhalb einer Datenpartition eindeutig sein
Zielformat Nur Delta-Parkett
Speichertypus nur Data Lake Storage Gen2
Unterstützung der Instanzebene Nur in der Vorschauphase in der Entwicklerstufe verfügbar

Authentifizierung und Autorisierung

ACZ erfordert:

  • API-Zugriff: Um ACZ-APIs aufzurufen, müssen Sie zu den users@{data-partition-id}.dataservices.energy Und-Gruppen users.datalake.ops@{data-partition-id}.dataservices.energy gehören.
  • Speicherzugriff: Die verwaltete Identität benötigt die Rolle „Mitwirkender an Storage-Blobdaten“ (oder eine gleichwertige) für den Data Lake Storage Gen2-Container. Teilen Sie während der Vorschau die Identitätsdetails mit Microsoft, um der Zulassungsliste die Identität hinzuzufügen.
  • Azure Data Manager for Energy access: Die verwaltete Identität muss dem Azure Data Manager für Energieressource zugewiesen werden.