Concetti dell'Area di consumo dell'analitica

Analytics Consumption Zone (ACZ) esporta i dati di entità selezionati da Azure Data Manager for Energy all'account Azure Data Lake Storage Gen2. ACZ scrive i dati di Azure Data Manager for Energy nel formato aperto Delta Parquet. I servizi come Microsoft Fabric e Azure Databricks possono leggere direttamente questo formato.

Importante

Analytics Consumption Zone è attualmente in anteprima. Per le condizioni legali applicabili alle funzionalità di Azure disponibili in versione beta, in anteprima o non ancora rilasciate nella disponibilità generale, vedere Condizioni per l'utilizzo supplementari per Microsoft Azure anteprime.

Durante l'anteprima, ACZ è disponibile solo nelle istanze del livello sviluppatore e richiede l'uso di elenchi di elementi consentiti. Seguite le indicazioni in Abilitare la zona di utilizzo di Analytics, e contattate il rappresentante Microsoft.

Che cos'è ACZ?

ACZ è un livello di sincronizzazione gestito. Esporta i dati delle entità dall'istanza di Azure Data Manager for Energy in un account di archiviazione Azure Data Lake Storage Gen2 di proprietà dell'utente. È quindi possibile connettere tali dati agli strumenti di analisi, creazione di report e Machine Learning.

Caratteristiche chiave di ACZ:

  • Archiviazione di proprietà del cliente: si crea e si gestisce un account di archiviazione Data Lake Storage Gen2 in cui vengono recati i dati. Se hai requisiti di residenza dei dati, sei responsabile della selezione di un account di archiviazione di destinazione nell'area geografica appropriata.
  • Formato aperto: le esportazioni di dati in formato Delta Parquet. I motori di analisi supportano ampiamente questo formato.
  • Sincronizzazione selettiva: scegli quali tipi di entità sincronizzare. Le opzioni includono tipi di catalogo e tipi di Wellbore Domain Gestione dati Service (DDMS).
  • Sincronizzazione cronologica e incrementale: si ottiene uno snapshot iniziale dei dati esistenti da ACZ. ACZ sincronizza quindi le modifiche man mano che si verificano.
  • Basata su API: si configura e si gestisce completamente ACZ tramite le API REST.

Architettura

Il diagramma seguente illustra il flusso di dati ACZ.

Diagramma che mostra il passaggio dei dati da Azure Data Manager per l'energia a Data Lake Storage Gen2 agli strumenti di analisi.

Funzionamento di ACZ

Tipi di entità supportati

ACZ sincronizza due categorie di Azure Data Manager per i tipi di entità Energy.

Categoria Description Tipi di esempio
Tipi di catalogo Dati primari e dati di riferimento dal servizio di archiviazione osdu:wks:master-data--Well:*, osdu:wks:reference-data--UnitOfMeasure:*
Tipi DDMS Wellbore Entità di Wellbore DDMS osdu:wks:work-product-component--WellLog:*

Quando si crea un'istanza di ACZ, specificare i tipi di entità da sincronizzare specificando:

  • catalogKinds: un elenco di modelli di tipi di catalogo (ad esempio, osdu:wks:master-data--Well:*).
  • wellboreDDMSKinds: un elenco di modelli di tipo DDMS Wellbore (ad esempio, osdu:wks:work-product-component--WellLog:*).

Questi modelli di tipo fungono da filtri che determinano quali record di Azure Data Manager for Energy ACZ esporta e mantiene sincronizzati.

Utilizzare il flag allCatalogSync

Il allCatalogSync flag è un parametro booleano facoltativo che è possibile specificare quando si crea un'istanza di ACZ. Se impostato su true, sincronizza tutti i tipi di catalogo dalla partizione di dati.

Comportamenti principali:

  • allCatalogSync è specificato all'esterno della sezione configuration nel corpo della richiesta.
  • Quando allCatalogSync: true, ACZ esporta automaticamente tutti i tipi di catalogo.
  • Gli array catalogKinds e wellboreDDMSKinds nella configurazione vengono ignorati per i dati di catalogo.
  • I download di file in blocco di Wellbore DDMS non sono interessati da questo flag. I file vengono scaricati solo per i tipi elencati in modo esplicito in wellboreDDMSKinds.

Configurazioni di esempio:

// Selective catalog sync - only Wells and Fields
{
  "allCatalogSync": false,
  "configuration": {
    "catalogKinds": [
      "osdu:wks:master-data--Well:*",
      "osdu:wks:master-data--Field:*"
    ]
  }
}

// Sync all catalog kinds using allCatalogSync flag
{
  "allCatalogSync": true,
  "configuration": {
    // catalogKinds is ignored when allCatalogSync is true
  }
}

// Sync all catalog kinds, but Wellbore DDMS files only for specified kinds
{
  "allCatalogSync": true,
  "configuration": {
    "wellboreDDMSKinds": [
      "osdu:wks:work-product-component--WellLog:*"
    ]
  }
}

Tipi di versione

Quando si crea un'istanza di ACZ, si sceglie come gestire le versioni delle entità.

Tipo Description
LATEST_VERSION Esporta solo la versione più recente di ogni entità. Impostazione predefinita e consigliata.
ALL_VERSIONS Esporta tutte le versioni di ogni entità. Mantiene la cronologia delle versioni completa.

Stati del ciclo di vita

Ogni ACZ passa attraverso questi stati:

Stato Description
ATTIVO Operativo. ACZ sincronizza le modifiche in modo incrementale.
NON RIUSCITO Un errore ha interrotto l'installazione o la sincronizzazione.
ACCESS_DENIED ACZ non riesce a raggiungere l'account di archiviazione Data Lake Storage Gen2 di destinazione.

Istantanea storica

Quando si crea una nuova istanza di ACZ, il servizio crea uno snapshot cronologico. Questo snapshot esporta tutti i record esistenti che corrispondono ai tipi di entità configurati (catalogKinds e wellboreDDMSKinds). Lo snapshot passa attraverso gli stati seguenti:

Stato Description
ELABORAZIONE Esportazione attiva dei dati.
COMPLETATO Tutti i dati cronologici esportati.
NON RIUSCITO Si è verificato un errore.

Al termine dello snapshot, ACZ passa alla modalità incrementale. Acquisisce record nuovi e aggiornati quasi in tempo reale.

Modalità di gestione delle modifiche dei dati da parte di ACZ

ACZ propaga i record creati, aggiornati ed eliminati da Azure Data Manager for Energy alle tabelle Delta.

  • Creazioni e aggiornamenti: quando si crea un record o si modifica il blocco di dati, Azure Data Manager per Energy crea una nuova versione. ACZ rileva la modifica e scrive una nuova riga nella tabella Delta.
  • Aggiornamenti dei soli metadati: quando un'operazione PATCH modifica l'elenco di controllo degli accessi, i vincoli legali o i tag senza creare una nuova versione, ACZ rileva questa modifica ed esegue un'operazione di merge upsert sulla riga esistente.
  • Eliminazioni soft: Quando si esegue un'eliminazione soft di un record in Azure Data Manager for Energy, ACZ imposta il campo isActive su False nella riga anziché rimuoverlo. Le eliminazioni temporanee preservano la cronologia per finalità di audit e per le query temporali.
  • Purges: quando si elimina un record in Azure Data Manager for Energy, ACZ rimuove definitivamente il record dalla tabella Delta. La riga viene eliminata e non può essere recuperata dai dati ACZ.

Avvertimento

ACZ è una sincronizzazione unidirezionale, in sola lettura da Azure Data Manager for Energy a Data Lake Storage Gen2:

  • I flussi di dati vengono trasmessi solo da Azure Data Manager per l'energia a Data Lake Storage Gen2.
  • Non modificare, eliminare o aggiungere file direttamente nelle cartelle ACZ in Data Lake Storage Gen2.
  • Le modifiche manuali ai dati ACZ danneggiano la sincronizzazione e causano incoerenze dei dati.
  • ACZ gestisce tutte le operazioni di Delta Lake (log delle transazioni, checkpoint e compattazione).

Per l'analisi e la creazione di report, considerare i dati esportati come di sola lettura. Tutte le modifiche ai dati devono essere apportate in Azure Data Manager per l'energia.

Formato di output dei dati

ACZ scrive i dati in formato Delta Lake con file codificati in Parquet (DELTA_PARQUET). Delta Lake supporta transazioni con atomicità, coerenza, isolamento e durabilità. Supporta anche operazioni di spostamento del tempo e letture incrementali efficienti.

struttura di cartelle Data Lake Storage Gen2

ACZ organizza i dati nell'account di archiviazione Data Lake Storage Gen2 per cartella. Ogni istanza di ACZ ottiene la propria cartella nel contenitore o nel percorso di base, se ne è stata specificata una. Le partizioni ACZ catalogano le tabelle Delta Lake per tipo. Una cartella per tipo di entità DDMS e ID record.

Layout della cartella

Diagramma che mostra la struttura di cartelle per Azure Data Lake Storage.

Dettagli chiave

Elemento Description
Cartella di primo livello Denominato <acz-id> sotto il contenitore, o sotto <base-path> se specificato. Una cartella per ogni istanza di ACZ.
osducatalog/ Una tabella Delta per tutti i tipi di catalogo. Partizionato per tipo (ad esempio, kind=osdu:wks:master-data--Well:1.0.0).
_delta_log/ Log delle transazioni Delta Lake. Tiene traccia di tutte le modifiche alle tabelle per le transazioni ACID e il viaggio nel tempo.
Cartelle di entità DDMS Una cartella per ogni tipo di entità DDMS , ad esempio work-product-component--WellLog. Contiene file Parquet specifici per DDMS in base al tipo di entità e all'ID del record.
File Parquet File di dati con compressione Snappy. Gli aggiornamenti creano nuovi file. ACZ esegue VACUUM e OPTIMIZE per compattare i file di piccole dimensioni e rimuovere quelli meno recenti.

Schema di tabella Delta

La tabella Delta include i campi seguenti:

Campo Tipo Description
id Stringa ID record OSDU®.
version Stringa Numero di versione.
kind Stringa Tipo OSDU® completamente qualificato.
data Stringa Blocco di dati (JSON).
meta Stringa Metadati (JSON).
acl Stringa Elenco di controllo di accesso.
legal Stringa Tag legali.
tags Stringa Tag definiti dall'utente.
createUser Stringa Utente che ha creato il record.
createTime Marca temporale: Quando il record è stato creato.
ingestTime Marca temporale: Quando ACZ ha acquisito il record.
isActive Booleano True se attivo. False se eliminato temporaneamente.

Note

Le entità DDMS del wellbore hanno anche i campi fileDownloadTime, fileDownloadState e fileDownloadFolder per il tracciamento dei file.

Limiti e accesso

Limiti di anteprima

Constraint Limit
Numero massimo di istanze ACZ per partizione di dati Three
Univocità del nome ACZ Deve essere univoco all'interno di una partizione di dati
Formato di destinazione Solo Delta Parquet
Tipo di archiviazione Solo Data Lake Storage Gen2
Supporto per il livello dell'istanza Livello sviluppatore solo durante l'anteprima

Autenticazione e autorizzazione

ACZ richiede:

  • Accesso API: per chiamare le API ACZ, è necessario appartenere ai users@{data-partition-id}.dataservices.energy gruppi e users.datalake.ops@{data-partition-id}.dataservices.energy .
  • Accesso all'archiviazione: l'identità gestita richiede il ruolo Collaboratore ai dati del BLOB di archiviazione (o equivalente) nel contenitore Data Lake Storage Gen2. Durante l'anteprima, condividere i dettagli dell'identità con Microsoft per aggiungere l'identità all'elenco elementi consentiti.
  • Azure Data Manager per l'accesso all'energia: l'identità gestita deve essere assegnata alla risorsa Azure Data Manager per l'energia.