Nota
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare ad accedere o modificare le directory.
L'accesso a questa pagina richiede l'autorizzazione. È possibile provare a modificare le directory.
La derivazione dei dati mostra da dove provengono i dati in Azure Databricks e dove si trovano: quali query e file popolano una tabella, quali processi e notebook lo trasformano e quali dashboard usano i risultati.
Unity Catalog acquisisce automaticamente la tracciabilità delle query eseguite in Azure Databricks fino al livello di colonna e la aggrega in tutte le aree di lavoro collegate al metastore. La tracciabilità dei dati in Unity Catalog consente di:
- Eseguire l'analisi dell'impatto: prima di modificare o eliminare una tabella o una colonna, identificare le tabelle, i processi e i dashboard downstream che dipendono da esso.
- Indagare le cause principali: quando un report a valle mostra risultati imprevisti, risalire alle fonti a monte per individuare il punto in cui i dati hanno iniziato a divergere.
- Tenere traccia del flusso di dati sensibili: per i controlli di conformità, vedere dove provengono i dati regolamentati, come vengono trasformati e quali asset downstream lo usano.
- Comprendere le dipendenze tra team: Scopri quali team sono responsabili delle fonti upstream da cui dipendi o quali team utilizzano le tue tabelle.
La derivazione esterna (Anteprima pubblica) estende il grafico della derivazione anche oltre Azure Databricks. Registra origini a monte come Salesforce o MySQL e strumenti a valle come Tableau o Power BI come asset esterni in Unity Catalog, e vedrai comparire questi elementi accanto alle tabelle di Unity Catalog in un unico grafo. Vedi Porta la tua propria lineage di dati.
La seguente immagine seguente è un grafico di derivazione di esempio. I nodi possono rappresentare tabelle e viste, versioni del modello di Machine Learning, asset esterni e percorsi di file.
Requisiti
Per acquisire la derivazione dei dati usando Unity Catalog:
- Le tabelle devono essere registrate in un metastore del catalogo Unity.
- Gli asset esterni (quelli non registrati nel metastore del Catalogo Unity) devono essere aggiunti come oggetti di metadati esterni nel Catalogo Unity, configurati per avere relazioni con altri oggetti sicurizzabili registrati nel metastore del Catalogo Unity. Vedi Porta la tua propria lineage di dati.
- Le query devono usare il dataframe Spark (ad esempio, funzioni SPARK SQL che restituiscono un dataframe) o interfacce SQL di Databricks, ad esempio notebook o editor di query SQL.
Per visualizzare la derivazione dei dati:
- È necessario disporre almeno del privilegio
BROWSEsul catalogo padre della tabella o della vista. Il catalogo principale deve essere anch'esso accessibile dall'area di lavoro. Vedere associazione del catalogo dell'area di lavoro. - Per notebook, processi o dashboard, è necessario disporre delle autorizzazioni per questi oggetti, come definito dalle impostazioni di controllo di accesso nell'area di lavoro. Per informazioni dettagliate, vedere Autorizzazioni.
- Per una pipeline abilitata per Unity Catalog, è necessario disporre dell'autorizzazione CAN VIEW per la pipeline.
Requisiti di calcolo:
- Il monitoraggio della tracciabilità dello streaming tra tabelle Delta richiede Databricks Runtime 11.3 LTS o una versione successiva.
- Il rilevamento della derivazione delle colonne per i carichi di lavoro delle pipeline dichiarative di Lakeflow Spark richiede Databricks Runtime 13.3 LTS o versione successiva.
Requisiti di rete:
- Potrebbe essere necessario aggiornare le regole del firewall in uscita per consentire la connettività all'endpoint di Hub eventi nel piano di controllo Azure Databricks. Questo vale in genere se l'area di lavoro Azure Databricks è distribuita nella propria VNet (nota anche come inserimento VNet). Per ottenere l'endpoint di Hub eventi per l'area di lavoro, vedere Metastore, archiviazione BLOB degli artefatti, archiviazione delle tabelle di sistema, archiviazione BLOB dei log e indirizzi IP degli endpoint di Hub eventi. Per informazioni sulla configurazione di route definite dall'utente per Azure Databricks, vedere Impostazioni di route definite dall'utente per Azure Databricks.
Visualizzare il lignaggio in Catalog Explorer
Per usare Esplora cataloghi per visualizzare la derivazione della tabella:
Nell'area di lavoro Azure Databricks fare clic su
Catalog.
Cerca o sfoglia la tua tabella.
Selezionare la scheda Derivazione . Viene visualizzato il pannello di derivazione e vengono visualizzate le tabelle correlate.
Per visualizzare un grafico interattivo della derivazione dei dati, fare clic su Visualizza grafico di derivazione.
Per impostazione predefinita, nel grafico viene visualizzato un livello. Fare clic sull'icona
su un nodo per visualizzare altre connessioni, se disponibili.Fare clic sull'icona su un bordo di connessione nel grafico di derivazione per aprire il pannello Dettagli derivazione .
Il pannello Dettagli della derivazione mostra i dettagli della connessione, incluse le tabelle di origine e di destinazione.
Per visualizzare un asset associato a una tabella, selezionare l'asset nel pannello Dettagli derivazione . È possibile filtrare in base a notebook, processi, pipeline e query.
Per visualizzare la derivazione a livello di colonna, fare clic su una colonna nel grafico per visualizzare i collegamenti alle colonne correlate. Ad esempio, facendo clic sulla
revenuecolonna in questo grafico di esempio vengono visualizzate le colonne upstream da cui è stata derivata la colonna:
Visualizzare la tracciabilità dell'attività
Per visualizzare la derivazione del processo, passare alla scheda Derivazione di una tabella, selezionare Processi e selezionare Downstream. Il nome del processo viene visualizzato sotto Nome processo come utente della tabella.
Visualizzare la derivazione del dashboard
Per visualizzare la derivazione del dashboard, passare alla scheda Derivazione di una tabella e fare clic su Dashboard. Il dashboard appare sotto Nome del dashboard come utente della tabella.
Ottieni il lineage usando Genie Code
Genie Code può rispondere a domande di derivazione nel linguaggio naturale.
Per ottenere informazioni sulla derivazione tramite Genie Code:
- Nella barra laterale dell'area di lavoro fare clic
Catalogo.
- Sfogliare o cercare il catalogo, fare clic sul nome del catalogo e quindi fare clic
Icona Genie Code nell'angolo superiore destro.
- Al prompt del codice Genie digitare:
-
/getTableLineagesper visualizzare le dipendenze a monte e a valle. -
/getTableInsightsper accedere a informazioni dettagliate basate sui metadati, ad esempio attività utente e modelli di query.
-
Queste query consentono a Genie Code di rispondere a domande come "mostrami le dipendenze a valle" o "chi interroga più spesso questa tabella".
Tracciabilità delle query con le tabelle di sistema
È possibile usare le tabelle di sistema di derivazione per eseguire query sui dati di derivazione a livello di codice. Per istruzioni dettagliate, vedere il riferimento alle tabelle di sistema e il riferimento alle tabelle del sistema lineage.
Permissions
I grafici di lineage condividono lo stesso modello di autorizzazione di Unity Catalog. Le tabelle e altri oggetti dati registrati nel metastore del catalogo Unity sono visibili solo agli utenti che dispongono almeno di autorizzazioni BROWSE per tali oggetti. Se un utente non dispone del privilegio BROWSE o SELECT per una tabella, non può esplorarne la derivazione.
La derivazione viene aggregata in tutte le aree di lavoro collegate a un metastore del catalogo Unity, pertanto la derivazione acquisita in un'area di lavoro è visibile in qualsiasi altra area di lavoro che condivide tale metastore, purché l'utente disponga di autorizzazioni adeguate per gli oggetti. Vengono mascherate informazioni dettagliate sugli oggetti a livello di area di lavoro, ad esempio notebook e dashboard in altre aree di lavoro. Vedere Limitazioni.
Ad esempio, eseguire i comandi seguenti per userA:
GRANT USE SCHEMA on lineage_data.lineagedemo to `userA@company.com`;
GRANT SELECT on lineage_data.lineagedemo.menu to `userA@company.com`;
Quando userA visualizza il grafico di lineage per la tabella lineage_data.lineagedemo.menu, vede la tabella menu. Non possono visualizzare informazioni sulle tabelle associate, ad esempio la tabella downstream lineage_data.lineagedemo.dinner . La tabella dinner viene visualizzata come nodo masked in userA, e userA non può espandere il grafico per mostrare le tabelle downstream a partire da tabelle per le quali non dispone delle autorizzazioni di accesso.
Se si esegue il comando seguente per concedere l'autorizzazione BROWSE a userB, tale utente può visualizzare il grafico di derivazione per qualsiasi tabella nello lineage_data schema:
GRANT BROWSE on lineage_data to `userB@company.com`;
Gli utenti di Lineage devono anche disporre di autorizzazioni specifiche per visualizzare gli oggetti dell'area di lavoro come notebook, job e dashboard. Le informazioni dettagliate su questi oggetti sono visibili solo nell'area di lavoro in cui sono state create.
Per altre informazioni sulla gestione dell'accesso a oggetti a protezione diretta in Unity Catalog, vedere Gestire i privilegi in Unity Catalog. Per altre informazioni sulla gestione dell'accesso agli oggetti dell'area di lavoro, ad esempio notebook, processi e dashboard, si veda Elenchi di controllo di accesso.
Retention
I dati di lineage visualizzati in Catalog Explorer vengono conservati a tempo indeterminato. Tutti i dati di derivazione acquisiti dopo il 1° settembre 2024 sono disponibili. Per i metastore creati successivamente a tale data, Catalog Explorer include un'opzione Tutto il periodo nel menu a discesa dell'intervallo di tempo della derivazione. Per i metastore meno recenti, l'elenco a discesa include un'opzione Tutto disponibile che inizia dal 1° settembre 2024. La selezione predefinita è 1 anno.
Le tabelle di sistema lineage (system.access.table_lineage e system.access.column_lineage) conservano una finestra mobile di un anno di dati. Vedi Riferimento per le tabelle di sistema Lineage.
Limitations
La derivazione dei dati presenta le limitazioni seguenti. Queste limitazioni si applicano anche alle tabelle di sistema di derivazione:
- I dati di derivazione acquisiti prima del 1° settembre 2024 non sono disponibili.
- I lavori che utilizzano la richiesta dell'API
runs submito il tipo di attivitàspark submitnon sono disponibili nelle viste di origine. La derivazione a livello di tabella e colonna viene ancora registrata per questi flussi di lavoro, ma il collegamento all'esecuzione del job non viene registrato. - La tracciabilità non viene mantenuta per cataloghi, schemi, tabelle, viste o colonne che sono stati rinominati.
- Se si usa il checkpoint del set di dati Spark SQL, la derivazione non viene acquisita.
- Il catalogo di Unity acquisisce la derivazione dalle pipeline dichiarative di Lakeflow Spark nella maggior parte dei casi, ma la copertura è incompleta per le pipeline che usano tabelle PRIVATE.
- I set di dati distribuiti resilienti (RDD) non vengono acquisiti in derivazione.
- Le visualizzazioni temporanee globali non vengono acquisite in derivazione.
- Le transazioni generano una derivazione durante ogni lettura e scrittura. Gli eventi di derivazione vengono mantenuti anche se viene eseguito il rollback della transazione.
- Le tabelle sotto
system.information_schemanon vengono acquisite nel lineage. - Il Catalogo Unity acquisisce il tracciamento al livello di colonna il più possibile. Tuttavia, esistono alcuni casi in cui non è possibile acquisire la derivazione a livello di colonna. Questi includono:
Impossibile acquisire la derivazione delle colonne se l'origine o la destinazione viene fatto riferimento come percorso (esempio:
select * from delta."s3://<bucket>/<path>"). La derivazione delle colonne è supportata solo quando si fa riferimento sia all'origine che alla destinazione in base al nome della tabella (ad esempio:select * from <catalog>.<schema>.<table>).Uso di funzioni definite dall'utente che possono nascondere il mapping tra le colonne di origine e di destinazione.
Risorse aggiuntive
- Demo: Unity Catalog - Tracciabilità dei dati
- Tracciabilità del modello ML: per tenere traccia della tracciabilità di un modello di machine learning, vedere Tenere traccia della tracciabilità dei dati di un modello in Unity Catalog.
- Approfondimenti sulla tabella: la scheda Approfondimenti in Catalog Explorer mostra le tendenze di utilizzo di una tabella: pattern di query, utenti principali e dashboard che la leggono. Vedi Consulta le query frequenti e gli utenti di una tabella.