Arricchire le tabelle con metadati personalizzati

Databricks consiglia di creare sempre commenti per tabelle e colonne nelle tabelle. È possibile generare questi commenti usando l’intelligenza artificiale. Vedere Aggiungere commenti generati dall'intelligenza artificiale agli oggetti del catalogo unity.

Unity Catalog ha anche la possibilità di contrassegnare i dati. Vedi Applicare tag agli oggetti proteggibili del catalogo Unity.

Registra i messaggi per i singoli commit nelle tabelle in un campo nel log delle transazioni.

Impostare i metadati di commit definiti dall’utente

Specificare stringhe definite dall'utente come metadati nei commit usando l'opzione userMetadataDataFrameWriter . È possibile usare questa opzione con qualsiasi modalità di scrittura, tra cui append e overwrite. Questi metadati definiti dall’utente sono leggibili nell’operazione DESCRIBE HISTORY . Per altre informazioni, vedere Usare la cronologia delle tabelle.

SQL

Per le tabelle Delta:

SET spark.databricks.delta.commitInfo.userMetadata=overwrite-comment
INSERT OVERWRITE target_table SELECT * FROM data_source

Per le tabelle Iceberg:

SET spark.databricks.iceberg.commitInfo.userMetadata=overwrite-comment
INSERT OVERWRITE target_table SELECT * FROM data_source

Python

df.write \
  .mode("overwrite") \
  .option("userMetadata", "overwrite-comment") \
  .saveAsTable("target_table")

df.write \
  .mode("append") \
  .option("userMetadata", "append-comment") \
  .saveAsTable("target_table")

userMetadata funziona con qualsiasi modalità di scrittura, inclusi overwrite e append.

Scala

df.write
  .mode("overwrite")
  .option("userMetadata", "overwrite-comment")
  .saveAsTable("target_table")

df.write
  .mode("append")
  .option("userMetadata", "append-comment")
  .saveAsTable("target_table")

userMetadata funziona con qualsiasi modalità di scrittura, inclusi overwrite e append.

Note sui tipi di calcolo

Nel calcolo classico è anche possibile specificare metadati di commit definiti dall'utente usando le chiavi spark.databricks.delta.commitInfo.userMetadata di configurazione SparkSession (Delta) o spark.databricks.iceberg.commitInfo.userMetadata (Iceberg). Se vengono specificate sia l'opzione userMetadata DataFrameWriter che la configurazione SparkSession, l'opzione DataFrameWriter ha la precedenza.

Nell'ambiente di calcolo serverless usare direttamente l'opzione userMetadata DataFrameWriter. Le chiavi di configurazione SparkSession per i metadati di commit non sono supportate nel calcolo serverless.