Task notebook per i lavori

Usare il task notebook per distribuire i notebook di Databricks.

Configurare un'attività notebook

Prima di iniziare, è necessario disporre del notebook in una posizione accessibile dall'utente che configura il processo.

Note

L'interfaccia utente dei processi visualizza le opzioni in modo dinamico in base ad altre impostazioni configurate.

Per iniziare il processo di configurazione di un'attività Notebook:

  1. Vai alla scheda Attività nell'interfaccia utente Lavori.
  2. Fare clic su Aggiungi attività.
  3. Immettere un nome nel campo Nome attività .
  4. Nel menu a discesa Tipo selezionare Notebook.

Configurare l'origine

Nel menu a discesa Source selezionare un percorso per lo script Python usando una delle opzioni seguenti.

Workspace

Usare l'area di lavoro per configurare un notebook archiviato nell'area di lavoro, completando i passaggi seguenti:

  1. Cliccare il campo Percorso. Viene visualizzata la finestra di dialogo Seleziona notebook .
  2. Passare al notebook, cliccare per evidenziare il file e cliccare Conferma.

Note

È possibile usare questa opzione per configurare un task per un notebook archiviato in una cartella Git di Databricks. Databricks consiglia di usare l'opzione Git provider e un repository Git remoto per il versionamento degli asset programmati con i job.

Fornitore Git

Usare il Git provider per configurare un notebook archiviato in un repository Git remoto.

Le opzioni visualizzate dall'interfaccia utente dipendono dal fatto che sia già stato configurato un Git provider altrove. È possibile usare un solo repository Git remoto per tutti i task in un processo. Vedere Usare Git con processi Lakeflow.

Importante

I notebook creati dai Jobs di Lakeflow che vengono eseguiti da repository Git remoti sono temporanei e non sono affidabili per tenere traccia delle esecuzioni, degli esperimenti o dei modelli di MLflow. Quando si crea un notebook a partire da un processo, usare un esperimento MLflow dell'area di lavoro (anziché un esperimento MLflow del notebook) e chiamare mlflow.set_experiment("/path/to/experiment") nel notebook dell'area di lavoro prima di eseguire qualsiasi codice di rilevamento MLflow. Per altri dettagli, vedere Evitare la perdita di dati negli esperimenti MLflow.

Il campo Percorso viene visualizzato dopo che è stato configurato un riferimento Git.

Immettere il percorso relativo per il notebook, ad esempio etl/bronze/ingest.py.

Importante

Quando si immette il percorso relativo, non iniziare con / o ./. Ad esempio, se il percorso assoluto del notebook a cui si vuole accedere è /etl/bronze/ingest.py, immettere etl/bronze/ingest.py nel campo Percorso.

Configurare le librerie di calcolo e quelle dipendenti

Note

È possibile selezionare un warehouse SQL come risorsa di calcolo per un'attività del notebook solo quando il notebook è scritto interamente in SQL e SQL è impostato come linguaggio predefinito. Se il notebook usa un'altra lingua predefinita o combina lingue, selezionare invece un cluster o un altro calcolo supportato.

  1. Usare calcolo per selezionare o configurare un cluster che supporti la logica del tuo notebook.
  2. Se si utilizza Serverless compute, installa le librerie direttamente nel notebook, usando il pannello Ambiente oppure usando %pip install. Vedi Configurare l'ambiente serverless.
  3. Per tutte le altre configurazioni di calcolo, cliccare + Add (Aggiungi) in Dependent libraries (Librerie dipendenti). Verrà visualizzata la finestra di dialogo Aggiungi libreria dipendente.
    • È possibile selezionare una libreria esistente o caricare una nuova libreria.
    • È possibile usare solo le librerie archiviate in una posizione supportata dalle configurazioni di calcolo. Vedere Supporto della libreria Python.
    • Ogni Sorgente libreria ha un flusso diverso per la selezione o il caricamento di una libreria. Vedere Installare le librerie.

Finalizzare la configurazione del lavoro

  1. (Facoltativo) Configurare i parametri come coppie chiave-valore accessibili nel notebook usando dbutils.widgets. Vedere Configurare i parametri dell'attività.
  2. Fare clic su Salva attività.

Preparazione dei dati visivi

Preparazione visiva dei dati nell'elenco a discesa Tipo attività crea un'attività notebook per un file di preparazione visiva dei dati. Questi file vengono compilati in un'area di disegno visiva in Lakeflow Designer, che salva ognuno di essi come notebook denominato <name>.designer.ipynb. Per eseguirne uno come processo pianificato, aggiungi un'attività del notebook e seleziona il relativo file .designer.ipynb come origine. Vedere Lakeflow Designer.

Limitazioni

L'output totale della cella del notebook (l'output combinato di tutte le celle del notebook) è soggetto a un limite di dimensioni di 30 MB. Inoltre, l'output di una singola cella è soggetto a un limite di dimensioni di 8 MB. Se l'output totale della cella supera le dimensioni di 30 MB o se l'output di una singola cella è maggiore di 8 MB, l'esecuzione viene annullata e contrassegnata come non riuscita.

Se hai bisogno di aiuto per trovare celle vicine o oltre il limite, esegui il notebook in un cluster all-purpose e usa questa tecnica di salvataggio automatico del notebook .