Guida introduttiva: Ottenere dati in OneLake

OneLake è il singolo data lake unificato per Microsoft Fabric. Ogni Fabric carico di lavoro legge e scrive i dati tramite OneLake, quindi è necessario caricare i dati una sola volta per usarli ovunque. È possibile inserire i dati in OneLake in diversi modi:

  • Caricare i file direttamente in una lakehouse o in un magazzino.
  • Inserire dati usando pipeline, flussi di dati o esperienze di streaming.
  • Connetti dati esterni con scorciatoie o duplicazione.

In questa guida introduttiva, si importano dati in OneLake in due modi: si carica un file CSV in un lakehouse e si crea un collegamento OneLake in una seconda lakehouse che rimanda agli stessi dati senza copiarli. Al termine, si dispone di una tabella Delta interrogabile e di un collegamento, entrambi accessibili da ogni motore di Fabric tramite OneLake.

Prerequisiti

Crea un lakehouse

Quando si crea un elemento Fabric, ad esempio una lakehouse, un magazzino o una casa eventi, tale elemento effettua il provisioning dello spazio di archiviazione in OneLake per conto dell'utente. In questa guida introduttiva rapida creerai un lakehouse, che offre sia un'area per i file (File) per dati non strutturati o semistrutturati sia un'area per le tabelle Delta (Tabelle) per dati strutturati e interrogabili. Tutti gli elementi inseriti in entrambe le aree vengono archiviati in OneLake e immediatamente accessibili ad altri carichi di lavoro Fabric.

  1. Accedere al portale Fabric e selezionare l'area di lavoro.

  2. Selezionare Nuovo elemento.

  3. Nel riquadro Nuovo elemento cercare e selezionare Lakehouse.

  4. Immettere un nome, ad esempio DataLakehouse, quindi selezionare Crea.

    Il lakehouse si apre alla visualizzazione Explorer , che mostra le sezioni tabelle e file vuote. Entrambe le sezioni sono già supportate da OneLake e sono pronte per il contenuto.

Caricare dati di esempio

In questa guida introduttiva si userà Dim_Products.csv da un set di dati di esempio disponibile pubblicamente Fabric. Si tratta di una piccola tabella di informazioni sul prodotto di un rivenditore di caffè di esempio.

  1. Aprire un browser e passare a https://fabrictutorialdata.blob.core.windows.net/sampledata/Coffee/Dim_Products.csv.
  2. Quando richiesto, salvare il file come Dim_Products.csv in una cartella nel computer.

In questa sezione si carica Dim_Products.csv in File in modo che i dati di origine non elaborati siano presenti in OneLake. L'area File di una lakehouse è una zona di archiviazione per utilizzo generico in OneLake. Si consideri la zona di destinazione per i dati non elaborati in qualsiasi formato in arrivo. Puoi inserire file CSV, JSON, Parquet, immagini, log o qualsiasi altro tipo di dato senza dover prima definire uno schema.

  1. In Lakehouse Explorer passare il puntatore del mouse su File, selezionare il menu altre opzioni (...) e quindi selezionare Carica file>.

  2. Nel riquadro Carica file selezionare l'icona della cartella e passare a Dim_Products.csv nel computer.

  3. Selezionare Carica, quindi chiudere il riquadro di caricamento.

  4. Selezionare la cartella File per visualizzarne il contenuto e verificare che Dim_Products.csv venga visualizzato.

  5. Selezionare Dim_Products.csv per visualizzarne i dati.

    Uno screenshot del portale di Fabric che mostra i dati CSV non strutturati nella sezione File di un lakehouse.

Il file ora si trova in OneLake, ma come CSV grezzo non è ancora qualcosa che SQL o Spark possano interrogare come tabella.

Caricare il file in una tabella Delta

Fabric adotta Delta Lake come formato di tabella standard in OneLake. Quando si carica un file nell'area Tables, Fabric legge il file di origine, deduce uno schema e scrive i dati come tabella Delta. Da questo punto in poi, ogni motore di Fabric può eseguire query sulla stessa tabella senza copiare o convertire nuovamente i dati.

  1. In Lakehouse Explorer aprire la cartella File .

  2. Passare il puntatore del mouse sul Dim_Products.csv file e selezionare il menu altre opzioni (...), quindi selezionare Carica nelle tabelle>Nuova tabella.

  3. Nella finestra di dialogo Carica nella tabella immettere dim_products per il nome della tabella, mantenere le impostazioni predefinite e selezionare Carica.

  4. Al termine del caricamento, espandere Tabelle e selezionare dim_products per visualizzare in anteprima le righe. Il file CSV non elaborato in File rimane invariato ed dim_products è una nuova tabella Delta creata.

    Screenshot che mostra i dati strutturati della tabella Delta nella sezione Tabelle di un lakehouse.

  5. Passare il puntatore del mouse dim_products e selezionare il menu altre opzioni (...), quindi selezionare Proprietà.

    La schermata Properties mostra i vari dettagli per la tabella, inclusi l'URL e il percorso ABFS (Blob File System) Azure che è possibile usare per fare riferimento a questa tabella in altri motori.

Riutilizzare i dati tramite un collegamento da una seconda lakehouse

Il caricamento e l'upload sono uno dei modi per inserire dati in OneLake. L'altro modello chiave consiste nel fare riferimento ai dati già esistenti in un'altra posizione, senza duplicarli. Questo è ciò che si intende per collegamento: un puntatore in OneLake che fa riferimento a dati archiviati in un'altra lakehouse, in un'altra area di lavoro Fabric o in origini supportate esterne a Fabric, come Azure Data Lake Storage o Amazon S3. I dati non sono copiati; rimane nel percorso di origine, ma è possibile leggerlo tramite OneLake come se fosse locale. Tutti gli aggiornamenti all'origine sono immediatamente visibili tramite il collegamento, quindi non è necessario gestire copie dei dati.

In questa sezione si crea una seconda lakehouse e si aggiunge un collegamento da quest’ultima alla tabella dim_products nella tua prima lakehouse. Questo riflette il modo in cui i team lavorano in genere, in cui un team possiede i dati curati e altri team o progetti lo utilizzano tramite collegamenti nelle proprie aree di lavoro.

  1. Nell'area di lavoro selezionare Nuovo elemento.
  2. Nel riquadro Nuovo elemento cercare e selezionare Lakehouse.
  3. Immettere un nome, ad esempio ShortcutLakehouse, quindi selezionare Crea.
  4. Nell'Explorer del nuovo lakehouse, posizionare il puntatore su Tabelle, selezionare il menu ... di Altre opzioni e quindi selezionare Nuovo collegamento.
  5. Nella pagina Nuova scelta rapida in Internal sources selezionare Microsoft OneLake.
  6. Nel browser dell'origine dati, seleziona la prima lakehouse che hai creato per questa guida introduttiva e quindi seleziona Avanti.
  7. Espandere Tabelle, selezionare la dim_products tabella e quindi selezionare Avanti.
  8. Esaminare la selezione e selezionare Crea.
  9. Espandere Tabelle in ShortcutLakehouse e verificare che dim_products venga visualizzato con un'icona di scelta rapida (un'immagine di collegamento piccola sull'icona della tabella). Selezionarlo per visualizzare in anteprima le righe. La tabella è identica a quella della lakehouse originale, ma non sono stati copiati dati.
  10. Passa il puntatore sulla tabella dim_products, seleziona Altre opzioni (...), quindi seleziona Gestisci scelta rapida. Nel riquadro Gestisci collegamento è possibile visualizzare i dettagli del collegamento, inclusa la destinazione di collegamento in cui sono archiviati i dati originali.

Pulire le risorse

Se non si prevede di continuare con le altre guide introduttive di OneLake, eliminare i lakehouse per evitare addebiti per l'archiviazione di OneLake rispetto alla capacità di Fabric.

  1. Nell'area di lavoro, posiziona il puntatore del mouse sulla lakehouse che vuoi eliminare.
  2. Selezionare il menu altre opzioni (...) accanto a lakehouse, selezionare Elimina e confermare l'eliminazione.

L'eliminazione dei lakehouse rimuove anche il contenuto al loro interno: il file caricato, la dim_products tabella Delta e il collegamento.