Important
単一ノード タスクの AI ランタイムは パブリック プレビュー段階です。 マルチ GPU ワークロード用の分散トレーニング API は ベータ版のままです。
AI ランタイムは、サーバーレス GPU コンピューティング用の 2 つのマネージド Python環境を提供します。torch、cuda、torchvisionを備えた最小限の Standard 環境と、PyTorch、Transformers、およびその他の ML およびディープ ラーニング フレームワークで事前に読み込まれた Databricks AI 環境です。 依存関係スタックを完全に制御する Standard 環境を選択するか、すぐに使用できるトレーニングセットアップ用の AI 環境を選択します。 どちらの環境からでも開始し、 %pip installを使用してパッケージを追加することもできます。
使用する環境は何か
AI ランタイムには、Standard 環境と Databricks AI 環境という 2 つのマネージド Python環境が用意されています。
| 環境 | 主な特性 | いつ使用するか |
|---|---|---|
| 標準環境 | 最小限。cuda を含みます。
環境バージョン 5 の時点では、torchとtorchvisionはプレインストールされなくなりました。 |
依存関係スタックを完全に制御し、必要なもののみをインストールする必要がある場合 |
| Databricks AI 環境 | 人気のある機械学習(ML)フレームワーク(PyTorch、Transformers など)が事前にインストールされています | 手動の依存関係管理を使用せずに、トレーニング、微調整、実験のための完全な環境が必要です |
また、ワークスペース管理者がサーバーレス GPU コンピューティング用に構築したワークスペース ベース環境 を使用することもできます。 サーバーレス GPU コンピューティング (AI ランタイム) のビルドを参照してください。
標準環境 (最小環境)
AI ランタイム操作に必要なパッケージのみを含む、最小限の安定した環境。 この環境には、GPU サポート用の cuda が含まれています。 環境バージョン 5 の時点では、 torch と torchvision はプレインストールされなくなりました。
pip installを使用して、ワークロードに必要なバージョンをインストールします。 各環境バージョンにインストールされているパッケージについては、以下のリリース ノートを参照してください。
最適: 依存関係スタックを完全に制御し、必要なものだけをインストールするユーザー。
選択するには、[ 環境 ] サイド パネルで、基本環境として Standard v5 または Standard v4 を選択します。
さまざまなバージョンにインストールされているパッケージ バージョンの詳細については、リリース ノートを参照してください。
Databricks AI 環境
環境 4 以降で使用できます。 AI 環境は、GPU 上の機械学習に固有の一般的なランタイム パッケージとパッケージを使用して、Standard 環境の上に構築されています。 プレインストールされたパッケージには、次のものが含まれます。
- PyTorch (CUDA サポートあり)
- トランスフォーマー (ハギングフェイス)
- その他の ML/DL 依存関係
最適: 手動の依存関係管理を使用せずに、ワークロードのトレーニング、微調整、実験のための完全な環境を必要とする ML 専門家。
選択するには、[ 環境 ] サイド パネルで、ベース環境として AI v5 または AI v4 を選択します。
さまざまなバージョンにインストールされているパッケージ バージョンの詳細については、リリース ノートを参照してください。
ワークスペースの基本環境
ワークスペース管理者は、サーバーレス GPU コンピューティング用の ワークスペース基本環境 を構築できます。これにより、[ 基本環境 ] ドロップダウン メニューを使用して、ワークスペース内のすべてのユーザーがワークスペースを使用できるようになります。 詳細については、「 サーバーレス GPU コンピューティング用のビルド (AI ランタイム)」を参照してください。
また、提供されているいずれかの基本環境 (既定または Databricks AI) から開始し、ノートブック内またはトレーニング スクリプトの上部にある %pip install を使用してプログラムで追加のパッケージをインストールすることで、プロジェクトごとにディープ ラーニング環境を構成することもできます。
%pip install datasets accelerate peft bitsandbytes
マルチ GPU ワークロードに @distributed デコレーターを使用する場合、%pip installを呼び出す前に .distributed() と共にインストールされたパッケージは、自動的にスナップショットが作成され、すべての分散プロセスに伝達されます。 インストールされているパッケージの合計サイズは、15 GB を超えてはなりません。
詳細については、「 ノートブックへの依存関係の追加」を参照してください。
環境キャッシュとカスタム モジュール
環境はいつキャッシュされますか?
起動時間を短縮するために、環境はセッション間でキャッシュされます。 同じ環境構成で AI ランタイムに再接続すると、以前にインストールされたパッケージがキャッシュから使用できる可能性があり、セットアップ時間が短縮されます。
ただし、キャッシュの動作は保証されないため、ノートブックに再現性のために必要な %pip install コマンドが必ず含まれていることを確認してください。
カスタム モジュールをインポートする方法
カスタム モジュールをインポートするには、 /Workspace/Shared に配置し、 sys.pathへのパスを追加します。
import sys
sys.path.append("/Workspace/Shared/my-project/src")
from my_module import my_function
モジュール ファイルをワークスペース ファイルとしてアップロードし、直接インポートすることもできます。 マルチユーザー コラボレーションの場合は、ユーザー固有のフォルダーではなく、 /Workspace/Shared に共有コードを格納します。 アクティブな開発では、ユーザー固有のフォルダーを使用し、バージョン管理のためにリモート Git リポジトリにプッシュします。
制限事項
次の機能は、AI ランタイムでは使用できません。
- Spark 関数: PySpark 関数を直接インポートまたは使用することはできません。 AI ランタイムは Python 専用の環境です。Spark はローカル ランタイムとして使用できません。 ただし、Spark Connect はデータの読み込みに使用できます。 AI ランタイムでのデータの読み込みを参照してください。
- Databricks ランタイム ML ライブラリ: プレインストールされたパッケージは、Databricks Runtime ML の代わりではありません。 Databricks Runtime ML で使用できる一部の ML ライブラリは、AI ランタイムにプレインストールされない場合があります。
- プライベート成果物: AI ランタイムは、特定の場合にプライベート成果物をサポートします。 詳細については、アカウント チームにお問い合わせください。