この記事では、分散トレーニング用にデータを準備する方法について説明します。
メモリに収まらない非常に大規模なデータセットの場合は、ストリーミング アプローチを使用します。
- カスタム ストリーミング ロジック用の PyTorch IterableDataset。
- ハブまたはボリュームでホストされているデータセットのストリーミングを使用する Hugging Face データセット。
- 分散バッチデータ処理のためのRay Data。
TFRecord
また、分散ディープ ラーニングのデータ ソースとして、TFRecord 形式を使用することもできます。 TFRecord 形式は、多くの TensorFlow アプリケーションでデータのトレーニングに使用される、単純なレコード指向のバイナリ形式です。
tf.data.TFRecordDataset は、TFRecords ファイルのレコードで構成される TensorFlow データセットです。 TFRecord データの使用方法の詳細については、TensorFlow ガイドの TFRecord データの消費のセクションを参照してください。
次の記事では、データを TFRecord ファイルに保存し、TFRecord ファイルを読み込むためのお勧めの方法について説明します。