分散トレーニング用にデータを準備する

この記事では、分散トレーニング用にデータを準備する方法について説明します。

メモリに収まらない非常に大規模なデータセットの場合は、ストリーミングアプローチを使用します。

カスタムストリーミングロジック用の PyTorch IterableDataset。
ハブまたはボリュームでホストされているデータセットのストリーミングを使用する Hugging Face データセット。
分散バッチデータ処理のためのRay Data。

TFRecord

また、分散ディープラーニングのデータソースとして、TFRecord 形式を使用することもできます。 TFRecord 形式は、多くの TensorFlow アプリケーションでデータのトレーニングに使用される、単純なレコード指向のバイナリ形式です。

tf.data.TFRecordDataset は、TFRecords ファイルのレコードで構成される TensorFlow データセットです。 TFRecord データの使用方法の詳細については、TensorFlow ガイドの TFRecord データの消費のセクションを参照してください。

次の記事では、データを TFRecord ファイルに保存し、TFRecord ファイルを読み込むためのお勧めの方法について説明します。

Apache Spark DataFrames を TFRecord ファイルとして保存する

フィードバック

このページはお役に立ちましたか?

Last updated on 2026-06-24