Nota
O acesso a esta página requer autorização. Pode tentar iniciar sessão ou alterar os diretórios.
O acesso a esta página requer autorização. Pode tentar alterar os diretórios.
Importante
A CLI do ambiente de execução de IA está em fase Beta.
Envia a tua primeira tarefa de treino com a CLI do AI Runtime em três etapas: escreve uma configuração train.yaml, executa-a com air run e depois inspeciona a execução. Antes de começar, instala a CLI e configura a autenticação.
Passo 1: Escrever uma configuração YAML
Crie train.yaml que descreva a carga de trabalho. A configuração mínima requer um nome de experiência, uma especificação de computação e um comando. O comando abaixo corre sem qualquer código local, por isso pode submeter a sua primeira execução imediatamente:
experiment_name: my-first-air-run
compute:
num_accelerators: 1
accelerator_type: GPU_1xA10
command: echo "hello AIR!"
Executa o teu próprio código
Para executar um script de treino local, adiciona um environment bloco que liste as tuas dependências em Python e um code_source bloco que carregue o teu código local. Coloque o seu script ao lado de train.yaml:
my-project/
├── train.yaml
└── train.py
experiment_name: my-first-air-run
environment:
version: '4'
dependencies:
- torch
- transformers
compute:
num_accelerators: 1
accelerator_type: GPU_1xA10
code_source:
type: snapshot
snapshot:
root_path: .
command: python $CODE_SOURCE_PATH/train.py
Esta configuração instala as dependências listadas, carrega o diretório atual (root_path: .), e corre train.py numa única GPU A10.
$CODE_SOURCE_PATH corresponde à localização do código enviado no nó remoto. O Databricks recomenda usar isto em vez de codificar diretamente um caminho.
environment.version seleciona a versão do ambiente serverless de GPU e é opcional (a predefinição é '4'). Para todas as versões disponíveis, consulte Versões do ambiente sem servidor.
Para a referência completa dos campos, consulte referência de YAML de Workload.
Passo 2: Enviar a execução
Enviar a carga de trabalho:
air run --file train.yaml
A CLI carrega o seu código local (se tiver configurado um code_source), submete o trabalho e imprime um ID de execução. Usa esse ID para inspecionar, observar e cancelar a execução em comandos posteriores.
A submissão cria uma execução na experiência do MLflow com o nome indicado em experiment_name (uma experiência pode conter muitas execuções). Esta execução captura as métricas, os parâmetros, os artefactos e os logs da carga de trabalho, todos visíveis na interface do MLflow da área de trabalho. Os registos também estão disponíveis fora do MLflow: transmita-os para o seu terminal ou para um ficheiro, ou descarregue-os mais tarde com air logs (ver Passo 3).
Para acompanhar os registos até à conclusão, adicione --watch:
air run --file train.yaml --watch
Passo 3: Inspecionar a execução
Verificar o estado:
air get run <run-id>
O resultado inclui hiperligações clicáveis para a experiência do MLflow associada à execução e para a execução do MLflow na interface do utilizador do espaço de trabalho.
Transmita ou descarregue registos:
air logs <run-id>
air logs <run-id> --node 2
air logs <run-id> --download-to ./logs/
As cargas de trabalho distribuídas são executadas por vários nós. Por predefinição, air logs transmite a partir do nó 0. Para visualizar registos de um nó específico, passe --node. Use-o --download-to para escrever registos num diretório local em vez de os transmitir em streaming.
Lista de corridas recentes:
air list runs --limit 10
air list runs --active
Cancelar uma execução:
air cancel <run-id>
Padrões comuns
Sobrescrever campos YAML da linha de comandos:
air run --file train.yaml --override compute.num_accelerators=32 timeout_minutes=120
Valide a configuração sem submeter:
air run --file train.yaml --dry-run
Torne a submissão segura para nova tentativa:
air run --file train.yaml --idempotency-key my-unique-key
Se a mesma chave já foi usada antes, a execução existente é devolvida em vez de criar uma nova.