Início rápido da CLI em tempo de execução de IA

Importante

A CLI do ambiente de execução de IA está em fase Beta.

Envia a tua primeira tarefa de treino com a CLI do AI Runtime em três etapas: escreve uma configuração train.yaml, executa-a com air run e depois inspeciona a execução. Antes de começar, instala a CLI e configura a autenticação.

Passo 1: Escrever uma configuração YAML

Crie train.yaml que descreva a carga de trabalho. A configuração mínima requer um nome de experiência, uma especificação de computação e um comando. O comando abaixo corre sem qualquer código local, por isso pode submeter a sua primeira execução imediatamente:

experiment_name: my-first-air-run
compute:
  num_accelerators: 1
  accelerator_type: GPU_1xA10
command: echo "hello AIR!"

Executa o teu próprio código

Para executar um script de treino local, adiciona um environment bloco que liste as tuas dependências em Python e um code_source bloco que carregue o teu código local. Coloque o seu script ao lado de train.yaml:

my-project/
├── train.yaml
└── train.py
experiment_name: my-first-air-run
environment:
  version: '4'
  dependencies:
    - torch
    - transformers
compute:
  num_accelerators: 1
  accelerator_type: GPU_1xA10
code_source:
  type: snapshot
  snapshot:
    root_path: .
command: python $CODE_SOURCE_PATH/train.py

Esta configuração instala as dependências listadas, carrega o diretório atual (root_path: .), e corre train.py numa única GPU A10. $CODE_SOURCE_PATH corresponde à localização do código enviado no nó remoto. O Databricks recomenda usar isto em vez de codificar diretamente um caminho. environment.version seleciona a versão do ambiente serverless de GPU e é opcional (a predefinição é '4'). Para todas as versões disponíveis, consulte Versões do ambiente sem servidor.

Para a referência completa dos campos, consulte referência de YAML de Workload.

Passo 2: Enviar a execução

Enviar a carga de trabalho:

air run --file train.yaml

A CLI carrega o seu código local (se tiver configurado um code_source), submete o trabalho e imprime um ID de execução. Usa esse ID para inspecionar, observar e cancelar a execução em comandos posteriores.

A submissão cria uma execução na experiência do MLflow com o nome indicado em experiment_name (uma experiência pode conter muitas execuções). Esta execução captura as métricas, os parâmetros, os artefactos e os logs da carga de trabalho, todos visíveis na interface do MLflow da área de trabalho. Os registos também estão disponíveis fora do MLflow: transmita-os para o seu terminal ou para um ficheiro, ou descarregue-os mais tarde com air logs (ver Passo 3).

Para acompanhar os registos até à conclusão, adicione --watch:

air run --file train.yaml --watch

Passo 3: Inspecionar a execução

Verificar o estado:

air get run <run-id>

O resultado inclui hiperligações clicáveis para a experiência do MLflow associada à execução e para a execução do MLflow na interface do utilizador do espaço de trabalho.

Transmita ou descarregue registos:

air logs <run-id>
air logs <run-id> --node 2
air logs <run-id> --download-to ./logs/

As cargas de trabalho distribuídas são executadas por vários nós. Por predefinição, air logs transmite a partir do nó 0. Para visualizar registos de um nó específico, passe --node. Use-o --download-to para escrever registos num diretório local em vez de os transmitir em streaming.

Lista de corridas recentes:

air list runs --limit 10
air list runs --active

Cancelar uma execução:

air cancel <run-id>

Padrões comuns

Sobrescrever campos YAML da linha de comandos:

air run --file train.yaml --override compute.num_accelerators=32 timeout_minutes=120

Valide a configuração sem submeter:

air run --file train.yaml --dry-run

Torne a submissão segura para nova tentativa:

air run --file train.yaml --idempotency-key my-unique-key

Se a mesma chave já foi usada antes, a execução existente é devolvida em vez de criar uma nova.

Recursos adicionais