Implantações expressas para pontos de extremidade do serviço de modelo

Este artigo descreve como usar implantações expressas em seu pontos de extremidade do Serviço de Modelo. As implantações expressas reduzem drasticamente os tempos de implantação e mantêm o ambiente de serviço do modelo igual ao ambiente de treinamento do modelo.

Note

As implantações expressas eram chamadas anteriormente de implantações otimizadas sem servidor.

O que são implantações expressas?

As implantações expressas aproveitam o empacotamento e o preparo de artefatos do modelo em ambientes de notebook sem servidor durante o registro do modelo, resultando na implantação acelerada do ponto de extremidade e ambientes consistentes entre treinamento e serviço.

Isso difere das implantações não expressas, em que artefatos e ambientes de modelo são empacotados em contêineres no momento da implantação. Nesses casos, o ambiente de serviço pode não corresponder ao usado durante o treinamento de modelo.

Requirements

Os endpoints de implantação Express têm os mesmos requisitos dos endpoints de disponibilização de modelo (consulte Requisitos). Além disso:

  • O modelo deve ser um modelo personalizado (não FMAPI)
  • O modelo deve ser registrado e registrado em um Notebook sem servidor usando a versão 3 ou 4
  • O modelo deve ser registrado e cadastrado com mlflow>=3.1
  • O modelo deve ser registrado no Catálogo do Unity e servido com computação de CPU ou GPU
  • O tamanho máximo do ambiente do modelo é de 1 GB

Note

Para atender a um LLM personalizado na computação de GPU usando implantações expressas, consulte Atender a LLMs personalizados com o Serviço de Modelo Personalizado.

Usando implantações rápidas

Ao fazer o log e registrar um modelo, use um Notebook sem Servidor com o cliente 3 ou 4 e mlflow>=3.1.

Para ajustar a versão do cliente do ambiente sem servidor, consulte Configurar o ambiente sem servidor.

Em seguida, ao registrar um modelo, defina o env_pack parâmetro com os valores desejados.

import mlflow
from mlflow.utils.env_pack import EnvPackConfig

mlflow.register_model(
    model_info.model_uri,
    model_name,
    env_pack=EnvPackConfig(name="databricks_model_serving")
)

Adicionar o parâmetro env_pack empacotará e preparará os artefatos do modelo e o ambiente do notebook sem servidor durante o registro do modelo para que ele esteja pronto para uso na implantação. Isso pode levar mais tempo em comparação ao registro do modelo sem env_pack.

EnvPackConfig tem um parâmetro install_dependencies (True por padrão) que determina se as dependências do modelo estão instaladas no ambiente atual para confirmar se o ambiente é válido. Se você quiser ignorar essa etapa, defina o valor como False.

Note

Pontos de extremidade em workspaces sem acesso à Internet ou pontos de extremidade com dependências em bibliotecas personalizadas podem ter falha se install_dependencies estiver definido como True. Nesses casos, defina install_dependencies como False.

Você também pode substituir EnvPackConfig(...) por "databricks_model_serving" como uma forma abreviada. Isso é equivalente a EnvPackConfig(name="databricks_model_serving", install_dependencies = True).

Depois que o registro do modelo for concluído, você poderá implantar o modelo no serviço de disponibilização do modelo. Observe que o tempo de implantação é reduzido e os logs de eventos não indicam mais o build do contêiner.