Fatturazione per le funzioni di intelligenza artificiale

Le funzioni di intelligenza artificiale usano l'endpoint LLM (Large Language Model) predefinito Fabric ospitato per trasformare e arricchire i dati senza configurare endpoint separati. Questo articolo illustra le opzioni di misurazione della fatturazione, tariffe di consumo e monitoraggio dell'utilizzo per l'endpoint predefinito.

Importante

Questo articolo si applica a Funzioni di intelligenza artificiale che usano l'endpoint LLM predefinito Fabric. È possibile configurare un endpoint personalizzato di Azure OpenAI, Microsoft Foundry o compatibile con OpenAI per le funzioni IA di pandas e PySpark. Quando si esegue questa operazione, la fatturazione è governata da tale endpoint e dalla configurazione. Per informazioni dettagliate sulla configurazione, vedere Personalizzare le funzioni di intelligenza artificiale con pandas e Personalizzare le funzioni di intelligenza artificiale con PySpark.

Contatore di fatturazione

Le chiamate alle funzioni di intelligenza artificiale tramite l'endpoint Fabric LLM predefinito vengono fatturate alla capacità di Fabric con il contatore di Copilot e intelligenza artificiale. Nell'app Microsoft Fabric Capacity Metrics l'utilizzo viene visualizzato come operazione di Funzioni di intelligenza artificiale.

Usage Contatore o operazione di fatturazione
Chiamate al modello per funzioni di IA Copilot e il misuratore AI, indicati come Funzioni IA.
Calcolo Spark che esegue un notebook o un processo Spark Contatore di fatturazione Spark.
Calcolo di Dataflow Gen2 che esegue trasformazioni Utilizzo di Dataflow Gen2.
Calcolo delle query nel data warehouse o nell'endpoint analitico SQL Data Warehouse o l'utilizzo degli endpoint di analisi SQL.

Visualizzare i costi e la spesa

Usare l'app Capacity Metrics per monitorare l'impatto sulla spesa e sulla capacità delle funzioni di intelligenza artificiale:

  1. Aprire l'app Microsoft Fabric Capacity Metrics.
  2. Filtra per capacità, area di lavoro e intervallo di tempo in cui è stato eseguito il tuo carico di lavoro di Funzioni di intelligenza artificiale.
  3. Nelle visualizzazioni a livello di operazioni, cercare Funzioni di AI sotto il misuratore Copilot e AI.
  4. Confronta l'operazione AI Functions con le operazioni Spark, Dataflow Gen2 o del data warehouse per separare il consumo delle chiamate al modello dalle risorse di calcolo che hanno orchestrato il carico di lavoro.

Monitorare l'utilizzo del runtime

Durante lo sviluppo, usare le statistiche di utilizzo del runtime per stimare e convalidare il consumo prima di ridimensionare una pipeline.

Nei notebook pandas e PySpark, accedi a ai.stats nei risultati delle funzioni di IA per visualizzare i dettagli di esecuzione e dell'utilizzo dei token, tra cui:

  • num_successful, num_exceptions, num_unevaluated e num_harmful.
  • cached_tokens, input_tokens, output_tokens e reasoning_tokens.
  • client_type, input_typese model.
# This code uses AI. Always review output for mistakes.

df["summary"] = df["text"].ai.summarize()
display(df["summary"].ai.stats)
display(df.ai.stats)

L'output potrebbe essere simile alla tabella seguente:

num_successful num_exceptions num_unevaluated num_harmful token memorizzati nella cache input_tokens output_tokens reasoning_tokens client_type input_types model
2 0 0 0 0 555 4 0 fabric_llm_endpoint {"text": 2} gpt-5-mini

Nei notebook di pandas, imposta progress_bar_mode="stats" per visualizzare le stime in tempo reale dei token e delle unità di capacità durante l'esecuzione della funzione:

import synapse.ml.aifunc as aifunc

aifunc.default_conf.progress_bar_mode = "stats"

La barra di avanzamento mostra stime in tempo reale e previste dell'input memorizzato nella cache, dell'input, dell'output e delle unità di capacità, quindi mostra i valori finali al completamento dell'operazione. Consulta Modalità della barra di avanzamento e Personalizzare le funzioni di intelligenza artificiale con PySpark.

Tassi di consumo

A meno che non si configuri un modello diverso, le funzioni di intelligenza artificiale di Python per pandas e PySpark usano per impostazione predefinita gpt-5-mini, con reasoning_effort impostato su low. Il consumo è basato sull'utilizzo dei token. I token di input, i token di input memorizzati nella cache e i token di output possono avere tariffe diverse.

Modelli linguistici

Modello Nome distribuzione Finestra di contesto (token) input (per 1.000 token) Input memorizzato nella cache (per 1.000 token) output (per 1.000 token) Data di ritiro
gpt-5.1-2025-11-13 gpt-5.1 400,000
Output massimo: 128.000
42,02 secondi CU 4,20 secondi cu 336,13 secondi CU
gpt-5-mini-2025-08-07 gpt-5-mini 400,000
Output massimo: 128.000
8,40 secondi CU 0,84 secondi CU 67,23 secondi CU
gpt-4.1-mini-2025-04-14 gpt-4.1-mini 128,000
Output massimo: 32.768
13,45 secondi CU 3,36 secondi CU 53,78 CU secondi 30 giugno 2026
gpt-5-2025-08-07 gpt-5 400,000
Output massimo: 128.000
42,02 secondi CU 4,20 secondi cu 336,13 secondi CU 11 giugno 2026
gpt-4.1-2025-04-14 gpt-4.1 128,000
Output massimo: 32.768
67,23 secondi CU 16,81 secondi CU 268,91 secondi CU 11 giugno 2026

Incorporamento di modelli

Modello Nome implementazione Finestra di contesto (token) Input (per 1.000 token)
Ada text-embedding-ada-002 8,192 3,36 secondi CU

I tassi di consumo sono soggetti a modifiche. Per l'elenco completo delle tariffe di consumo e i criteri di modifica delle tariffe, consulta Tariffa di consumo in Foundry Tools in Fabric.

Linee guida per la migrazione dei modelli

La serie di modelli GPT-4.1 precedente viene ritirata. Se hai aggiunto le pipeline di Python AI Functions a gpt-4.1, esegui la migrazione a gpt-5.1. Se hai aggiunto le pipeline a gpt-4.1-mini, migrale a gpt-5-mini.

Per trasformazioni più sofisticate, è possibile configurare gpt-5.1 o ottimizzare reasoning_effort l'uso di più calcolo per ottenere risultati di qualità superiore. Per informazioni dettagliate sulla configurazione, vedere Personalizzare le funzioni di intelligenza artificiale con pandas e Personalizzare le funzioni di intelligenza artificiale con PySpark.