Fakturering for AI-funktioner

AI-funktioner bruger det indbyggede Fabric-hostede store sprogmodel (LLM) endpoint til at transformere og berige dine data uden separat endpoint-opsætning. Denne artikel forklarer faktureringsmåleren, forbrugsraterne og brugsovervågningsmulighederne for det indbyggede endepunkt.

Vigtig

Denne artikel gælder for AI-funktioner, der bruger det indbyggede Fabric LLM-endpoint. Du kan konfigurere et brugerdefineret Azure OpenAI, Microsoft Foundry eller OpenAI-kompatibelt endpoint til pandas og PySpark AI-funktioner. Når du gør det, styres faktureringen af det pågældende endpoint og din konfiguration. For opsætningsdetaljer, se Tilpas AI-funktioner med pandaer og Tilpas AI-funktioner med PySpark.

Faktureringsmåler

AI-funktionskald gennem det indbyggede Fabric LLM-endpoint faktureres til din Fabric-kapacitet under Copilot- og AI-måleren. I Microsoft Fabric Capacity Metrics-appen vises brugen som AI Functions-operationen.

Brug Faktureringsmåler eller drift
AI-funktionsmodelkald Copilot og AI-måler, rapporteret som AI-funktioner.
Spark compute, der kører en notebook eller Spark-job Spark-faktureringsmåler.
Dataflow Gen2-beregning, der kører transformationer Dataflow Gen2-brug.
Lager- eller SQL-analyse-endpoint forespørgselsberegning Brug af data warehouse eller SQL analytics endpoints.

Se omkostninger og udgifter

Brug Capacity Metrics-appen til at overvåge AI-funktioners forbrug og kapacitetspåvirkning:

  1. Åbn appen Microsoft Fabric Capacity Metrics.
  2. Filtrer efter kapacitet, arbejdsområde og tidsperiode, der kørte din AI Functions-arbejdsbyrde.
  3. I driftsniveau-visninger skal du kigge efter AI-funktioner under Copilot- og AI-måleren.
  4. Sammenlign AI Functions-operationen med Spark, Dataflow Gen2 eller lageroperationer for at adskille model-call-forbruget fra den compute, der orkestrerede arbejdsbelastningen.

Overvåg runtime-forbrug

Under udviklingen bør du bruge runtime-brugsstatistikker til at estimere og validere forbruget, før du skalerer en pipeline.

I pandas og PySpark-notebooks kan man få adgang ai.stats til AI-funktionsresultater for at se detaljer om udførelse og tokenbrug, herunder:

  • num_successful, num_exceptions, num_unevaluated, og num_harmful.
  • cached_tokens, input_tokens, output_tokens, og reasoning_tokens.
  • client_type, input_types, og model.
# This code uses AI. Always review output for mistakes.

df["summary"] = df["text"].ai.summarize()
display(df["summary"].ai.stats)
display(df.ai.stats)

Outputtet kan se ud som denne tabel:

num_successful num_exceptions num_unevaluated num_harmful cached_tokens input_tokens output_tokens reasoning_tokens client_type input_types model
2 0 0 0 0 555 4 0 fabric_llm_endpoint {"text": 2} GPT-5-mini

I pandas-notebooks skal progress_bar_mode="stats" man vise realtids token- og kapacitetsestimater, mens funktionen kører:

import synapse.ml.aifunc as aifunc

aifunc.default_conf.progress_bar_mode = "stats"

Fremdriftsbaren viser live og projicerede cachede estimater af input, input, output og kapacitetsenheder, og viser derefter de endelige værdier, når operationen er afsluttet. Se Progressbar-tilstande og tilpas AI-funktioner med PySpark.

Forbrugssatser

Medmindre du konfigurerer en anden model, er Python AI Functions for pandas og PySpark standard til gpt-5-mini med reasoning_effort sat til .low Forbruget baseres på token-brug. Input-, cache-input- og outputtokens kan have forskellige hastigheder.

Sprogmodeller

Model Navn på implementering Kontekstvindue (Tokens) input (pr. 1.000 tokens) Cachet input (pr. 1.000 tokens) output (pr. 1.000 tokens) Dato for tilbagetrækning
GPT-5.1-2025-11-13 gpt-5.1 400,000
Maksimal output: 128.000
42,02 CU-sekunder 4,20 CU-sekunder 336,13 CU sekunder
GPT-5-mini-2025-08-07 gpt-5-mini 400,000
Maksimal output: 128.000
8,40 CU-sekunder 0,84 CU-sekunder 67,23 CU-sekunder
gpt-4.1-mini-2025-04-14 gpt-4.1-mini 128,000
Maksimal output: 32.768
13,45 CU-sekunder 3,36 CU sekunder 53,78 CU-sekunder 30. juni 2026
gpt-5-2025-08-07 gpt-5 400,000
Maksimal output: 128.000
42,02 CU-sekunder 4,20 CU-sekunder 336,13 CU sekunder 11. juni 2026
gpt-4.1-2025-04-14 gpt-4.1 128,000
Maksimal output: 32.768
67,23 CU-sekunder 16,81 CU-sekunder 268,91 CU-sekunder 11. juni 2026

Indlejringsmodeller

Model Udsendelsesnavn Kontekstvindue (tokens) Input (pr. 1.000 tokens)
Ada text-embedding-ada-002 8,192 3,36 CU sekunder

Forbrugsraterne kan ændre sig. For den fulde liste over forbrugssatser og kursændringspolitik, se Forbrugsrate i Foundry Tools in Fabric.

Vejledning til modelmigrering

Den ældre GPT-4.1 modelserie bliver udfaset. Hvis du har fastgjort Python AI Functions-pipelines til gpt-4.1, migrerer dem til gpt-5.1. Hvis du fastgjorde pipelines til gpt-4.1-mini, migrerer dem til gpt-5-mini.

For mere avancerede transformationer kan du konfigurere gpt-5.1 eller tune reasoning_effort til at bruge mere beregning for højere kvalitet af resultater. For opsætningsdetaljer, se Tilpas AI-funktioner med pandaer og Tilpas AI-funktioner med PySpark.