Fakturering for AI-funktioner

AI-funktioner bruger det indbyggede Fabric-hostede store sprogmodel (LLM) endpoint til at transformere og berige dine data uden separat endpoint-opsætning. Denne artikel forklarer faktureringsmåleren, forbrugsraterne og brugsovervågningsmulighederne for det indbyggede endepunkt.

Vigtig

Denne artikel gælder for AI-funktioner, der bruger det indbyggede Fabric LLM-endpoint. Du kan konfigurere et brugerdefineret Azure OpenAI, Microsoft Foundry eller OpenAI-kompatibelt endpoint til pandas og PySpark AI-funktioner. Når du gør det, styres faktureringen af det pågældende endpoint og din konfiguration. For opsætningsdetaljer, se Tilpas AI-funktioner med pandaer og Tilpas AI-funktioner med PySpark.

Faktureringsmåler

AI-funktionskald gennem det indbyggede Fabric LLM-endpoint faktureres til din Fabric-kapacitet under Copilot- og AI-måleren. I Microsoft Fabric Capacity Metrics-appen vises brugen som AI Functions-operationen.

Brug	Faktureringsmåler eller drift
AI-funktionsmodelkald	Copilot og AI-måler, rapporteret som AI-funktioner.
Spark compute, der kører en notebook eller Spark-job	Spark-faktureringsmåler.
Dataflow Gen2-beregning, der kører transformationer	Dataflow Gen2-brug.
Lager- eller SQL-analyse-endpoint forespørgselsberegning	Brug af data warehouse eller SQL analytics endpoints.

Se omkostninger og udgifter

Brug Capacity Metrics-appen til at overvåge AI-funktioners forbrug og kapacitetspåvirkning:

Åbn appen Microsoft Fabric Capacity Metrics.
Filtrer efter kapacitet, arbejdsområde og tidsperiode, der kørte din AI Functions-arbejdsbyrde.
I driftsniveau-visninger skal du kigge efter AI-funktioner under Copilot- og AI-måleren.
Sammenlign AI Functions-operationen med Spark, Dataflow Gen2 eller lageroperationer for at adskille model-call-forbruget fra den compute, der orkestrerede arbejdsbelastningen.

Overvåg runtime-forbrug

Under udviklingen bør du bruge runtime-brugsstatistikker til at estimere og validere forbruget, før du skalerer en pipeline.

I pandas og PySpark-notebooks kan man få adgang ai.stats til AI-funktionsresultater for at se detaljer om udførelse og tokenbrug, herunder:

num_successful, num_exceptions, num_unevaluated, og num_harmful.
cached_tokens, input_tokens, output_tokens, og reasoning_tokens.
client_type, input_types, og model.

Pandaer
PySpark

# This code uses AI. Always review output for mistakes.

df["summary"] = df["text"].ai.summarize()
display(df["summary"].ai.stats)
display(df.ai.stats)

# This code uses AI. Always review output for mistakes.

results = df.ai.summarize(input_col="text", output_col="summary")
display(results.ai.stats)

Outputtet kan se ud som denne tabel:

num_successful	num_exceptions	num_unevaluated	num_harmful	cached_tokens	input_tokens	output_tokens	reasoning_tokens	client_type	input_types	model
2	0	0	0	0	555	4	0	fabric_llm_endpoint	`{"text": 2}`	GPT-5-mini

I pandas-notebooks skal progress_bar_mode="stats" man vise realtids token- og kapacitetsestimater, mens funktionen kører:

import synapse.ml.aifunc as aifunc

aifunc.default_conf.progress_bar_mode = "stats"

Fremdriftsbaren viser live og projicerede cachede estimater af input, input, output og kapacitetsenheder, og viser derefter de endelige værdier, når operationen er afsluttet. Se Progressbar-tilstande og tilpas AI-funktioner med PySpark.

Forbrugssatser

Medmindre du konfigurerer en anden model, er Python AI Functions for pandas og PySpark standard til gpt-5-mini med reasoning_effort sat til .low Forbruget baseres på token-brug. Input-, cache-input- og outputtokens kan have forskellige hastigheder.

Sprogmodeller

Model	Navn på implementering	Kontekstvindue (Tokens)	input (pr. 1.000 tokens)	Cachet input (pr. 1.000 tokens)	output (pr. 1.000 tokens)	Dato for tilbagetrækning
GPT-5.1-2025-11-13	`gpt-5.1`	400,000 Maksimal output: 128.000	42,02 CU-sekunder	4,20 CU-sekunder	336,13 CU sekunder
GPT-5-mini-2025-08-07	`gpt-5-mini`	400,000 Maksimal output: 128.000	8,40 CU-sekunder	0,84 CU-sekunder	67,23 CU-sekunder
gpt-4.1-mini-2025-04-14	`gpt-4.1-mini`	128,000 Maksimal output: 32.768	13,45 CU-sekunder	3,36 CU sekunder	53,78 CU-sekunder	30. juni 2026
gpt-5-2025-08-07	`gpt-5`	400,000 Maksimal output: 128.000	42,02 CU-sekunder	4,20 CU-sekunder	336,13 CU sekunder	11. juni 2026
gpt-4.1-2025-04-14	`gpt-4.1`	128,000 Maksimal output: 32.768	67,23 CU-sekunder	16,81 CU-sekunder	268,91 CU-sekunder	11. juni 2026

Indlejringsmodeller

Model	Udsendelsesnavn	Kontekstvindue (tokens)	Input (pr. 1.000 tokens)
Ada	`text-embedding-ada-002`	8,192	3,36 CU sekunder

Forbrugsraterne kan ændre sig. For den fulde liste over forbrugssatser og kursændringspolitik, se Forbrugsrate i Foundry Tools in Fabric.

Vejledning til modelmigrering

Den ældre GPT-4.1 modelserie bliver udfaset. Hvis du har fastgjort Python AI Functions-pipelines til gpt-4.1, migrerer dem til gpt-5.1. Hvis du fastgjorde pipelines til gpt-4.1-mini, migrerer dem til gpt-5-mini.

For mere avancerede transformationer kan du konfigurere gpt-5.1 eller tune reasoning_effort til at bruge mere beregning for højere kvalitet af resultater. For opsætningsdetaljer, se Tilpas AI-funktioner med pandaer og Tilpas AI-funktioner med PySpark.

Feedback

Var denne side nyttig?

Last updated on 2026-06-15