KI-Funktionen: Daten in großem Maßstab mit KI transformieren

KI-Funktionen in Microsoft Fabric wenden einzeilige, LLM-basierte Transformationen auf große pandas- oder PySpark-DataFrames an. Sie werden standardmäßig mit hoher Parallelität ausgeführt, sodass Sie Daten schnell im Maßstab anreichern, klassifizieren, zusammenfassen und extrahieren können.

Verwenden Sie diese Tabelle, um zu Beispielen in dieser Übersicht oder in der ausführlichen Dokumentation zu pandas und PySpark zu gelangen.

Funktion	Beschreibung	Ausführliche Dokumentation
`ai.analyze_sentiment`	Erkennen Sie den emotionalen Zustand des Eingabetexts. Beispiel.	Pandas, PySpark
`ai.classify`	Kategorisieren Sie Eingabetext gemäß Ihren Bezeichnungen. Beispiel.	Pandas, PySpark
`ai.embed`	Generieren Sie Vektoreinbettungen für Eingabetext. Beispiel.	Pandas, PySpark
`ai.extract`	Extrahieren Sie Felder wie Speicherorte, Namen oder benutzerdefinierte Entitäten. Beispiel.	Pandas, PySpark
`ai.fix_grammar`	Korrigieren von Rechtschreibung, Grammatik und Interpunktion. Beispiel.	Pandas, PySpark
`ai.generate_response`	Generieren Sie Antworten basierend auf Ihren Anweisungen. Beispiel.	Pandas, PySpark
`ai.similarity`	Vergleichen Sie den Textinhalt mit einem Wert oder einer anderen Spalte. Beispiel.	Pandas, PySpark
`ai.summarize`	Zusammenfassen von Text-, Datei- oder Zeilendaten. Beispiel.	Pandas, PySpark
`ai.translate`	Übersetzen Sie Eingabetext in eine andere Sprache. Beispiel.	Pandas, PySpark

Sie können KI-Funktionen in Notizbüchern mit Pandas oder PySpark, in SQL-Abfragen und in Dataflow Gen2 verwenden. Fabric übernimmt die Einrichtung des Endpunkts für das integrierte Modell.

Verwenden von KI-Funktionen in Fabric Umgebungen

KI-Funktionen stehen in mehreren Fabric Erfahrungen zur Verfügung:

Notizbücher: Verwenden Sie die Pandas und PySpark-APIs, um DataFrames in Data Science- und Data Engineering-Workflows zu bereichern.
Warehouse und SQL-Analyseendpunkt: Verwenden Sie KI-Funktionen in einem Warehouse oder SQL-Analyseendpunkt, um SQL-basierte Funktionen wie ai_summarize, ai_classify und ai_generate_response direkt in T-SQL-Abfragen aufzurufen.
Dataflow Gen2: Verwenden Sie Fabric KI-Eingabeaufforderung in Dataflow Gen2, um KI-generierte Spalten in Power Query hinzuzufügen.

Verwenden von multimodalen KI-Funktionen

Multimodale KI-Funktionen verarbeiten Bilder, PDFs und Textdateien zusätzlich zu Textwerten. Verwenden Sie sie, um PDF-Dateien zusammenzufassen, Bilder zu klassifizieren, Dokumentfelder zu extrahieren oder Antworten zu generieren, die in Dateiinhalten enthalten sind.

Unterstützte Dateitypen sind JPG/JPEG, PNG, statische GIF, WebP, PDF, MD, TXT, CSV, TSV, JSON, XML, PY und andere Textdateien. Legen Sie column_type="path" in pandas oder input_col_type oder col_types in PySpark fest. Beispiele finden Sie unter "Verwenden von multimodalen Eingaben mit KI-Funktionen".

Prerequisites

Um KI-Funktionen mit dem integrierten KI-Endpunkt in Fabric zu verwenden, muss Ihr Administrator die Mandantenoption für Copilot und andere Features aktivieren, die von Azure OpenAI unterstützt werden.
Je nach Standort müssen Sie möglicherweise eine Mandanteneinstellung für die geoübergreifende Verarbeitung aktivieren. Erfahren Sie mehr über die verfügbaren Regionen für Azure OpenAI Service.
Sie benötigen eine kostenpflichtige Fabric-Kapazität (F2 oder höher oder eine beliebige P-Edition).

Note

KI-Funktionen werden in Fabric Runtime 1.3 und höher unterstützt.
Python AI-Funktionen für pandas und PySpark sind jetzt standardmäßig auf gpt-5-mini gesetzt, wobei reasoning_effort auf low gesetzt ist. Dieses Modell verfügt über ein Kontextfenster von 400.000 Token und eine maximale Ausgabe von 128.000 Token. Modellgrenzwerte und -preise finden Sie in der Tabelle mit den Sprachmodellen.
AI Functions in Dataflow Gen2 und Warehouse erhalten bis Ende Juni 2026 das gleiche Modellupgrade.
Obwohl das zugrunde liegende Modell mehrere Sprachen verarbeiten kann, sind die meisten KI-Funktionen für englischen Text optimiert.
KI-Funktionen protokollieren oder speichern keine Benutzeraufforderungen, Eingabedaten oder Ausgaben.

Modelle und Anbieter

AI-Funktionen verwenden standardmäßig den integrierten Fabric Endpunkt. Sie können auch pandas und PySpark AI-Funktionen so konfigurieren, dass sie jedes LLM verwenden, das die API chat_completions oder responses unterstützt, darunter:

Azure OpenAI-Modelle.
Microsoft Foundry Modelle wie Qwen, Kimi, Grok, LLaMA, Mistral und mehr.

Konfigurationsoptionen finden Sie unter Anpassen von KI-Funktionen mit Pandas und Anpassen von KI-Funktionen mit PySpark.

Einrichten von KI-Funktionen

KI-Funktionen unterstützen Pandas in Python- und PySpark-Laufzeiten und PySpark in der PySpark-Laufzeit. Installieren Sie nur die Pakete, die Ihre Laufzeit benötigt.

Leistung und Parallelität

KI-Funktionen verarbeiten standardmäßig bis zu 200 Zeilen gleichzeitig. Optimieren Sie die Parallelität für Ihre Workload in Pandas oder PySpark.

Installieren von Abhängigkeiten

Runtime	Abhängigkeiten
pandas (Python-Laufzeitumgebung)	Installieren Sie die `synapseml_internal`- und `synapseml_core`-Wheel-Dateien. Installieren Sie `openai` Version 1.99.5 oder höher nur, wenn Sie SDK-systemeigenes Clientverhalten oder Pydantic-Antwortformatbeispiele benötigen.
pandas (PySpark-Laufzeit)	Für die meisten Verwendung ist keine Installation erforderlich. Installieren Sie `openai` Version 1.99.5 oder höher nur, wenn Sie SDK-systemeigenes Clientverhalten oder Pydantic-Antwortformatbeispiele benötigen.
PySpark (PySpark Runtime)	Eine erneute Installation ist nicht erforderlich.

Pandas (PySpark Runtime)
Pandas (Python-Laufzeitumgebung)

# Optional: install openai version 1.99.5 or later for SDK-native client behavior.
%pip install -q openai 2>/dev/null

# Install latest versions of AI Functions library whl
!wget -q https://aka.ms/fabric-aifunctions-whl -O synapseml_internal-latest-py3-none-any.whl
!wget -q https://aka.ms/fabric-synapseml-core-whl -O synapseml_core-latest-py3-none-any.whl

# openai version 1.99.5 or later is included for SDK-native client behavior.
# To keep the environment lightweight, remove "openai" from the install command.
%pip install -q openai synapseml_internal-latest-py3-none-any.whl synapseml_core-latest-py3-none-any.whl

Importieren erforderlicher Bibliotheken

Importieren Sie die KI-Funktionen-Bibliothek für Ihre Laufzeit.

pandas
PySpark

# Required imports
import synapse.ml.aifunc as aifunc
import pandas as pd

import synapse.ml.spark.aifunc as aifunc

# SparkSession with accessor `spark` in PySpark environments is pre-setup and available for use

Verwenden von Hilfsfunktionen für Dateien und Schemas

KI-Funktionen umfassen Hilfsprogramme für multimodale Workflows:

aifunc.load: Aufnehmen von Dateien aus einem Ordner in eine strukturierte Tabelle. Sie können eine Eingabeaufforderung oder ein Schema bereitstellen.
aifunc.list_file_paths: Aufzählen von Datei-URLs und Pfaden aus einem Ordner zur Verwendung als Eingabe für jede KI-Funktion.
ai.infer_schema: Ein Extraktionsschema aus Dateiinhalten zur Verwendung mit ai.extract ableiten.

Beispiele finden Sie unter "Verwenden von multimodalen Eingaben mit KI-Funktionen".

Anwenden von KI-Funktionen

Die folgenden Beispiele zeigen die wichtigsten KI-Funktionen für Pandas und PySpark. PySpark AI-Funktionen werden als verteilte Spark-Transformationen über Fabric Spark-Cluster ausgeführt.

Note

Die meisten KI-Funktionen unterstützen Dateipfade mit column_type="path" in pandas oder input_col_type/col_types="path" in PySpark. Beispiele finden Sie unter "Verwenden von multimodalen Eingaben mit KI-Funktionen".

Tip

Das Standardmodell Python ist gpt-5-mini mit reasoning_effort="low". Informationen zum Ändern von Modellen oder Optimieren von Einstellungen finden Sie unter Pandas-Konfiguration oder PySpark-Konfiguration.

ai.analyze_sentiment: Erkennen der Stimmung

Die ai.analyze_sentiment Funktion beschriftt jede Eingabe als positiv, negativ, gemischt oder neutral. Sie können auch benutzerdefinierte Bezeichnungen bereitstellen.

pandas
PySpark

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "The cleaning spray permanently stained my beautiful kitchen counter. Never again!",
        "I used this sunscreen on my vacation to Florida, and I didn't get burned at all. Would recommend.",
        "I'm torn about this speaker system. The sound was high quality, though it didn't connect to my roommate's phone.",
        "The umbrella is OK, I guess."
    ], columns=["reviews"])

df["sentiment"] = df["reviews"].ai.analyze_sentiment()
display(df)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("The cleaning spray permanently stained my beautiful kitchen counter. Never again!",),
        ("I used this sunscreen on my vacation to Florida, and I didn't get burned at all. Would recommend.",),
        ("I'm torn about this speaker system. The sound was high quality, though it didn't connect to my roommate's phone.",),
        ("The umbrella is OK, I guess.",)
    ], ["reviews"])

sentiment = df.ai.analyze_sentiment(input_col="reviews", output_col="sentiment")
display(sentiment)

ai.klassifizieren: Text kategorisieren

Die ai.classify Funktion kategorisiert Eingabetext mithilfe der von Ihnen bereitgestellten Beschriftungen.

pandas
PySpark

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])

df["category"] = df['descriptions'].ai.classify("kitchen", "bedroom", "garage", "other")
display(df)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",),
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",),
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",)
    ], ["descriptions"])
    
categories = df.ai.classify(labels=["kitchen", "bedroom", "garage", "other"], input_col="descriptions", output_col="categories")
display(categories)

ai.embed: Generieren von Vektoreinbettungen

Die ai.embed Funktion konvertiert Text in numerische Vektoren, die die semantische Bedeutung erfassen. Verwenden Sie Einbettungen für Ähnlichkeitssuche, Abruf- und Machine Learning-Workflows.

pandas
PySpark

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])
    
df["embed"] = df["descriptions"].ai.embed()
display(df)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",), 
        ("Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",), 
        ("Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!",) 
    ], ["descriptions"])

embed = df.ai.embed(input_col="descriptions", output_col="embed")
display(embed)

ai.extract: Extrahieren von Entitäten

Die ai.extract Funktion extrahiert Felder wie Namen, Speicherorte oder benutzerdefinierte Entitäten aus Eingabetext.

Strukturierte Bezeichnungen

Verwenden Sie ExtractLabel, wenn Sie eine typisierte Extraktion benötigen. Es unterstützt JSON-Schemakonstrukte wie typierte Felder, Enumerationen, Arrays, geschachtelte Objekte, Nullwerte, erforderliche Eigenschaften und additionalProperties=false. Beispiele finden Sie unter Pandas oder PySpark.

pandas
PySpark

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "MJ Lee lives in Tucson, AZ, and works as a software engineer for Microsoft.",
        "Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
    ], columns=["descriptions"])

df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("MJ Lee lives in Tucson, AZ, and works as a software engineer for Microsoft.",),
        ("Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey.",)
    ], ["descriptions"])

df_entities = df.ai.extract(labels=["name", "profession", "city"], input_col="descriptions")
display(df_entities)

ai.fix_grammar: Grammatik korrigieren

Die ai.fix_grammar Funktion korrigiert Rechtschreibung, Grammatik und Interpunktion.

pandas
PySpark

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "There are an error here.",
        "She and me go weigh back. We used to hang out every weeks.",
        "The big picture are right, but you're details is all wrong."
    ], columns=["text"])

df["corrections"] = df["text"].ai.fix_grammar()
display(df)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("There are an error here.",),
        ("She and me go weigh back. We used to hang out every weeks.",),
        ("The big picture are right, but you're details is all wrong.",)
    ], ["text"])

corrections = df.ai.fix_grammar(input_col="text", output_col="corrections")
display(corrections)

ai.generate_response: Anwenden von benutzerdefinierten Benutzeraufforderungen

Die ai.generate_response Funktion erstellt benutzerdefinierten Text aus Ihren Eingabeaufforderungs- und Zeilendaten.

Optionale Parameter

Verwenden Sie diese Einstellung response_format , wenn Sie eine strukturierte Ausgabe benötigen, einschließlich JSON-Objekte, JSON-Schema- oder Pydantic-Modelle. Beispiele finden Sie unter Pandas oder PySpark.

pandas
PySpark

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        ("Scarves"),
        ("Snow pants"),
        ("Ski goggles")
    ], columns=["product"])

df["response"] = df.ai.generate_response("Write a short, punchy email subject line for a winter sale.")
display(df)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Scarves",),
        ("Snow pants",),
        ("Ski goggles",)
    ], ["product"])

responses = df.ai.generate_response(prompt="Write a short, punchy email subject line for a winter sale.", output_col="response")
display(responses)

ai.similarity: Ähnlichkeit berechnen

Die ai.similarity Funktion vergleicht jeden Eingabewert mit einem Bezugswert oder einem Wert in einer anderen Spalte. Die Punktzahlen reichen von -1 für gegensätzliche Bedeutung bis 1 für identische Bedeutung.

pandas
PySpark

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([ 
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture") 
    ], columns=["names", "industries"])
    
df["similarity"] = df["names"].ai.similarity(df["industries"])
display(df)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture")
    ], ["names", "industries"])

similarity = df.ai.similarity(input_col="names", other_col="industries", output_col="similarity")
display(similarity)

ai.summarize: Zusammenfassen von Text

Die ai.summarize Funktion fasst Text, Dateiinhalt, eine einzelne Spalte oder alle Spalten in jeder Zeile zusammen.

Zusammenfassungen anpassen mit Anweisungen

Verwenden Sie instructions, um Tonfall, Länge, Zielgruppe oder Fokus zu steuern. Beispiele finden Sie unter Pandas oder PySpark.

pandas
PySpark

# This code uses AI. Always review output for mistakes.

df= pd.DataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """)
    ], columns=["product", "release_year", "description"])

df["summaries"] = df["description"].ai.summarize()
display(df)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """,),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """,)
    ], ["product", "release_year", "description"])

summaries = df.ai.summarize(input_col="description", output_col="summary")
display(summaries)

ai.translate: Übersetzen von Text

Die ai.translate Funktion übersetzt Text in eine andere Sprache.

pandas
PySpark

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "Hello! How are you doing today?", 
        "Tell me what you'd like to know, and I'll do my best to help.", 
        "The only thing we have to fear is fear itself."
    ], columns=["text"])

df["translations"] = df["text"].ai.translate("spanish")
display(df)

# This code uses AI. Always review output for mistakes. 

df = spark.createDataFrame([
        ("Hello! How are you doing today?",),
        ("Tell me what you'd like to know, and I'll do my best to help.",),
        ("The only thing we have to fear is fear itself.",),
    ], ["text"])

translations = df.ai.translate(to_lang="spanish", input_col="text", output_col="translations")
display(translations)

PySpark-KI-Funktionen verketten

PySpark AI Functions geben DataFrames zurück, die den df.ai Accessor an das Ergebnisschema gebunden lassen. Transformationen verketten, ohne Zwischen-DataFrames zu materialisieren.

# This code uses AI. Always review output for mistakes.

output = (
    df
    .ai.summarize(input_col="review_text", output_col="summary")
    .ai.classify(
        labels=["service", "cleanliness", "location", "other"],
        input_col="summary",
        output_col="category",
    )
)
display(output)

Anzeigen von Nutzungsstatistiken mit ai.stats

Verwenden Sie ai.stats für eine KI-generierte Series oder einen DataFrame, um Nutzungs- und Ausführungsmetriken zu überprüfen.

ai.stats gibt einen DataFrame mit Statistiken zurück, z. B.:

num_successful: Anzahl der zeilen, die von der KI-Funktion erfolgreich verarbeitet wurden.
num_exceptions: Anzahl der Zeilen, bei denen während der Ausführung eine Ausnahme aufgetreten ist. Diese Zeilen werden als Instanzen von aifunc.ExceptionResult dargestellt.
num_unevaluated: Anzahl der Zeilen, die nicht verarbeitet wurden, weil eine frühere Ausnahme eine Fortsetzung der Auswertung unmöglich machte. Diese Zeilen werden als Instanzen von aifunc.NotEvaluatedResult dargestellt.
num_harmful: Anzahl der Zeilen, die vom Azure OpenAI-Inhaltsfilter blockiert wurden. Diese Zeilen werden als Instanzen von aifunc.FilterResult dargestellt.
cached_tokens: Gesamtzahl der zwischengespeicherten Eingabetoken.
input_tokens: Die Gesamtzahl der eingabetoken, die für den KI-Funktionsaufruf verwendet werden.
output_tokens: Die Gesamtzahl der vom Modell generierten Ausgabetoken.
reasoning_tokens: Gesamtzahl der von Reasoning-Modellen verwendeten Token.
model: Modellbereitstellungsname, der für den KI-Funktionsaufruf verwendet wird.

Die Ausgabe könnte etwa so aussehen wie in dieser Tabelle:

num_successful	num_exceptions	num_unevaluated	num_harmful	cached_tokens	input_tokens	output_tokens	Begründungs_Token	client_type	input_types	model
2	0	0	0	0	555	4	0	fabric_llm_endpoint	`{"text": 2}`	gpt-5-mini

Tip

Verwenden Sie ai.stats, um Nutzung, Fehlermuster und Tokenverbrauch nachzuverfolgen.

Zeilen, die Kapazitätsgrenzen erreichen, werden als Instanzen von aifunc.CapacityExceededResult angezeigt. Verwenden Sie aifunc.split_results in Pandas-Workflows, um erfolgreiche Ausgaben von Nichtergebnissen zu trennen, sodass Sie kapazitätsbeschränkte Zeilen überprüfen und diese wiederholen können, nachdem die Kapazität verfügbar ist oder der Grenzwert behoben wird.

Kostentransparenz

Pandas AI Functions können Tokenanzahlen und Kapazitätseinheitenschätzungen während der Ausführung mit progress_bar_mode="stats"anzeigen. Verwenden Sie in PySpark df.ai.stats auf dem Ergebnis-DataFrame.

Die Fabric Kapazitätsmetriken-App meldet den Modellaufrufverbrauch als KI-Funktionen-Vorgang. Ausführliche Informationen finden Sie unter Abrechnung für KI-Funktionen.

Bewerten und Beschleunigen

Verwenden Sie die KI-Funktionen Starter-Notizbücher für End-to-End-Pandas und PySpark-Beispiele. Verwenden Sie die AI Functions Eval Notebooks , um die Ausgabequalität vor der Produktion zu bewerten.

Verwenden Sie multimodale Eingaben mit KI-Funktionen.
Passen Sie KI-Funktionen mit Pandas oder PySpark an.
Informationen zur Abrechnung für KI-Funktionen.
Probieren Sie die KI-Funktionen Starter-Notebooks oder KI-Funktionen Eval-Notebooks aus.
Verwenden Sie KI-Funktionen in einem Lager- oder SQL-Analyseendpunkt.
Verwenden Sie Fabric AI Prompt in Dataflow Gen2.

Feedback

War diese Seite hilfreich?

Last updated on 2026-06-15