KI-Funktionen: Daten in großem Maßstab mit KI transformieren

KI-Funktionen in Microsoft Fabric wenden einzeilige, LLM-basierte Transformationen auf große pandas- oder PySpark-DataFrames an. Sie werden standardmäßig mit hoher Parallelität ausgeführt, sodass Sie Daten schnell im Maßstab anreichern, klassifizieren, zusammenfassen und extrahieren können.

Verwenden Sie diese Tabelle, um zu Beispielen in dieser Übersicht oder in der ausführlichen Dokumentation zu pandas und PySpark zu gelangen.

Funktion Beschreibung Ausführliche Dokumentation
ai.analyze_sentiment Erkennen Sie den emotionalen Zustand des Eingabetexts. Beispiel. Pandas, PySpark
ai.classify Kategorisieren Sie Eingabetext gemäß Ihren Bezeichnungen. Beispiel. Pandas, PySpark
ai.embed Generieren Sie Vektoreinbettungen für Eingabetext. Beispiel. Pandas, PySpark
ai.extract Extrahieren Sie Felder wie Speicherorte, Namen oder benutzerdefinierte Entitäten. Beispiel. Pandas, PySpark
ai.fix_grammar Korrigieren von Rechtschreibung, Grammatik und Interpunktion. Beispiel. Pandas, PySpark
ai.generate_response Generieren Sie Antworten basierend auf Ihren Anweisungen. Beispiel. Pandas, PySpark
ai.similarity Vergleichen Sie den Textinhalt mit einem Wert oder einer anderen Spalte. Beispiel. Pandas, PySpark
ai.summarize Zusammenfassen von Text-, Datei- oder Zeilendaten. Beispiel. Pandas, PySpark
ai.translate Übersetzen Sie Eingabetext in eine andere Sprache. Beispiel. Pandas, PySpark

Sie können KI-Funktionen in Notizbüchern mit Pandas oder PySpark, in SQL-Abfragen und in Dataflow Gen2 verwenden. Fabric übernimmt die Einrichtung des Endpunkts für das integrierte Modell.

Verwenden von KI-Funktionen in Fabric Umgebungen

KI-Funktionen stehen in mehreren Fabric Erfahrungen zur Verfügung:

Verwenden von multimodalen KI-Funktionen

Multimodale KI-Funktionen verarbeiten Bilder, PDFs und Textdateien zusätzlich zu Textwerten. Verwenden Sie sie, um PDF-Dateien zusammenzufassen, Bilder zu klassifizieren, Dokumentfelder zu extrahieren oder Antworten zu generieren, die in Dateiinhalten enthalten sind.

Unterstützte Dateitypen sind JPG/JPEG, PNG, statische GIF, WebP, PDF, MD, TXT, CSV, TSV, JSON, XML, PY und andere Textdateien. Legen Sie column_type="path" in pandas oder input_col_type oder col_types in PySpark fest. Beispiele finden Sie unter "Verwenden von multimodalen Eingaben mit KI-Funktionen".

Prerequisites

Note

  • KI-Funktionen werden in Fabric Runtime 1.3 und höher unterstützt.
  • Python AI-Funktionen für pandas und PySpark sind jetzt standardmäßig auf gpt-5-mini gesetzt, wobei reasoning_effort auf low gesetzt ist. Dieses Modell verfügt über ein Kontextfenster von 400.000 Token und eine maximale Ausgabe von 128.000 Token. Modellgrenzwerte und -preise finden Sie in der Tabelle mit den Sprachmodellen.
  • AI Functions in Dataflow Gen2 und Warehouse erhalten bis Ende Juni 2026 das gleiche Modellupgrade.
  • Obwohl das zugrunde liegende Modell mehrere Sprachen verarbeiten kann, sind die meisten KI-Funktionen für englischen Text optimiert.
  • KI-Funktionen protokollieren oder speichern keine Benutzeraufforderungen, Eingabedaten oder Ausgaben.

Modelle und Anbieter

AI-Funktionen verwenden standardmäßig den integrierten Fabric Endpunkt. Sie können auch pandas und PySpark AI-Funktionen so konfigurieren, dass sie jedes LLM verwenden, das die API chat_completions oder responses unterstützt, darunter:

  • Azure OpenAI-Modelle.
  • Microsoft Foundry Modelle wie Qwen, Kimi, Grok, LLaMA, Mistral und mehr.

Konfigurationsoptionen finden Sie unter Anpassen von KI-Funktionen mit Pandas und Anpassen von KI-Funktionen mit PySpark.

Einrichten von KI-Funktionen

KI-Funktionen unterstützen Pandas in Python- und PySpark-Laufzeiten und PySpark in der PySpark-Laufzeit. Installieren Sie nur die Pakete, die Ihre Laufzeit benötigt.

Leistung und Parallelität

KI-Funktionen verarbeiten standardmäßig bis zu 200 Zeilen gleichzeitig. Optimieren Sie die Parallelität für Ihre Workload in Pandas oder PySpark.

Installieren von Abhängigkeiten

Runtime Abhängigkeiten
pandas (Python-Laufzeitumgebung) Installieren Sie die synapseml_internal- und synapseml_core-Wheel-Dateien. Installieren Sie openai Version 1.99.5 oder höher nur, wenn Sie SDK-systemeigenes Clientverhalten oder Pydantic-Antwortformatbeispiele benötigen.
pandas (PySpark-Laufzeit) Für die meisten Verwendung ist keine Installation erforderlich. Installieren Sie openai Version 1.99.5 oder höher nur, wenn Sie SDK-systemeigenes Clientverhalten oder Pydantic-Antwortformatbeispiele benötigen.
PySpark (PySpark Runtime) Eine erneute Installation ist nicht erforderlich.
# Optional: install openai version 1.99.5 or later for SDK-native client behavior.
%pip install -q openai 2>/dev/null

Importieren erforderlicher Bibliotheken

Importieren Sie die KI-Funktionen-Bibliothek für Ihre Laufzeit.

# Required imports
import synapse.ml.aifunc as aifunc
import pandas as pd

Verwenden von Hilfsfunktionen für Dateien und Schemas

KI-Funktionen umfassen Hilfsprogramme für multimodale Workflows:

  • aifunc.load: Aufnehmen von Dateien aus einem Ordner in eine strukturierte Tabelle. Sie können eine Eingabeaufforderung oder ein Schema bereitstellen.
  • aifunc.list_file_paths: Aufzählen von Datei-URLs und Pfaden aus einem Ordner zur Verwendung als Eingabe für jede KI-Funktion.
  • ai.infer_schema: Ein Extraktionsschema aus Dateiinhalten zur Verwendung mit ai.extract ableiten.

Beispiele finden Sie unter "Verwenden von multimodalen Eingaben mit KI-Funktionen".

Anwenden von KI-Funktionen

Die folgenden Beispiele zeigen die wichtigsten KI-Funktionen für Pandas und PySpark. PySpark AI-Funktionen werden als verteilte Spark-Transformationen über Fabric Spark-Cluster ausgeführt.

Note

Die meisten KI-Funktionen unterstützen Dateipfade mit column_type="path" in pandas oder input_col_type/col_types="path" in PySpark. Beispiele finden Sie unter "Verwenden von multimodalen Eingaben mit KI-Funktionen".

Tip

Das Standardmodell Python ist gpt-5-mini mit reasoning_effort="low". Informationen zum Ändern von Modellen oder Optimieren von Einstellungen finden Sie unter Pandas-Konfiguration oder PySpark-Konfiguration.

ai.analyze_sentiment: Erkennen der Stimmung

Die ai.analyze_sentiment Funktion beschriftt jede Eingabe als positiv, negativ, gemischt oder neutral. Sie können auch benutzerdefinierte Bezeichnungen bereitstellen.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "The cleaning spray permanently stained my beautiful kitchen counter. Never again!",
        "I used this sunscreen on my vacation to Florida, and I didn't get burned at all. Would recommend.",
        "I'm torn about this speaker system. The sound was high quality, though it didn't connect to my roommate's phone.",
        "The umbrella is OK, I guess."
    ], columns=["reviews"])

df["sentiment"] = df["reviews"].ai.analyze_sentiment()
display(df)

Screenshot eines Datenrahmens mit Spalten

ai.klassifizieren: Text kategorisieren

Die ai.classify Funktion kategorisiert Eingabetext mithilfe der von Ihnen bereitgestellten Beschriftungen.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])

df["category"] = df['descriptions'].ai.classify("kitchen", "bedroom", "garage", "other")
display(df)

Screenshot eines Datenrahmens mit den Spalten

ai.embed: Generieren von Vektoreinbettungen

Die ai.embed Funktion konvertiert Text in numerische Vektoren, die die semantische Bedeutung erfassen. Verwenden Sie Einbettungen für Ähnlichkeitssuche, Abruf- und Machine Learning-Workflows.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "This duvet, lovingly hand-crafted from all-natural fabric, is perfect for a good night's sleep.",
        "Tired of friends judging your baking? With these handy-dandy measuring cups, you'll create culinary delights.",
        "Enjoy this *BRAND NEW CAR!* A compact SUV perfect for the professional commuter!"
    ], columns=["descriptions"])
    
df["embed"] = df["descriptions"].ai.embed()
display(df)

Screenshot eines Datenrahmens mit den Spalten

ai.extract: Extrahieren von Entitäten

Die ai.extract Funktion extrahiert Felder wie Namen, Speicherorte oder benutzerdefinierte Entitäten aus Eingabetext.

Strukturierte Bezeichnungen

Verwenden Sie ExtractLabel, wenn Sie eine typisierte Extraktion benötigen. Es unterstützt JSON-Schemakonstrukte wie typierte Felder, Enumerationen, Arrays, geschachtelte Objekte, Nullwerte, erforderliche Eigenschaften und additionalProperties=false. Beispiele finden Sie unter Pandas oder PySpark.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "MJ Lee lives in Tucson, AZ, and works as a software engineer for Microsoft.",
        "Kris Turner, a nurse at NYU Langone, is a resident of Jersey City, New Jersey."
    ], columns=["descriptions"])

df_entities = df["descriptions"].ai.extract("name", "profession", "city")
display(df_entities)

Screenshot eines neuen Datenrahmens mit den Spalten

ai.fix_grammar: Grammatik korrigieren

Die ai.fix_grammar Funktion korrigiert Rechtschreibung, Grammatik und Interpunktion.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "There are an error here.",
        "She and me go weigh back. We used to hang out every weeks.",
        "The big picture are right, but you're details is all wrong."
    ], columns=["text"])

df["corrections"] = df["text"].ai.fix_grammar()
display(df)

Screenshot eines Datenrahmens mit einer Spalte

ai.generate_response: Anwenden von benutzerdefinierten Benutzeraufforderungen

Die ai.generate_response Funktion erstellt benutzerdefinierten Text aus Ihren Eingabeaufforderungs- und Zeilendaten.

Optionale Parameter

Verwenden Sie diese Einstellung response_format , wenn Sie eine strukturierte Ausgabe benötigen, einschließlich JSON-Objekte, JSON-Schema- oder Pydantic-Modelle. Beispiele finden Sie unter Pandas oder PySpark.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        ("Scarves"),
        ("Snow pants"),
        ("Ski goggles")
    ], columns=["product"])

df["response"] = df.ai.generate_response("Write a short, punchy email subject line for a winter sale.")
display(df)

Screenshot eines Datenrahmens mit den Spalten

ai.similarity: Ähnlichkeit berechnen

Die ai.similarity Funktion vergleicht jeden Eingabewert mit einem Bezugswert oder einem Wert in einer anderen Spalte. Die Punktzahlen reichen von -1 für gegensätzliche Bedeutung bis 1 für identische Bedeutung.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([ 
        ("Bill Gates", "Technology"), 
        ("Satya Nadella", "Healthcare"), 
        ("Joan of Arc", "Agriculture") 
    ], columns=["names", "industries"])
    
df["similarity"] = df["names"].ai.similarity(df["industries"])
display(df)

Screenshot eines Datenrahmens mit den Spalten

ai.summarize: Zusammenfassen von Text

Die ai.summarize Funktion fasst Text, Dateiinhalt, eine einzelne Spalte oder alle Spalten in jeder Zeile zusammen.

Zusammenfassungen anpassen mit Anweisungen

Verwenden Sie instructions, um Tonfall, Länge, Zielgruppe oder Fokus zu steuern. Beispiele finden Sie unter Pandas oder PySpark.

# This code uses AI. Always review output for mistakes.

df= pd.DataFrame([
        ("Microsoft Teams", "2017",
        """
        The ultimate messaging app for your organization—a workspace for real-time 
        collaboration and communication, meetings, file and app sharing, and even the 
        occasional emoji! All in one place, all in the open, all accessible to everyone.
        """),
        ("Microsoft Fabric", "2023",
        """
        An enterprise-ready, end-to-end analytics platform that unifies data movement, 
        data processing, ingestion, transformation, and report building into a seamless, 
        user-friendly SaaS experience. Transform raw data into actionable insights.
        """)
    ], columns=["product", "release_year", "description"])

df["summaries"] = df["description"].ai.summarize()
display(df)

Screenshot eines Datenrahmens. Die Spalte

ai.translate: Übersetzen von Text

Die ai.translate Funktion übersetzt Text in eine andere Sprache.

# This code uses AI. Always review output for mistakes. 

df = pd.DataFrame([
        "Hello! How are you doing today?", 
        "Tell me what you'd like to know, and I'll do my best to help.", 
        "The only thing we have to fear is fear itself."
    ], columns=["text"])

df["translations"] = df["text"].ai.translate("spanish")
display(df)

Screenshot eines Datenrahmens mit den Spalten

PySpark-KI-Funktionen verketten

PySpark AI Functions geben DataFrames zurück, die den df.ai Accessor an das Ergebnisschema gebunden lassen. Transformationen verketten, ohne Zwischen-DataFrames zu materialisieren.

# This code uses AI. Always review output for mistakes.

output = (
    df
    .ai.summarize(input_col="review_text", output_col="summary")
    .ai.classify(
        labels=["service", "cleanliness", "location", "other"],
        input_col="summary",
        output_col="category",
    )
)
display(output)

Anzeigen von Nutzungsstatistiken mit ai.stats

Verwenden Sie ai.stats für eine KI-generierte Series oder einen DataFrame, um Nutzungs- und Ausführungsmetriken zu überprüfen.

ai.stats gibt einen DataFrame mit Statistiken zurück, z. B.:

  • num_successful: Anzahl der zeilen, die von der KI-Funktion erfolgreich verarbeitet wurden.
  • num_exceptions: Anzahl der Zeilen, bei denen während der Ausführung eine Ausnahme aufgetreten ist. Diese Zeilen werden als Instanzen von aifunc.ExceptionResult dargestellt.
  • num_unevaluated: Anzahl der Zeilen, die nicht verarbeitet wurden, weil eine frühere Ausnahme eine Fortsetzung der Auswertung unmöglich machte. Diese Zeilen werden als Instanzen von aifunc.NotEvaluatedResult dargestellt.
  • num_harmful: Anzahl der Zeilen, die vom Azure OpenAI-Inhaltsfilter blockiert wurden. Diese Zeilen werden als Instanzen von aifunc.FilterResult dargestellt.
  • cached_tokens: Gesamtzahl der zwischengespeicherten Eingabetoken.
  • input_tokens: Die Gesamtzahl der eingabetoken, die für den KI-Funktionsaufruf verwendet werden.
  • output_tokens: Die Gesamtzahl der vom Modell generierten Ausgabetoken.
  • reasoning_tokens: Gesamtzahl der von Reasoning-Modellen verwendeten Token.
  • model: Modellbereitstellungsname, der für den KI-Funktionsaufruf verwendet wird.

Die Ausgabe könnte etwa so aussehen wie in dieser Tabelle:

num_successful num_exceptions num_unevaluated num_harmful cached_tokens input_tokens output_tokens Begründungs_Token client_type input_types model
2 0 0 0 0 555 4 0 fabric_llm_endpoint {"text": 2} gpt-5-mini

Tip

Verwenden Sie ai.stats, um Nutzung, Fehlermuster und Tokenverbrauch nachzuverfolgen.

Zeilen, die Kapazitätsgrenzen erreichen, werden als Instanzen von aifunc.CapacityExceededResult angezeigt. Verwenden Sie aifunc.split_results in Pandas-Workflows, um erfolgreiche Ausgaben von Nichtergebnissen zu trennen, sodass Sie kapazitätsbeschränkte Zeilen überprüfen und diese wiederholen können, nachdem die Kapazität verfügbar ist oder der Grenzwert behoben wird.

Kostentransparenz

Pandas AI Functions können Tokenanzahlen und Kapazitätseinheitenschätzungen während der Ausführung mit progress_bar_mode="stats"anzeigen. Verwenden Sie in PySpark df.ai.stats auf dem Ergebnis-DataFrame.

Die Fabric Kapazitätsmetriken-App meldet den Modellaufrufverbrauch als KI-Funktionen-Vorgang. Ausführliche Informationen finden Sie unter Abrechnung für KI-Funktionen.

Bewerten und Beschleunigen

Verwenden Sie die KI-Funktionen Starter-Notizbücher für End-to-End-Pandas und PySpark-Beispiele. Verwenden Sie die AI Functions Eval Notebooks , um die Ausgabequalität vor der Produktion zu bewerten.