Best Practices für Machine Learning Operations (MLOps) in Azure Kubernetes Service (AKS)

Gilt für: ✔️ AKS Automatic ✔️ AKS Standard

In diesem Artikel werden Best Practices und Überlegungen beschrieben, die Sie bei der Verwendung von MLOps in AKS berücksichtigen sollten. Weitere Informationen zu MLOps finden Sie unter Machine Learning Operations (MLOps) für KI- und Machine Learning-Workflows.

Wählen Sie Ihren AKS-Modus für MLOps aus.

AKS unterstützt zwei Clustermodi: AKS Automatic and AKS Standard. Wählen Sie AKS Automatic aus, wenn Sie eine produktionsbereite Grundkonfiguration mit weniger laufendem Plattformmanagement wünschen. Wählen Sie AKS Standard aus, wenn Sie eine tiefere Kontrolle über die Clusterinfrastruktur- und Plattformkonfiguration benötigen.

Die MLOps-Methoden in diesem Artikel gelten für beide Modi. Die Implementierungsverantwortung unterscheidet sich jedoch vom Modus: AKS Automatic bietet mehr vorkonfigurierte Standardwerte, während AKS Standard in der Regel explizitere Plattformkonfiguration und Lebenszyklusbesitz erfordert.

Area AKS Automatik AKS Standard
Grundkonfiguration des Clusters Weitere vorkonfigurierte Standardwerte Explizitere Einrichtungsoptionen
Systemknotenpoolvorgänge Weitere vom Dienst verwaltete Verhaltensweisen Weiteres vom Betreiber verwaltetes Verhalten
Kontrollen der Sicherheitsbasislinie Mehrere Steuerelemente sind in gängigen Szenarien vorkonfiguriert. Steuerelemente werden häufig von Operatoren aktiviert und verwaltet.
Netzwerkbasisplan Vordefinierte Standardwerte für gängige Muster Umfassendere Netzwerkkonfigurationsflexibilität
Vorgänge und Upgrades Mehr verwaltetes Betriebsverhalten Weiteres vom Bediener gesteuertes Verhalten
Fokus der MLOps-Implementierung Validieren, verwalten und Standardwerte optimieren Entwerfen und Konfigurieren von Plattformsteuerelementen

Infrastruktur als Code (IaC)

IaC ermöglicht eine konsistente und reproduzierbare Infrastrukturbereitstellung und -verwaltung für eine Reihe von Anwendungstypen. Bei intelligenten Anwendungsbereitstellungen kann sich Ihre IaC-Implementierung in der gesamten KI-Pipeline ändern, da die für Rückschlüsse, Bereitstellung, Training und Optimierung erforderliche Rechenleistung und Ressourcen variieren können. Die Definition und Versionsverwaltung von IaC-Vorlagen für Ihre KI-Entwicklerteams kann dazu beitragen, Konsistenz und Kosteneffizienz für alle Auftragstypen sicherzustellen und gleichzeitig ihre individuellen Hardwareanforderungen zu verringern und den Bereitstellungsprozess zu beschleunigen.

Bei AKS Automatic kann sich IaC stärker auf Workloaddefinitionen, Leitplanken für Richtlinien und die Konsistenz der Umgebung konzentrieren als auf Plattformstandardwerte. In AKS Standard enthält IaC häufig explizitere Clusterplattformeinstellungen wie Netzwerk, Skalierung und betriebliche Konfigurationsoptionen.

Containerisierung

Das Verwalten von Modellgewichtungen, Metadaten und Konfigurationen in Containerimages ermöglicht Portabilität, vereinfachte Versionsverwaltung und verringerte Speicherkosten im Laufe der Zeit. Vorteile der Containerisierung:

  • Nutzen Sie vorhandene Containerimages, insbesondere für große Sprachmodelle (LLMs) von Millionen bis Milliarden von Parametern und stabilen Diffusionsmodellen, die in sicheren Containerregistrierungen gespeichert sind.
  • Vermeiden Sie einen Single Point of Failure (SPOF) in Ihrer Pipeline, indem Sie mehrere schlanke Container mit den jeweils spezifischen Abhängigkeiten für jede Aufgabe einsetzen, anstatt ein einziges großes Image zu pflegen.
  • Speichern Sie große Text-/Imagedatasets außerhalb Ihres Basiscontainerimages, und verweisen Sie bei Bedarf zur Laufzeit auf sie.

Legen Sie mit dem Kubernetes AI Toolchain Operator los, um in wenigen Minuten ein leistungsstarkes LLM auf AKS bereitzustellen.

Container-Lieferkettenkontrollen bleiben in beiden Modi unerlässlich. Selbst mit standardmäßig vorkonfigurierten Plattformvorgaben in AKS Automatic bleiben die Herkunft von Images, deren Sicherheitsüberprüfung und die Laufzeithärtung zentrale MLOps-Aufgaben.

Modellverwaltung und Versionsverwaltung

Modellverwaltung und Versionsverwaltung sind für das Nachverfolgen von Änderungen an Ihren Modellen im Laufe der Zeit unerlässlich. Durch die Versionierung Ihrer Modelle können Sie:

  • Sorgen Sie für eine einfache Bereitstellung in unterschiedlichen Umgebungen durch Konsistenz in Ihren Modellcontainern.
  • Verwenden Sie PEFT-Methoden (Parameter-Efficient Fine-Tuning), um einen Teil der Modellgewichtungen schneller zu durchlaufen und neue Versionen in schlanken Containern zu verwalten.

In AKS Automatic können vorkonfigurierte Plattformbasispläne die Umgebungsparität vereinfachen. In AKS Standard müssen Teams häufig die Parität durch plattform- und bereitstellungskonfiguration expliziter erzwingen.

Automatisierung

Die Automatisierung ist der Schlüssel zur Reduzierung manueller Fehler, zur Steigerung der Effizienz und zur Sicherstellung der Konsistenz im gesamten ML-Lebenszyklus. Vorteile der Aufgabenautomatisierung:

  • Integrieren Sie Warnungstools, um einen Vektorerfassungsflow automatisch auszulösen, wenn neue Daten in Ihrer Anwendung eingehen.
  • Legen Sie Modellleistungsschwellenwerte fest, um Beeinträchtigungen nachzuverfolgen und Pipelines für erneutes Training auszulösen.

In beiden AKS-Modi sollten Sie neben Triggern für die Modellqualität auch Automatisierung für die Richtlinienvalidierung, die Erkennung von Konfigurationsabweichungen und die Release-Governance einbeziehen.

Skalierbarkeit und Ressourcenmanagement

Skalierbarkeit und Ressourcenmanagement sind wichtig, um sicherzustellen, dass Ihre KI-Pipeline die Anforderungen Ihrer Anwendung verarbeiten kann. Vorteile der Optimierung des Ressourceneinsatzes:

  • Integrieren Sie Tools, die Ihre zugeordneten CPU-, GPU- und Speicherressourcen effizient über verteilte Verarbeitung und mehrere Parallelitätsebenen verwenden (z. B. Daten-, Modell- und Pipelineparallelität).
  • Aktivieren Sie die automatische Skalierung Ihrer Rechenressourcen, um hohe Volumen an Modellanfragen in Spitzenzeiten zu bewältigen und sie in Schwachlastzeiten wieder zu reduzieren.
  • Ähnlich wie bei herkömmlichen Anwendungen planen Sie die Notfallwiederherstellung, indem Sie die Best Practices für Resilienz und Zuverlässigkeit in AKS befolgen.

AKS Automatic kann den Einrichtungsaufwand für allgemeine Skalierungs- und Betriebsmuster reduzieren, während AKS Standard eine tiefere Kontrolle über benutzerdefinierte Skalierungsarchitekturen bietet.

Sicherheit und Compliance

Sicherheit und Compliance sind für den Schutz Ihrer Daten von entscheidender Bedeutung und stellen sicher, dass Ihre KI-Pipeline gesetzliche Vorschriften erfüllt. Vorteile der Implementierung von Best Practices für Sicherheit und Compliance:

  • Integrieren Sie das Scannen nach Common Vulnerabilities and Exposures (CVEs), um häufige Schwachstellen in Container-Images von Open-Source-Modellen zu erkennen.
  • Pflegen Sie einen Überwachungspfad der erfassten Daten, Modelländerungen und Metriken, um mit Ihren Organisationsrichtlinien konform zu bleiben.

In AKS Automatic verbessern standardmäßig vorkonfigurierte Sicherheitseinstellungen die grundlegende Sicherheitslage, jedoch bleiben Sicherheitskontrollen auf Modell-, Daten- und Pipeline-Ebene weiterhin erforderlich.

Erfahren Sie mehr über Best Practices in anderen Bereichen Ihrer Anwendungsbereitstellung und -vorgänge in AKS: