Optimieren der Nutzung und Kosten von Azure Kubernetes Service (AKS)

In diesem Artikel werden praktische Möglichkeiten beschrieben, um Azure Kubernetes Service (AKS) Nutzung und Kosten über Skalierung, Infrastrukturgröße, GPU-Nutzung, Mehrinstanzenfähigkeit und Azure Rabatte zu optimieren.

Für die meisten Produktionsworkloads ist AKS Automatic der empfohlene Ausgangspunkt, da es produktionsbereite Standardwerte anwendet, Kernvorgänge automatisiert und die Überlastung reduziert. AKS Standard bleibt die richtige Wahl, wenn Sie eine tiefere Plattformanpassung benötigen.

In diesem Artikel wird Folgendes behandelt:

Wählen Sie Ihren Optimierungsgrundplan aus.
AKS Automatische Kostenvorteile
Autoskalierung
Cluster-Größenanpassung
GPU-Optimierungen
Mehrinstanzenfähigkeit
Azure-Rabatte

Wählen Sie Ihren Optimierungsgrundplan aus.

Wählen Sie zunächst den AKS-Clustermodus aus, der Ihrem Kosten- und Betriebsmodell entspricht.

Szenario	Empfohlener Clustermodus	Warum?
Die meisten Produktionsarbeitslasten, bei denen Sie eine hohe Kosteneffizienz mit geringerem Betriebsaufwand wünschen	AKS Automatik	Vorkonfigurierte produktionsbereite Standardwerte, verwaltete Vorgänge und effiziente Ressourcenzuweisungen tragen dazu bei, die Verschwendung und zeitaufwendige Optimierung der Plattform zu reduzieren.
Workloads, die umfangreiche benutzerdefinierte Clusterkonfiguration, spezielle Add-Ons oder strenge Plattformsteuerelemente erfordern	AKS Standard	Vollständige Kontrolle über die Clusterkonfiguration und das Betriebsmodell.
Teams, die bei der operativen Reife mit Kubernetes noch am Anfang stehen und sich auf eine schnelle, vorhersehbare Bereitstellung konzentrieren	AKS Automatik	Verringert die Komplexität der Plattformverwaltung, sodass Teams sich auf Anwendungen konzentrieren können.
Teams mit etablierten Plattform-Engineering-Prozessen und spezifischen Architekturstandards	AKS Standard	Unterstützt erweiterte Anpassungen und benutzerdefinierte Betriebsmuster.

Weitere Informationen finden Sie unter Was ist Azure Kubernetes Service (AKS) Automatisch?

AKS Automatische Kostenvorteile

AKS Automatic reduziert die Kosten auf zwei Arten: Es minimiert Die Berechnungsabfälle durch Automatisierung und reduziert den Betriebsaufwand für die Ausführung von Kubernetes. In der folgenden Tabelle sind die Features zusammengefasst, die einen direkten Kosteneffekt haben und wie sie mit AKS Standard verglichen werden.

Vorkonfigurierte Features sind immer aktiviert und können nicht geändert werden. Standardfeatures sind für Sie konfiguriert, können aber angepasst werden. Optionale Features stehen zum Konfigurieren zur Verfügung und sind standardmäßig nicht aktiviert.

Funktion	AKS Automatik	AKS Standard	Kostenauswirkung
Knoten-Autoprovisionierung (NAP)	Vorkonfiguriert	Wahlfrei	Stellt Knoten mit der rechten Größe für ausstehende Pods automatisch bereit, wodurch die Leerlauf- und Überlastungskapazität reduziert wird.
Horizontaler Pod Autoscaler (HPA)	Vorkonfigurierte	Wahlfrei	Skaliert Pods ohne manuelles Eingreifen entsprechend dem Bedarf und verhindert so Ressourcenverschwendung bei geringem Datenverkehr.
Kubernetes Event-driven Autoscaler (KEDA)	Vorkonfiguriert	Wahlfrei	Die ereignisgesteuerte Skalierung macht inaktive Replikate, die auf Aufgaben warten, überflüssig.
Vertikale automatische Podskalierung (VPA)	Vorkonfigurierte	Wahlfrei	Passt Pod-Ressourcenanforderungen und -limits basierend auf der tatsächlichen Nutzung im Zeitverlauf automatisch bedarfsgerecht an.
Pod-Behälter-Verpackungseffizienz	Vorkonfiguriert	Manuelle Optimierung	Pods sind effizient verpackt, um die Knotennutzung zu maximieren, wodurch die Gesamtanzahl der benötigten Knoten reduziert wird.
Verwaltete Prometheus + Containereinblicke	Vorgabe	Wahlfrei	Bietet sofortige Kostensichtbarkeit vom ersten Tag an, ohne dass Observability eingerichtet werden muss.
Automatische Cluster- und Knotenbetriebssystemupgrades	Vorkonfigurierte	Manuell oder wahlweise	Beseitigt den technischen Mehraufwand im Zusammenhang mit Upgrades und reduziert das Risiko kostspieliger Sicherheitsvorfälle durch nicht gepatchte Knoten.
Automatische Knotenreparatur	Vorkonfiguriert	Vorkonfigurierte	Reduziert die Ausfallzeitskosten von ungesunden Knoten ohne manuelle Eingriffe.
Vollständig verwaltete Knotenressourcengruppe	Vorkonfigurierte	Optionaler Sperrmodus	Verhindert versehentliche oder nicht autorisierte Ressourcenänderungen, die unerwartete Kosten verursachen können.
Uptime SLA (99,95 % API-Server)	Enthalten	Kostenpflichtig (Standardebenenupgrade)	Keine zusätzlichen Kosten, um eine finanziell gesicherte Betriebszeitgarantie zu erhalten.
Pod-Bereitschafts-SLA (99,9% innerhalb von 5 Minuten)	Enthalten	Nicht verfügbar	Vorhersehbares Skalierungsverhalten ohne benutzerdefinierte Zuverlässigkeitsinvestitionen.

Note

Da Skalierungstools wie HPA, KEDA und VPA in AKS Automatic vorkonfiguriert sind, entstehen Teams keine Einrichtungs-, Test- und Wartungskosten für die Konfiguration dieser Funktionen selbst. In AKS Standard erfordert jede dieser Features eine manuelle Konfiguration und fortlaufende Optimierung.

Autoskalierung

Horizontale automatische Podskalierung

Der Horizontal Pod Autoscaler (HPA) überwacht den Ressourcenbedarf und aktualisiert automatisch eine Workload-Ressource, um die Anzahl der Pods an den Bedarf anzupassen. Die Reaktion auf erhöhte Auslastung besteht darin, mehr Pods bereitzustellen. Wenn die Auslastung verringert wird und die Anzahl der Pods über dem konfigurierten Minimum liegt, teilt der Autoscaler der Workload-Ressource mit, dass sie verringert werden soll.

Die Metrik-API ruft alle 60 Sekunden Daten vom kubelet ab, und die HPA überprüft standardmäßig alle 15 Sekunden die Metrik-API auf erforderliche Änderungen. Dies bedeutet, dass die HPA alle 60 Sekunden aktualisiert. Wenn Sie die HPA für eine Bereitstellung konfigurieren, definieren Sie die minimale und maximale Anzahl von Replikaten, die ausgeführt werden können, und die Metriken, die der HPA verwendet, um zu bestimmen, wann skaliert werden soll.

Tip

In AKS Automatic ist HPA vorkonfiguriert und kann ohne zusätzliche Einrichtung verwendet werden. In AKS Standard konfigurieren Sie HPA manuell für jede Workload.

Weitere Informationen finden Sie unter Horizontal Pod Autoscaling und Pods in AKS automatisch skalieren.

Ereignisgesteuerte automatische Kubernetes-Skalierung

Die Kubernetes Event-driven Autoscaler (KEDA) wendet die ereignisgesteuerte automatische Skalierung auf Ihre Workloads an. KEDA arbeitet mit der HPA und kann funktionen ohne Überschreiben oder Duplizierung erweitern.

Tip

In AKS Automatic ist KEDA vorkonfiguriert und auf dem Cluster aktiviert. In AKS Standard installieren und konfigurieren Sie das KEDA-Add-On manuell.

Sie können das KEDA-Add-On für AKS verwenden, um Ihre Anwendungen zu skalieren und einen umfassenden Katalog von Azure KEDA-Scalern zu nutzen. Weitere Informationen finden Sie unter Anwendungsautoskalierung mit dem KEDA-Add-On und Installieren des KEDA-Add-Ons für AKS.

Vertikale automatische Podskalierung

Der Vertical Pod Autoscaler (VPA) legt automatisch Ressourcenanforderungen und Grenzwerte für Container pro Workload basierend auf der letzten Verwendung fest. Der VPA gibt CPU und Arbeitsspeicher für Pods frei, um eine effektive Auslastung Ihrer AKS-Cluster sicherzustellen. Im Laufe der Zeit bietet der VPA Empfehlungen für die Ressourcennutzung.

Tip

In AKS Automatic ist VPA vorkonfiguriert und auf dem Cluster aktiviert. In AKS Standard aktivieren und konfigurieren Sie VPA manuell.

Weitere Informationen finden Sie unter "Automatische Skalierung vertikaler Pods" in Azure Kubernetes Service (AKS) und Verwenden des Vertical Pod Autoscaler (VPA) in Azure Kubernetes Service (AKS).

Richtige Dimensionierung von Clustern

Passen Sie die Größe Ihres Clusters an

Richtige Größe Ihrer Cluster, um Kosten und Leistung zu optimieren. Ändern Sie die Größe eines Clusters manuell, indem Sie Knoten hinzufügen oder entfernen, um die Anforderungen Ihrer Anwendungen zu erfüllen. Sie können Ihren Cluster auch automatisch skalieren, sodass die Anzahl der Knoten automatisch angepasst wird, um sich ändernde Anforderungen zu erfüllen.

Tip

AKS Automatic aktiviert standardmäßig verwaltete Prometheus- und Containereinblicke, sodass Sie sofortige Einblicke in die Ressourcenauslastung von Tag 1 erhalten. In AKS Standard richten Sie die Observierbarkeit separat ein. Die frühe Sichtbarkeit hilft Ihnen, auf überprovisionierende Signale zu reagieren, bevor sie sich in nachhaltige Abfälle ansammeln.

Weitere Informationen finden Sie unter Resize Azure Kubernetes Service (AKS)-Cluster.

Automatische Skalierung von Clustern

Mithilfe der Cluster-Autoskalierung können Sie Knotenpools automatisch basierend auf Ressourcennutzung und Einschränkungen skalieren. Skalieren Sie z. B. nach oben, um noch nicht eingeplante Pods einzuplanen, oder nach unten, um Kosten für ungenutzte Knoten zu senken. Das Cluster-Autoscaler-Profil ist eine Reihe von Parametern, die Sie optimieren können, um das Verhalten des Cluster-Autoscalers zu steuern.

Weitere Informationen finden Sie unter "Cluster autocaling in Azure Kubernetes Service (AKS)" (Übersicht) und verwenden Sie die Cluster-Autoscaler in Azure Kubernetes Service (AKS).

Automatische Bereitstellung von Knoten

Node-Autoprovisioning (NAP), basierend auf Karpenter, stellt passend dimensionierte Infrastruktur für wartende Pods bereit und verbessert die Bin-Packing-Effizienz.

In AKS Automatic ist die automatische Knotenbereitstellung Teil der verwalteten Nutzungserfahrung.
In AKS Standard ist die automatische Bereitstellung von Knoten verfügbar, wenn Sie diese Funktion mit einem benutzerdefinierten Clustermodell benötigen.

Weitere Informationen finden Sie unter Node AutoProvisioning in Azure Kubernetes Service (AKS).

GPU-Optimierungen

Die GPU-Partitionierung hilft bei der Bekämpfung der Unternutzung, indem GPUs auf mehrere Workloads aufgeteilt oder freigegeben werden. In den folgenden Abschnitten werden verschiedene Methoden zum Partitionieren und Freigeben von GPUs in AKS behandelt.

Time-Slicing

Der NVIDIA GPU-Operator ermöglicht die Zeitaufteilung von GPUs in Kubernetes-Clustern. Durch die Verwendung von Time-Slicing kann ein Systemadministrator einen Satz von Replikaten für eine GPU definieren, die er jeweils unabhängig einem Pod für die Ausführung von Workloads zuweisen kann. Sie können clusterweite Standard-Konfigurationen für Time-Slicing und knotenspezifische Konfigurationen anwenden.

Ein Screenshot eines visuellen Diagramms zeigt GPU Time-Slicing.

Weitere Informationen finden Sie unter Time-slicing GPUs in Kubernetes.

Multiprozessdienst (Multi-Process Service, MPS)

Ein einzelner Prozess verwendet möglicherweise nicht alle Speicher- und Computebandbreitenkapazität, die auf einer GPU verfügbar sind. Der Multiprozessdienst (Multi-Process Service, MPS) ermöglicht die logische Partitionierung von Arbeitsspeicher und Computeressourcen zwischen Workloads. Außerdem können sich Kernel- und Speicherkopiervorgänge aus verschiedenen Prozessen auf der GPU überlappen. MPS hilft Ihnen dabei, eine höhere GPU-Auslastung und kürzere Laufzeiten zu erzielen.

Screenshot einer grafischen Darstellung des GPU-Dienstes für mehrere Prozesse (MPS).

Weitere Informationen finden Sie unter Multi-Process Service (MPS).

GPUs mit mehreren Instanzen (MIGs)

Multiinstanz-GPUs (MIGs) ermöglichen es Ihnen, GPUs basierend auf den NVIDIA Ampere- und späteren Architekturen in separate und sichere GPU-Instanzen für CUDA-Anwendungen zu partitionieren.

Screenshot einer grafischen Darstellung mit Multi-Instanzen-GPUs (MIGs).

Weitere Informationen finden Sie unter GPU-Operator mit MIG und Erstellen eines GPU-Knotenpools mit mehreren Instanzen in Azure Kubernetes Service (AKS).For more information, see GPU Operator with MIG and Create a multi-instance GPU node pool in Azure Kubernetes Service (AKS).

Mehrinstanzenfähigkeit

Multitenancy bezieht sich auf die gemeinsame Nutzung von Infrastruktur für Mieter, Teams und Geschäftseinheiten. In der folgenden Tabelle werden verschiedene Möglichkeiten zum Implementieren von Mehrinstanzenfähigkeit in AKS beschrieben:

Typ der Mehrmandantenfähigkeit	Mehrinstanzenebene	Cluster-Pod-Dichte	Kostenzuteilung	Idealer Anwendungsfall	Mögliche Risiken
Dedizierter Cluster	Hard-Mehrmandantenfähigkeit	Niedriger	Einfachste	Vollständige Sicherheitsisolationsgrenzen und einfache Kostenzuordnung	• Cluster-Ausbreitung in großem Umfang erhöht die Verwaltungskosten • Geringere Poddichte und mehr überprovisionierte Ressourcen
Dedizierter Knotenpool	Soft-Mehrmandantenfähigkeit	Mittelstufe	Mittelstufe	Mittlere Poddichte	• Erfordert Vertrauen zwischen Nutzern • Erfordert zusätzliche Clusterkonfigurationen wie Netzwerkrichtlinien, Kontingentverwaltung, rollenbasierte Zugriffssteuerung (RBAC) usw.
Dedizierter Namespace	Soft-Mehrmandantenfähigkeit	Höher	Härter	Teilen der Infrastruktur zur Maximierung der Ressourcenauslastung	• Unsicher für feindliche Umgebungen standardmäßig • Erfordert zusätzliche Clusterkonfigurationen wie Netzwerkrichtlinien, Kontingentverwaltung, rollenbasierte Zugriffssteuerung (RBAC) usw.

Dedizierter Cluster

Bei der dedizierten Cluster-Multimandantenfähigkeit sind Cluster für eine einzelne Workload oder ein einzelnes Team reserviert.

Ein Screenshot eines Visualisierers zeigt ein Beispiel für dedizierte Cluster-Mehrmandantenfähigkeit.

In der folgenden Tabelle werden Vor- und Nachteile der Verwendung eines dedizierten Clusters beschrieben:

Pros	Cons
• Einfachere Isolationsmethode • Einfache Kostenzuteilung und Rückbuchung • Ideal für Fälle, in denen Mandanten einander nicht vertrauen (häufig aus Sicherheits- und Ressourcenteilungsgründen)	• Hohes Management und finanzieller Aufwand • Generell niedrige Poddichte und überprovisionierte Ressourcen

Dedizierter Knotenpool

Bei dediziertem Knotenpool-Mehrinstanzenmandanten werden Cluster von vielen Mandanten gemeinsam genutzt.

Ein Screenshot zeigt ein Beispiel für ein visuelles Diagramm mit dedizierter Knoten-Pool-Mehrmandantenfähigkeit.

In der folgenden Tabelle werden Vor- und Nachteile der Verwendung eines dedizierten Knotenpools beschrieben:

Pros	Cons
• Mittlere Pod-Dichte • Einige gemeinsam genutzte Infrastruktur • Anwenden von Azure-Tags auf Knotenpools, die einem einzelnen Mandanten zugeordnet sind (Tags werden an Knoten weitergegeben und durch Upgrades beibehalten)	• Erfordert Vertrauen zwischen den Mandanten • Erfordert zusätzliche Clusterkonfigurationen wie Netzwerkrichtlinien, Kontingentverwaltung, rollenbasierte Zugriffssteuerung (RBAC) usw.

Dedizierter Namespace

Bei dediziertem Namespace-Multitenanten werden Cluster von vielen Mandanten gemeinsam genutzt, wobei Namespaces als Isolationsgrenze dienen.

Ein Screenshot eines visuellen Diagramms zeigt ein Beispiel für dedizierte Namespace-Mehrfachvermietung.

In der folgenden Tabelle werden Vor- und Nachteile der Verwendung eines dedizierten Namespaces beschrieben:

Pros	Cons
• Höhere Poddichte • Bestes Binpacking • Gemeinsam genutzte Infrastruktur zur Maximierung der Ressourcenauslastung	• Unsicher für feindliche Umgebungen standardmäßig • Erfordert zusätzliche Sicherheitsmaßnahmen, wenn alle Mandanten nicht vertrauenswürdig sein können

Azure-Rabatte

Um noch einen Schritt weiter zu sparen, nutzen Sie Azure-Rabatte wie Azure-Sparpläne, reservierte Instanzen und Azure-Hybridvorteile.

Azure-Rabatttyp	Einzelheiten
Azure-Sparpläne	• 1-3-jährige Verpflichtung im Voraus • Sparen Sie bis zu 65% im Vergleich zu pay-as-you-go • Flexibel, ohne SKU-Familien- oder Regionsbeschränkungen • Optimal für Workloads, die konsistente Kosten mit Ressourcen in verschiedenen SKUs und Regionen aufweisen
Reservierte Instanzen	• 1-3-jährige Verpflichtung im Voraus • Sparen Sie bis zu 72% im Vergleich zu pay-as-you-go • Beschränkt auf bestimmte SKU-Familien und Regionen • Optimal für stabile Arbeitslasten, die kontinuierlich ausgeführt werden (ohne unerwartete SKU- oder Regionsänderungen)
Azure-Hybridvorteile	• Bringen Sie Ihre eigenen, lokalen Windows Server- und SQL Server-Lizenzen zu Azure • Verwenden sie alle qualifizierenden lokalen Lizenzen, die über ein aktives Software Assurance (SA) oder ein qualifizierendes Abonnement verfügen

Weitere Informationen zu AKS-Kosten und AKS Automatic finden Sie in den folgenden Artikeln:

Feedback

War diese Seite hilfreich?

Last updated on 2026-06-26