Diese Seite wurde von der Cloud Translation API übersetzt.

GPU-Instanzen

In diesem Dokument werden die Funktionen und Einschränkungen von GPU-VM-Instanzen beschrieben, die in Compute Engine ausgeführt werden.

Um bestimmte Arbeitslasten in Compute Engine zu beschleunigen, können Sie entweder eine beschleunigungsoptimierte Instanz mit angehängten GPUs bereitstellen oder GPUs an eine N1-Instanz für allgemeine Zwecke anhängen. Compute Engine stellt GPUs für Ihre Instanzen im Passthrough-Modus bereit. Im Passthrough-Modus haben Ihre Instanzen die direkte Kontrolle über GPUs und deren Arbeitsspeicher.

Sie können auch einige GPU-Maschinentypen auf AI Hypercomputer verwenden. AI Hypercomputer ist ein Supercomputing-System, das für die Unterstützung von Arbeitslasten aus den Bereichen künstliche Intelligenz (KI) und maschinelles Lernen (ML) optimiert ist. Diese Option wird empfohlen, um eine dicht zugewiesene, leistungsoptimierte Infrastruktur mit Integrationen für Google Kubernetes Engine (GKE) und Slurm-Scheduler zu erstellen.

Unterstützte Maschinentypen

Compute Engine bietet verschiedene Maschinentypen für unterschiedliche Arbeitslasten.

Einige Maschinentypen unterstützen NVIDIA RTX Virtual Workstations (vWS). Wenn Sie eine Instanz erstellen, die NVIDIA RTX Virtual Workstation verwendet, fügt Compute Engine automatisch eine vWS-Lizenz hinzu. Informationen zu Preisen für virtuelle Workstations finden Sie auf der Seite „GPU-Preise“.

GPUMaschinentypen
KI- und ML-Arbeitslasten	Grafiken und Visualisierung	Andere GPU-Arbeitslasten
Beschleunigeroptimierte Maschinentypen der A-Serie sind für Arbeitslasten aus den Bereichen Hochleistungs-Computing (HPC), künstliche Intelligenz (KI) und maschinelles Lernen (ML) konzipiert. Die A-Serie der neueren Generation eignet sich ideal für das Vortraining und die Feinabstimmung von Foundation Models, für die große Cluster von Beschleunigern erforderlich sind. Die A2-Serie kann für das Training kleinerer Modelle und die Inferenz auf einem einzelnen Host verwendet werden. Bei diesen Maschinentypen wird das GPU-Modell automatisch an die Instanz angehängt.	Beschleunigungsoptimierte Maschinentypen der G-Serie sind für Arbeitslasten wie NVIDIA Omniverse-Simulationsarbeitslasten, grafikintensive Anwendungen, Videotranscodierung und virtuelle Desktops konzipiert. Diese Maschinentypen unterstützen NVIDIA RTX Virtual Workstations (vWS). Die G-Serie kann auch für das Training kleinerer Modelle und für die Inferenz mit einzelnen Hosts verwendet werden. Bei diesen Maschinentypen wird das GPU-Modell automatisch an die Instanz angehängt.	An N1-Maschinentypen für allgemeine Zwecke, mit Ausnahme des gemeinsam genutzten N1-Kerns (`f1-micro` und `g1-small`), können Sie eine ausgewählte Gruppe von GPU-Modellen anhängen. Einige dieser GPU-Modelle unterstützen auch NVIDIA RTX Virtual Workstations (vWS).
A4X (NVIDIA GB200 Superchips) (`nvidia-gb200`) A4 (NVIDIA B200) (`nvidia-b200`) A3 Ultra (NVIDIA H200) (`nvidia-h200-141gb`) A3 Mega (NVIDIA H100) (`nvidia-h100-mega-80gb`) A3 High (NVIDIA H100) (`nvidia-h100-80gb`) A3 Edge (NVIDIA H100) (`nvidia-h100-80gb`) A2 Ultra (NVIDIA A100 80GB) (`nvidia-a100-80gb`) A2 Standard (NVIDIA A100) (`nvidia-a100-40gb`)	G4 (NVIDIA RTX PRO 6000) (`nvidia-rtx-pro-6000`) (`nvidia-rtx-pro-6000-vws`) G2 (NVIDIA L4) (`nvidia-l4`) (`nvidia-l4-vws`)	Die folgenden GPU-Modelle können an N1-Maschinentypen für allgemeine Zwecke angehängt werden: NVIDIA T4 (`nvidia-tesla-t4`) (`nvidia-tesla-t4-vws`) NVIDIA P4 (`nvidia-tesla-p4`) (`nvidia-tesla-p4-vws`) NVIDIA V100 (`nvidia-tesla-v100`) NVIDIA P100 (`nvidia-tesla-p100`) (`nvidia-tesla-p100-vws`)

GPUMaschinentypen

KI- und ML-Arbeitslasten Grafiken und Visualisierung Andere GPU-Arbeitslasten

Beschleunigeroptimierte Maschinentypen der A-Serie sind für Arbeitslasten aus den Bereichen Hochleistungs-Computing (HPC), künstliche Intelligenz (KI) und maschinelles Lernen (ML) konzipiert.

Die A-Serie der neueren Generation eignet sich ideal für das Vortraining und die Feinabstimmung von Foundation Models, für die große Cluster von Beschleunigern erforderlich sind. Die A2-Serie kann für das Training kleinerer Modelle und die Inferenz auf einem einzelnen Host verwendet werden.

Bei diesen Maschinentypen wird das GPU-Modell automatisch an die Instanz angehängt.

Beschleunigungsoptimierte Maschinentypen der G-Serie sind für Arbeitslasten wie NVIDIA Omniverse-Simulationsarbeitslasten, grafikintensive Anwendungen, Videotranscodierung und virtuelle Desktops konzipiert. Diese Maschinentypen unterstützen NVIDIA RTX Virtual Workstations (vWS).

Die G-Serie kann auch für das Training kleinerer Modelle und für die Inferenz mit einzelnen Hosts verwendet werden.

Bei diesen Maschinentypen wird das GPU-Modell automatisch an die Instanz angehängt.

An N1-Maschinentypen für allgemeine Zwecke, mit Ausnahme des gemeinsam genutzten N1-Kerns (f1-micro und g1-small), können Sie eine ausgewählte Gruppe von GPU-Modellen anhängen. Einige dieser GPU-Modelle unterstützen auch NVIDIA RTX Virtual Workstations (vWS).

A4X (NVIDIA GB200 Superchips)
(nvidia-gb200)
A4 (NVIDIA B200)
(nvidia-b200)
A3 Ultra (NVIDIA H200)
(nvidia-h200-141gb)
A3 Mega (NVIDIA H100)
(nvidia-h100-mega-80gb)
A3 High (NVIDIA H100)
(nvidia-h100-80gb)
A3 Edge (NVIDIA H100)
(nvidia-h100-80gb)
A2 Ultra (NVIDIA A100 80GB)
(nvidia-a100-80gb)
A2 Standard (NVIDIA A100)
(nvidia-a100-40gb)

G4 (NVIDIA RTX PRO 6000)
(nvidia-rtx-pro-6000)
(nvidia-rtx-pro-6000-vws)
G2 (NVIDIA L4)
(nvidia-l4)
(nvidia-l4-vws)

Die folgenden GPU-Modelle können an N1-Maschinentypen für allgemeine Zwecke angehängt werden:

NVIDIA T4
(nvidia-tesla-t4)
(nvidia-tesla-t4-vws)
NVIDIA P4
(nvidia-tesla-p4)
(nvidia-tesla-p4-vws)
NVIDIA V100
(nvidia-tesla-v100)
NVIDIA P100
(nvidia-tesla-p100)
(nvidia-tesla-p100-vws)

GPUs auf Spot-VMs

Sie können Ihren Spot-VMs GPUs zu niedrigeren Spot-Preisen für die GPUs hinzufügen. An Spot-VMs angehängte GPUs funktionieren wie normale GPUs, bleiben jedoch nur für die Lebensdauer der VM bestehen. Für Spot-VMs mit GPUs gilt derselbe Prozess für vorzeitiges Beenden wie für alle Spot-VMs.

Fordern Sie ein dediziertes Preemptible GPU-Kontingent für GPUs auf Spot-VMs an. Weitere Informationen finden Sie unter Kontingente für Spot-VMs.

Bei Wartungsereignissen werden Spot-VMs mit GPUs standardmäßig vorzeitig beendet und können nicht automatisch neu gestartet werden. Wenn Sie die Instanzen neu erstellen möchten, nachdem sie beendet wurden, verwenden Sie eine verwaltete Instanzgruppe. Verwaltete Instanzgruppen erstellen Ihre VM-Instanzen neu, sofern die vCPU-, Speicher- und GPU-Ressourcen verfügbar sind.

Wenn Sie eine Warnung erhalten möchten, dass die VMs vorzeitig beendet werden, oder wenn Sie die VMs so konfigurieren möchten, dass sie nach einer Wartung automatisch neu gestartet werden, verwenden Sie Standard-VMs mit einer GPU. Für Standard-VMs mit GPUs bietet Compute Engine vor dem vorzeitigen Beenden eine Stunde im Voraus eine Warnung.

Compute Engine berechnet Ihnen keine GPUs, wenn ihre Instanzen in der ersten Minute nach dem Start der Ausführung wieder beendet werden.

Informationen zum Erstellen von Spot-VMs mit angehängten GPUs finden Sie unter VM mit angehängten GPUs erstellen und Spot-VMs erstellen. Ein Beispiel finden Sie unter A3 Ultra- oder A4-Instanz mit Spot-VMs erstellen.

GPUs auf Instanzen mit vordefinierten Laufzeiten

Für Instanzen, die das Standardbereitstellungsmodell verwenden, können in der Regel keine Kontingente für die Zuweisung auf Abruf verwendet werden. Kontingente auf Abruf sind für temporäre Arbeitslasten vorgesehen und in der Regel verfügbarer. Wenn Ihr Projekt kein Kontingent auf Abruf hat und Sie es noch nie angefordert haben, verbrauchen alle Instanzen in Ihrem Projekt Standardkontingente.

Wenn Sie ein Kontingent für die Zuweisung auf Abruf anfordern, müssen Instanzen, die das Standardbereitstellungsmodell verwenden, alle folgenden Kriterien erfüllen, um das Kontingent für die Zuweisung auf Abruf zu nutzen:

Den Instanzen sind GPUs zugeordnet.
Die Instanzen sind so konfiguriert, dass sie nach einer vordefinierten Laufzeit über das Feld maxRunDuration oder terminationTime automatisch gelöscht werden. Weitere Informationen finden Sie hier:
- Laufzeit einer Instanz begrenzen
- Laufzeit von Instanzen in einer MIG begrenzen
Die Instanz darf keine Reservierungen nutzen. Weitere Informationen finden Sie unter Verhindern, dass Compute-Instanzen Reservierungen nutzen.

Wenn Sie ein Zuteilungskontingent auf Abruf für zeitgebundene GPU-Arbeitslasten verwenden, profitieren Sie sowohl von der unterbrechungsfreien Laufzeit als auch von der hohen Verfügbarkeit des Zuteilungskontingents auf Abruf. Weitere Informationen finden Sie unter Kontingente auf Abruf.

GPUs und Confidential VMs

Sie können eine GPU mit einer Confidential VM-Instanz verwenden, die Intel TDX in der A3-Maschinenserie nutzt. Weitere Informationen finden Sie unter Unterstützte Konfigurationen für Confidential VMs. Informationen zum Erstellen einer Confidential VM-Instanz mit GPUs finden Sie unter Confidential VM-Instanz mit GPU erstellen.

GPUs und Blockspeicher

Wenn Sie eine Instanz mit einem GPU-Maschinentyp erstellen, können Sie der Instanz permanenten oder temporären Blockspeicher hinzufügen. Verwenden Sie zum Speichern nicht temporärer Daten einen nichtflüchtigen Blockspeicher wie Hyperdisk oder nichtflüchtiger Speicher, da diese Speicher unabhängig vom Lebenszyklus der Instanz sind. Daten im nichtflüchtigen Speicher können auch nach dem Löschen der Instanz beibehalten werden.

Für temporären Scratch-Speicher oder Caches können Sie temporären Blockspeicher verwenden, indem Sie beim Erstellen der Instanz lokale SSD-Laufwerke hinzufügen.

Nichtflüchtiger Blockspeicher mit Persistent Disk- und Hyperdisk-Volumes

Sie können GPU-fähigen Instanzen Persistent Disk-Volumes anhängen und Hyperdisk-Volumes auswählen.

Verwenden Sie für Machine-Learning-Arbeitslasten (ML) und Bereitstellungsarbeitslasten Hyperdisk ML-Volumes, die einen hohen Durchsatz und kürzere Datenladezeiten bieten. Hyperdisk ML ist eine kostengünstigere Option für ML-Arbeitslasten, da die GPU-Inaktivitätszeiten kürzer sind.

Hyperdisk-ML-Volumes unterstützen das Anhängen an mehrere Instanzen im Lesemodus. Sie können also dasselbe Laufwerk an mehrere Instanzen anhängen und jeder Instanz Zugriff auf dieselben Daten gewähren.

Weitere Informationen zu den unterstützten Laufwerkstypen für Maschinenserien, die GPUs unterstützen, finden Sie auf den Seiten für die Maschinenserien N1 und beschleunigungsoptimiert.

Lokale SSDs

Lokale SSD-Laufwerke bieten schnellen, temporären Speicher für das Caching, die Datenverarbeitung oder andere temporäre Daten. Lokale SSDs bieten schnellen Speicher, da sie physisch mit dem Server verbunden sind, auf dem Ihre Instanz gehostet wird. Lokale SSD-Laufwerke bieten temporären Speicher, da die Instanz Daten verliert, wenn sie neu gestartet wird.

Vermeiden Sie es, Daten mit hohen Anforderungen an die Persistenz auf lokalen SSD-Festplatten zu speichern. Verwenden Sie stattdessen persistent storage, um nicht vorübergehende Daten zu speichern.

Wenn Sie eine Instanz mit einer GPU manuell beenden, können Sie die Daten der lokalen SSD unter bestimmten Einschränkungen beibehalten. Weitere Informationen finden Sie in der Dokumentation zu lokalen SSDs.

Informationen zur regionalen Unterstützung für lokale SSDs mit GPU-Typen finden Sie unter Verfügbarkeit lokaler SSDs.

GPUs und Hostwartung

Compute Engine beendet Instanzen mit angehängten GPUs immer, wenn Wartungsereignisse auf dem Hostserver ausgeführt werden. Wenn der Instanz lokale SSD-Laufwerke angehängt sind, gehen die lokalen SSD-Daten nach dem Beenden der Instanz verloren.

Weitere Informationen zum Umgang mit Wartungsereignissen finden Sie unter GPU-Hostwartungen

GPU-Kapazität reservieren

Reservierungen bieten ein hohes Maß an Sicherheit für die Kapazität zonenbezogener Ressourcen, einschließlich GPUs. Mit Reservierungen können Sie dafür sorgen, dass GPUs verfügbar sind, wenn Sie sie für leistungsintensive Anwendungen benötigen. Informationen zu den verschiedenen Methoden zum Reservieren zonenspezifischer Ressourcen in Compute Engine finden Sie unter Reservierungstyp auswählen.

Reservierungen sind auch erforderlich, wenn Sie Rabatte für zugesicherte Nutzung für Ihre GPUs erhalten möchten.

GPU-Preise

Wenn Sie Compute Engine anfordern, GPUs mit dem Spot-, Flex-Start- oder reservierungsgebundenen Bereitstellungsmodell bereitzustellen, erhalten Sie die GPUs je nach GPU-Typ zu ermäßigten Preisen. Sie können auch Rabatte für zugesicherte Nutzung oder Rabatte für kontinuierliche Nutzung (nur bei N1-VMs) für Ihre GPU-Nutzung erhalten.

Informationen zu stündlichen und monatlichen Preisen für GPUs finden Sie auf der Seite „GPU-Preise”.

Rabatte für zugesicherte Nutzung für GPUs

Ressourcenbasierte Zusicherungen bieten hohe Rabatte für Compute Engine-Ressourcen im Gegenzug für die Verpflichtung, die Ressourcen mindestens ein Jahr lang in einer bestimmten Region zu nutzen. In der Regel erwerben Sie Zusicherungen für Ressourcen wie vCPUs, Arbeitsspeicher, GPUs und lokale SSD-Laufwerke zur Verwendung mit einer bestimmten Maschinenserie. Wenn Sie Ihre Ressourcen nutzen, erhalten Sie die entsprechende Ressourcennutzung zu ermäßigten Preisen. Weitere Informationen zu diesen Rabatten finden Sie unter Ressourcenbasierte Rabatte für zugesicherte Nutzung.

Wenn Sie eine Zusicherung mit GPUs erwerben möchten, müssen Sie die GPUs auch reservieren und die Reservierungen an Ihre Zusicherung anhängen. Weitere Informationen zum Anhängen von Reservierungen an Zusicherungen finden Sie unter Reservierungen an ressourcenbasierte Zusicherungen anhängen.

Rabatte für kontinuierliche Nutzung für GPUs

Für Instanzen, die N1-Maschinentypen mit angehängten GPUs verwenden, gelten ebenso wie für vCPUs Rabatte für kontinuierliche Nutzung. Wenn Sie eine GPU für eine virtuelle Workstation auswählen, fügt Compute Engine Ihrer Instanz automatisch eine NVIDIA RTX-Lizenz für die virtuelle Workstation hinzu.

GPU-Einschränkungen und Beschränkungen

Für Instanzen mit angehängten GPUs gelten die folgenden Beschränkungen und Einschränkungen:

Nur beschleunigungsoptimierte (A4X, A4, A3, A2, G4 und G2) und N1-Maschinentypen für allgemeine Zwecke unterstützen GPUs.
Zum Schutz der Systeme und Nutzer von Compute Engine haben neue Projekte ein globales GPU-Kontingent, das die Gesamtzahl der GPUs begrenzt, die Sie in einer unterstützten Zone erstellen können. Wenn Sie ein GPU-Kontingent anfordern, müssen Sie ein Kontingent für die GPU-Modelle, die Sie in den einzelnen Regionen erstellen möchten, sowie ein zusätzliches globales Kontingent für die Gesamtzahl der GPUs aller Typen in allen Zonen anfordern.
Für Instanzen mit einer oder mehreren GPUs gilt eine maximale Anzahl von vCPUs für jede einzelne GPU, die Sie in die Instanz einfügen. Die verfügbaren vCPU- und Speicherbereiche für verschiedene GPU-Konfigurationen können Sie der GPU-Liste entnehmen.
GPUs benötigen Gerätetreiber, um ordnungsgemäß zu funktionieren. NVIDIA-GPUs, die auf Compute Engine ausgeführt werden, müssen eine Mindesttreiberversion verwenden. Weitere Informationen zu Treiberversionen finden Sie unter Erforderliche NVIDIA-Treiberversionen.
Das Compute Engine-SLA deckt Instanzen mit einem angehängten GPU-Modell nur ab, wenn dieses angehängte GPU-Modell allgemein verfügbar ist.

In Regionen mit mehreren Zonen gilt das Compute Engine-SLA für die Instanz nur, wenn das GPU-Modell in mehr als einer Zone in dieser Region verfügbar ist. Informationen zu GPU-Modellen nach Region finden Sie unter Verfügbarkeit von Beschleunigern.
Compute Engine unterstützt einen gleichzeitigen Nutzer pro GPU.
Einschränkungen für jeden Maschinentyp mit angehängten GPUs