Auf dieser Seite werden Dienste aufgeführt, die von Dataproc-Image-Versionen auf Dataproc-Clusterknoten ausgeführt werden.
Alle Knoten
Die folgenden Dienste werden auf allen Knoten in einem Cluster ausgeführt.
| Knotentyp | Dienst | Image-Versionen | Beschreibung | 
|---|---|---|---|
| Alle Knoten | google-dataproc-agent | Alle | Empfängt Jobs von Dataproc und startet Jobtreiber | 
| google-fluentd | Alle | Erfasst Logs an Logging und überträgt sie per Push | 
Standardcluster
Die folgenden Dienste werden auf Standardclustern ausgeführt.
| Knotentyp | Dienst | Image-Versionen | Beschreibung | 
|---|---|---|---|
| Master | hadoop-hdfs-namenode | Alle | Verwaltet das HDFS-Dateisystem | 
| hadoop-hdfs-secondarynamenode | Alle | Prüfpunkte für den NameNode | |
| hadoop-mapreduce-historyserver | Alle | Stellt Informationen zum MapReduce-Anwendungsverlauf bereit | |
| hadoop-yarn-resourcemanager | Alle | YARN-Anwendungen planen und verwalten | |
| hadoop-yarn-timelineserver | 1.3+ | Stellt Informationen zum YARN-Anwendungsverlauf bereit | |
| hive-metastore | Alle | Verwaltet Hive-Tabellenmetadaten Standardmäßig wird die lokale Datenbank mariadb(Image-Versionen < 1.5) odermysql(Image-Version 1.5 und höher) auf dem Masterknoten als Hive-Tabellen-Metadatenspeicher verwendet.
  Die Verwendung der Standarddatenbank wird nicht empfohlen, da diese Datenbanken an den Lebenszyklus des Clusters gebunden sind. Verwenden Sie stattdessen eine der folgenden Optionen als Hive-Metastore-Datenbank (in der Reihenfolge der Empfehlung): | |
| hive-server2 | Alle | Stellt Abfragen von Clients (vor allem Beeline-Shell-Abfragen) an Hive bereit. | |
| mariadb | < 1.5 | Eine relationale Datenbank, die als standardmäßige zugrunde liegende Datenbank für Hive-Metastore in Dataproc < 1.5 Images verwendet wird | |
| mysql | 1.5+ | Eine relationale Datenbank, die als standardmäßige zugrunde liegende Datenbank für Hive-Metastore in Dataproc < 1.5+ Images verwendet wird | |
| nfs-kernel-server | < 1.3 | NFS ist das Network File System. | |
| spark-history-server | Alle | Stellt Informationen zum Spark-Anwendungsverlauf bereit | |
| Alle Worker | hadoop-yarn-nodemanager | Alle | Startet und verwaltet YARN-Container | 
| Nur primäre Worker | hadoop-hdfs-datanode | Alle | Speichert HDFS-Blöcke | 
Hochverfügbarkeitscluster
In Hochverfügbarkeitsclustern (High Availability, HA) werden unterschiedliche Dienste auf verschiedenen Masterknoten ausgeführt (siehe unten). Dienste für HA-Cluster-Worker-Knoten sind mit den Diensten für Standardcluster identisch.
| Knotentyp | Dienst | Image-Versionen | Beschreibung | 
|---|---|---|---|
| Alle Vorlagen | hadoop-hdfs-journalnode | Alle | Ein Quorum von Journalknoten verwaltet ein Bearbeitungslog der HDFS-Namespace-Änderungen. Wenn ein Failover auftritt, liest der Standby-NameNode das Bearbeitungslog und übernimmt die Kontrolle vom Active NameNode. | 
| hadoop-yarn-resourcemanager | Alle | YARN-Anwendungen planen und verwalten | |
| hive-metastore | Alle | Verwaltet Hive-Tabellenmetadaten Standardmäßig wird die lokale Datenbank mariadb(Image-Versionen < 1.5) odermysql(Image-Version 1.5 und höher) auf dem Masterknoten als Hive-Tabellen-Metadatenspeicher verwendet.
  Die Verwendung der Standarddatenbank wird nicht empfohlen, da diese Datenbanken an den Lebenszyklus des Clusters gebunden sind. Verwenden Sie stattdessen eine der folgenden Optionen als Hive-Metastore-Datenbank (in der Reihenfolge der Empfehlung): | |
| hive-server2 | Alle | Stellt Abfragen von Clients (vor allem Beeline-Shell-Abfragen) an Hive bereit. | |
| zookeeper-server | Alle | Für die verteilte Koordination wird ein Quorum von ZooKeeper verwendet. In Hochverfügbarkeitsclustern (HA) wird es für die Wahl der HDFS-NameNodes und des YARN-Ressourcenmanager verwendet. | |
| Master nur 0 und 1 | hadoop-hdfs-namenode | Alle | Verwaltet das HDFS-Dateisystem | 
| hadoop-hdfs-zkfc | Alle | ZKFC ist der ZKFailoverController-Prozess, der mit dem HDFS NameNode ausgeführt wird. Er überwacht den Zustand des NameNode und verwaltet die Leader-Auswahl über ZooKeeper bei einem Failover. | |
| Nur Master 0 | hadoop-mapreduce-historyserver | Alle | Stellt Informationen zum MapReduce-Anwendungsverlauf bereit | 
| hadoop-yarn-timelineserver | 1.3+ | Stellt Informationen zum YARN-Anwendungsverlauf bereit | |
| mariadb | < 1.5 | Eine relationale Datenbank, die als standardmäßige zugrunde liegende Datenbank für Hive-Metastore in Dataproc < 1.5 Images verwendet wird | |
| mysql | 1.5+ | Eine relationale Datenbank, die als standardmäßige zugrunde liegende Datenbank für Hive-Metastore in Dataproc < 1.5+ Images verwendet wird | |
| nfs-kernel-server | < 1.3 | NFS ist das Network File System. | |
| spark-history-server | Alle | Stellt Informationen zum Spark-Anwendungsverlauf bereit |