Dataproc Metastore è un metastore Apache Hive (HMS) completamente gestito che viene eseguito su Google Cloud. Un (HMS) è lo standard consolidato nell'ecosistema open source di big data per la gestione dei metadati tecnici, come schemi, partizioni e statistiche delle colonne in un database relazionale.
Dataproc Metastore è ad alta disponibilità, autoriparazione e serverless. Utilizzalo per gestire i metadati del data lake e fornire interoperabilità tra i vari motori e strumenti di elaborazione dei dati che utilizzi.
Come funziona Dataproc Metastore
Puoi utilizzare un servizio Dataproc Metastore collegandolo a un cluster Dataproc. Un cluster Dataproc include componenti che si basano su un HMS per guidare la pianificazione e l'esecuzione delle query.
Questa integrazione ti consente di conservare le informazioni delle tabelle tra i job o di rendere i metadati disponibili per altri cluster e altri motori di elaborazione.
Ad esempio, l'implementazione di un metastore può aiutarti a indicare che un sottoinsieme dei tuoi file contiene dati sulle entrate, anziché tenere traccia manualmente dei nomi dei file. In questo caso, puoi definire una tabella per questi file e archiviare i metadati in Dataproc Metastore. Dopodiché, puoi connetterlo a un cluster Dataproc ed eseguire query sulla tabella per ottenere informazioni utilizzando Hive, Spark SQL o altri servizi di query.
Versioni di Dataproc Metastore
Quando crei un servizio Dataproc Metastore, puoi scegliere di utilizzare un servizio Dataproc Metastore 2 o un servizio Dataproc Metastore 1.
- Dataproc Metastore 2 è la nuova generazione del servizio che offre scalabilità orizzontale oltre alle funzionalità di Dataproc Metastore 1. Per saperne di più, consulta funzionalità e vantaggi. 
- Dataproc Metastore 2 ha un piano tariffario diverso da Dataproc Metastore. Per ulteriori informazioni, consulta piani tariffari e configurazioni di scalabilità. 
Casi d'uso comuni
Tutti i casi d'uso elencati in questa sezione sono supportati da Dataproc Metastore 2 e Dataproc Metastore 1, se non diversamente indicato.
- Assegna un significato ai tuoi dati. Crea un repository di metadati centralizzato condiviso tra molti cluster Dataproc temporanei. Utilizza diversi motori software open source (OSS), come Apache Hive , Apache Spark e Presto. 
- Crea una visualizzazione unificata dei dati. Fornisci l'interoperabilità tra serviziGoogle Cloud , come Dataproc, Catalogo universale Dataplex e BigQuery, oppure utilizza altre offerte di partner basate su open source su Google Cloud. 
Funzionalità e vantaggi
Tutte le funzionalità elencate in questa sezione sono supportate da Dataproc Metastore 2 e Dataproc Metastore 1, se non diversamente indicato.
- Compatibilità con software open source. Connettiti ai tuoi motori di elaborazione dei dati esistenti, come Apache Hive, Apache Spark e Presto. 
- Gestione. Crea o aggiorna un metastore in pochi minuti, completo di attività di monitoraggio e operazioni completamente configurate. 
- Integrazione. Integrati con altri prodotti Google Cloud , ad esempio utilizzando BigQuery come origine dei metadati per un cluster Dataproc. 
- Sicurezza integrata. Utilizza protocolli di sicurezza Google Cloud consolidati, come Identity and Access Management (IAM) e l'autenticazione Kerberos. 
- Importazione semplice. Importa i metadati esistenti archiviati in un metastore Hive esterno in un servizio Dataproc Metastore. 
- Backup automatici. Configura i backup automatici del metastore per evitare la perdita di dati. 
- Monitoraggio del rendimento. Imposta i livelli di prestazioni per rispondere dinamicamente a carichi di lavoro e picchi molto intensi, senza preriscaldamento o memorizzazione nella cache. 
- Alta disponibilità (HA). - Dataproc Metastore 2. Fornisce alta disponibilità (HA) a livello di zona senza richiedere alcuna configurazione specifica o gestione continua. Ciò si ottiene replicando automaticamente i database di backend e i server HMS in più zone della regione che scegli. Oltre all'alta affidabilità zonale, Dataproc Metastore 2 supporta l'alta affidabilità regionale e il disaster recovery (RE).
- Dataproc Metastore 1. Per impostazione predefinita, fornisce alta disponibilità (HA) zonale senza richiedere alcuna configurazione specifica o gestione continua. Ciò si ottiene replicando automaticamente i database di backend e i server HMS in più zone della regione che scegli.
 - Per saperne di più sulle considerazioni specifiche per le regioni, consulta Area geografica e regioni. 
- Scalabilità. - Dataproc Metastore 2. Utilizza un fattore di scalabilità orizzontale per determinare quante risorse deve utilizzare il tuo servizio in un determinato momento. Il fattore di scalabilità può essere controllato manualmente o impostato sulla scalabilità automatica in base alle esigenze.
- Dataproc Metastore 1. Scegli tra un livello per sviluppatori o un livello Enterprise quando configuri il servizio. Questo livello determina il numero di risorse che il tuo servizio deve utilizzare in un determinato momento.
 
- Assistenza. Usufruisci di SLA e canali di assistenza Google Cloud standard. 
Integrazioni con Google Cloud
Tutte le integrazioni elencate in questa sezione sono supportate da Dataproc Metastore 1 e Dataproc Metastore 2, se non diversamente indicato.
- Dataproc. Connettiti a un cluster Dataproc per poter pubblicare i metadati per i carichi di lavoro di big data OSS.
- BigQuery. Esegui query sui set di dati BigQuery nei tuoi carichi di lavoro Dataproc.
- Dataplex Universal Catalog. Esegui query sui dati strutturati e semi-strutturati rilevati in un lake Dataplex Universal Catalog.
- Data Catalog. Sincronizza Dataproc Metastore con Data Catalog per attivare la ricerca e l'individuazione dei metadati.
- Logging e monitoraggio. Integra Dataproc Metastore con i prodotti Cloud Monitoring e Cloud Logging.
- Autenticazione e IAM. Affidati all'autenticazione OAuth standard utilizzata da altri prodottiGoogle Cloud , che supporta l'utilizzo di ruoli Identity and Access Management granulari per attivare controllo dell'accesso dell'accesso per le singole risorse.
Passaggi successivi
- Inizia con la guida rapida Deployment di un servizio Dataproc Metastore.
- Comprendi i prezzi di Dataproc Metastore.
- Scopri le quote e i limiti per Dataproc Metastore.
- Leggi le note di rilascio di Dataproc Metastore.
- Accedi a Dataproc Metastore utilizzando la consoleGoogle Cloud , Google Cloud CLI o l'API Dataproc Metastore.