轻松运行全托管式 Apache Spark、Hadoop 和 30 多种开源框架集群,并灵活掌控运行环境。使用 Lightning Engine 加速 Compute Engine 上的 Spark,并与 Google Cloud 的开放式数据湖仓库集成。
Apache Spark 是 Apache Software Foundation 的商标。
功能
除了 Spark,Dataproc 还为完整的 Apache Hadoop 技术栈(MapReduce、HDFS 和 YARN),以及 Flink、Trino、Hive 和 30 多种其他开源工具提供全托管式服务。为支持这些需求,Dataproc 集成了全托管式 Hive Metastore 服务 Dataproc Metastore,简化对传统数据湖组件的元数据管理。对传统数据湖工作负载进行现代化改造,或使用您偏好的引擎构建新应用。
自定义 Dataproc 集群,支持多种机器类型(包括 GPU)、抢占式虚拟机、磁盘选项、自动扩缩政策、初始化操作、容器/映像和可选组件。使用工作流模板等功能编排复杂作业,并通过控制台、gcloud、API 或客户端库进行集群管理。通过与 Cloud Monitoring 集成,全面掌握集群性能与健康状况,获取丰富的指标、信息中心和提醒功能。
Dataproc 集群与 BigLake Metastore 原生集成,让您可以处理以 Apache Iceberg on Cloud Storage 等开放格式存储的数据。对于基于传统 Hive 的元数据需求,可与托管式 Dataproc Metastore 服务实现无缝集成。利用 Dataplex Universal Catalog 实现对整个湖仓一体资产的统一发现、沿袭和治理。将 Dataproc 与 BigQuery、Vertex AI、Spanner、Pub/Sub 和 Data Fusion 连接,构建强大、端到端的解决方案,从而扩展您的数据应用。
获享 Google Cloud 的强大安全机制。配置 Kerberos、使用 IAM 管理访问权限、使用 VPC Service Controls 强制执行网络政策,以及使用 CMEK。集成 Dataplex Universal Catalog 以实现集中式政策管理,并通过 BigLake 实现细粒度访问控制。
利用熟悉的工具和 IDE(例如在笔记本电脑上运行的 Jupyter 和 VS Code IDE)来连接 Dataproc 集群。将 Dataproc 与 Vertex AI Workbench 集成,以在集群上进行交互式 Spark 开发,并使用 Vertex AI 构建端到端 AI/机器学习流水线。
常见用途
对数据湖进行现代化改造
轻松将本地 Hadoop 和 Spark 工作负载迁移到云端。使用 Dataproc 在 Cloud Storage 中的数据上运行 MapReduce、Hive、Pig 和 Spark 作业,集成 Dataproc Metastore,并通过 Dataplex Universal Catalog 实现统一治理。
对数据湖进行现代化改造
轻松将本地 Hadoop 和 Spark 工作负载迁移到云端。使用 Dataproc 在 Cloud Storage 中的数据上运行 MapReduce、Hive、Pig 和 Spark 作业,集成 Dataproc Metastore,并通过 Dataplex Universal Catalog 实现统一治理。
大规模定制数据科学
启动包含特定版本的 Spark、Jupyter 和所需机器学习库的专用 Dataproc 集群,以进行协作式大规模模型训练和高级分析。与 Vertex AI 集成以进行 MLOps。
大规模定制数据科学
启动包含特定版本的 Spark、Jupyter 和所需机器学习库的专用 Dataproc 集群,以进行协作式大规模模型训练和高级分析。与 Vertex AI 集成以进行 MLOps。
价格
| 托管式集群的 Dataproc 价格 | Dataproc 采用随用随付的价格模式。通过自动扩缩和抢占式虚拟机,优化费用。Compute Engine 高级层级可通过 Lightning Engine 加速 Spark 性能。 | 
|---|---|
| 关键组件: | 
 | 
| 示例: | 一个集群包含 6 个节点(1 个主节点 + 5 个工作器节点),每个节点有 4 个 CPU,若每个 CPU 运行 2 小时,费用将为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48 | 
托管式集群的 Dataproc 价格
Dataproc 采用随用随付的价格模式。通过自动扩缩和抢占式虚拟机,优化费用。Compute Engine 高级层级可通过 Lightning Engine 加速 Spark 性能。
关键组件:
示例:
一个集群包含 6 个节点(1 个主节点 + 5 个工作器节点),每个节点有 4 个 CPU,若每个 CPU 运行 2 小时,费用将为 $0.48。Dataproc 费用 = vCPU 数 * 小时数 * Dataproc 价格 = 24 * 2 * $0.01 = $0.48