华为云

架构

基于华为自己的 虚拟机之上,可以快速一键部署,华为有自己的 FusionInsight,底层基础设施管理,这个应该是基于 openstack做的
大数据组件跟下面的 FusionInsight 应该是完全打通兼容了
另外支持 对象存储

整个这套的优点

  • 跟底层的 fusion 打通,虚拟机,可用区,VPC,认证都整合了
  • 存算分离,支持 AZ 备份
  • 自研组件 CarbonDta,Superior Scheduler
  • 跟 鲲鹏整合优化
  • 所有组件均支持 HA
  • 统一的管理界面
  • 数据治理
  • 湖仓构建

其他

  • 多租户
  • 网络隔离
  • 集群管理
  • 运维管理
  • 告警通知
  • 元数据
  • 责任共担

另一点是,提供了一整套的 API,可以用这些 API 来组装一套集群

阿里云

EMR 的各个组件

几种部署模式

  • EMR on ECS,基于云主机的
  • EMR on ACK,基于 k8s 的
  • EMR Serverless

特点

  • 100% 兼容开源组件
  • 多租户,表列等审计,加密
  • 高可用
  • DLF统一元数据
  • KMS 数据盘加密
  • 自研 celeborn
  • Spark 向量化增强

集群规划

  • DataLake,离线计算,支持DeltaLake、Hudi和Iceberg
  • Dataflow,实时计算,Flink 和 Kafka
  • OLAP,clickhouse、StarRocks
  • DataServing, 数据服务场景

网易大数据平台

NDH

特点

  • RBF(Router-Based Federation),多HDFS 联邦
  • Kyuubi,高可用
  • Impala,增强很多功能
  • Spark,Rebalance + Z-Order,有 spark 的committer

其他

  • 智能运维,健康检查
  • 报警、SQL探针,检查服务状态,自动巡检
  • 计算资源分析
  • 服务治理

腾讯云

TDBS

特点

  • 支持流处理
  • 数据湖,离线、实时、OLAP
  • 湖仓一体
  • 数据中台

其他

  • 高可用
  • 兼容开源生态
  • 场景优化

总结

每家情况不一样,总体都是差不多的
共同点

  • 去掉了 Ambari,都有自己的一套集群管控系统
  • 监控、报警、自动化运维,这些都是必须的
  • 智能诊断,数据治理
  • 集成了开源大数据各种组件,一般 20 - 30 左右的样子
  • 离线分离、实时分析、OLAP、数据服务,基本都有的

不同点
阿里云

  • 有 celeborn、向量化增强
  • EMR on ECS、on ACK、Serverless

网易

  • 自动化诊断做的不错
  • Kyuubi、Impala两个增强点

华为云

  • 基于OpenStack 一套 API自动组装集群
  • 和鲲鹏的硬件整合
  • CarbonDta,Superior Scheduler,在调用和存储上有自研组件

腾讯

  • 基本需求、离线、实时、OLAP,湖仓各种场景都满足

参考