国内几个云厂商大数据平台
华为云
基于华为自己的 虚拟机之上,可以快速一键部署,华为有自己的 FusionInsight,底层基础设施管理,这个应该是基于 openstack做的
大数据组件跟下面的 FusionInsight 应该是完全打通兼容了
另外支持 对象存储
整个这套的优点
- 跟底层的 fusion 打通,虚拟机,可用区,VPC,认证都整合了
- 存算分离,支持 AZ 备份
- 自研组件 CarbonDta,Superior Scheduler
- 跟 鲲鹏整合优化
- 所有组件均支持 HA
- 统一的管理界面
- 数据治理
- 湖仓构建
其他
- 多租户
- 网络隔离
- 集群管理
- 运维管理
- 告警通知
- 元数据
- 责任共担
另一点是,提供了一整套的 API,可以用这些 API 来组装一套集群
阿里云
几种部署模式
- EMR on ECS,基于云主机的
- EMR on ACK,基于 k8s 的
- EMR Serverless
特点
- 100% 兼容开源组件
- 多租户,表列等审计,加密
- 高可用
- DLF统一元数据
- KMS 数据盘加密
- 自研 celeborn
- Spark 向量化增强
集群规划
- DataLake,离线计算,支持DeltaLake、Hudi和Iceberg
- Dataflow,实时计算,Flink 和 Kafka
- OLAP,clickhouse、StarRocks
- DataServing, 数据服务场景
网易大数据平台
特点
- RBF(Router-Based Federation),多HDFS 联邦
- Kyuubi,高可用
- Impala,增强很多功能
- Spark,Rebalance + Z-Order,有 spark 的committer
其他
- 智能运维,健康检查
- 报警、SQL探针,检查服务状态,自动巡检
- 计算资源分析
- 服务治理
腾讯云
特点
- 支持流处理
- 数据湖,离线、实时、OLAP
- 湖仓一体
- 数据中台
其他
- 高可用
- 兼容开源生态
- 场景优化
总结
每家情况不一样,总体都是差不多的
共同点
- 去掉了 Ambari,都有自己的一套集群管控系统
- 监控、报警、自动化运维,这些都是必须的
- 智能诊断,数据治理
- 集成了开源大数据各种组件,一般 20 - 30 左右的样子
- 离线分离、实时分析、OLAP、数据服务,基本都有的
不同点
阿里云
- 有 celeborn、向量化增强
- EMR on ECS、on ACK、Serverless
网易
- 自动化诊断做的不错
- Kyuubi、Impala两个增强点
华为云
- 基于OpenStack 一套 API自动组装集群
- 和鲲鹏的硬件整合
- CarbonDta,Superior Scheduler,在调用和存储上有自研组件
腾讯
- 基本需求、离线、实时、OLAP,湖仓各种场景都满足