分类 大数据 中的文章

The History of Big data

从谷歌的三篇论文到Hadoop的诞生,再是各种开源产品依次出现,Hive对MapReduce的易用性改进,三大Hadoop 供应商,谷歌新三篇论文诞生了交互式查询(三大供应商推出)以及各种开源存储格式,Spark的出现和各种流处理系统,Netflix也证明了云的强大,流批一体以及各种分布式调度系统,基于云的数仓产品出现,HDFS替换上云、容器化出现、全托管数仓Modern Data Stack、深度学习对Hadoop的影响,三大供应商被收购,三大开放表格存储的出现,几个元数据管理产品,几个新的调度框架,LakeHouse的出现以及相关类似云产品

阅读全文

Ambari架构

介绍 Ambari 的基本功能,依赖的其他开源组件,主要模块 Ambari-Server、Agent、web、metrics 的介绍

阅读全文

Gluten和相关依赖

对Spark性能增加的一个方案,将处理密集型数据部分的逻辑,由 JVM 交给 C++处理,Gluten只是一个胶水层,本身不做太多的事情,它将Spark的物理计划转为Substrait计划,然后序列化再转发给底层的向量化引擎,如Velox、ClickHouse等。对于不支持的算子会交给原生Spark处理,这种思路跟Databricks 发表的论文Photon是很类似的

阅读全文