分类 大数据 中的文章

Doris Advanced

Pipeline Execution Engine, Nereids-the Brand New Planner, High-Concurrency Point Query, Materialized View, Statistics, Join Optimization. Multi-catalog, Spark Doris Connector, Other Connector, Plugin Development Manual, CloudCanal Data Import, DBT Doris Adapter, UDF, cluster management, Data Admin, Other Manager, Maintenance and Monitor, Metadata Operations and Maintenance

阅读全文

Doris Basic

Introduce Doris,include: Data Model(Aggregate Model,Unique Model,Duplicate Model), Data Partition(Rollup),Index(Inverted Index,BloomFilter Index,NGram BloomFilter Index,Bitmap Index). Import Scenes,Import Way(Broker Load,Routine Load,Spark Load,Stream Load,MySql Load,S3 Load,Insert Into,Importing Data in JSON Format,Min Load Replica Num),Export,Update and Delete

阅读全文

Impala Tuning Summary

Impala Tuning, Architecture. tunning: join,statistics,cache,coordinators,web ui. admission control,administration configuration,security. SQL Statements and Data Type, built-in functions,udf, explain commands, file formats, Supported table and storage

阅读全文

大数据的历史

从谷歌的三篇论文到Hadoop的诞生,再是各种开源产品依次出现,Hive对MapReduce的易用性改进,三大Hadoop 供应商,谷歌新三篇论文诞生了交互式查询(三大供应商推出)以及各种开源存储格式,Spark的出现和各种流处理系统,Netflix也证明了云的强大,流批一体以及各种分布式调度系统,基于云的数仓产品出现,HDFS替换上云、容器化出现、全托管数仓Modern Data Stack、深度学习对Hadoop的影响,三大供应商被收购,三大开放表格存储的出现,几个元数据管理产品,几个新的调度框架,LakeHouse的出现以及相关类似云产品

阅读全文

Ambari架构

介绍 Ambari 的基本功能,依赖的其他开源组件,主要模块 Ambari-Server、Agent、web、metrics 的介绍

阅读全文

Gluten和相关依赖

对Spark性能增加的一个方案,将处理密集型数据部分的逻辑,由 JVM 交给 C++处理,Gluten只是一个胶水层,本身不做太多的事情,它将Spark的物理计划转为Substrait计划,然后序列化再转发给底层的向量化引擎,如Velox、ClickHouse等。对于不支持的算子会交给原生Spark处理,这种思路跟Databricks 发表的论文Photon是很类似的

阅读全文