Doris Advanced

2024年1月5日

| 大数据

Pipeline Execution Engine, Nereids-the Brand New Planner, High-Concurrency Point Query, Materialized View, Statistics, Join Optimization. Multi-catalog, Spark Doris Connector, Other Connector, Plugin Development Manual, CloudCanal Data Import, DBT Doris Adapter, UDF, cluster management, Data Admin, Other Manager, Maintenance and Monitor, Metadata Operations and Maintenance

阅读全文

Doris Basic

2024年1月5日

| 大数据

Introduce Doris,include: Data Model(Aggregate Model,Unique Model,Duplicate Model), Data Partition(Rollup),Index(Inverted Index,BloomFilter Index,NGram BloomFilter Index,Bitmap Index). Import Scenes,Import Way(Broker Load,Routine Load,Spark Load,Stream Load,MySql Load,S3 Load,Insert Into,Importing Data in JSON Format,Min Load Replica Num),Export,Update and Delete

阅读全文

Impala Tuning Summary

2023年12月1日

| 大数据

Impala Tuning, Architecture. tunning: join,statistics,cache,coordinators,web ui. admission control,administration configuration,security. SQL Statements and Data Type, built-in functions,udf, explain commands, file formats, Supported table and storage

阅读全文

大数据的历史

2023年11月19日

| 大数据

从谷歌的三篇论文到Hadoop的诞生，再是各种开源产品依次出现，Hive对MapReduce的易用性改进，三大Hadoop 供应商，谷歌新三篇论文诞生了交互式查询（三大供应商推出）以及各种开源存储格式，Spark的出现和各种流处理系统，Netflix也证明了云的强大，流批一体以及各种分布式调度系统，基于云的数仓产品出现，HDFS替换上云、容器化出现、全托管数仓Modern Data Stack、深度学习对Hadoop的影响，三大供应商被收购，三大开放表格存储的出现，几个元数据管理产品，几个新的调度框架，LakeHouse的出现以及相关类似云产品

阅读全文

TPCx-HS优化总结

2023年11月9日

| 大数据

TPCx-HS优化总结

阅读全文

Gluten源码结构

2023年9月24日

| 大数据

Spark向量化扩展 gluten 源码结构分析

阅读全文

Ambari架构

2023年9月2日

| 大数据

介绍 Ambari 的基本功能，依赖的其他开源组件，主要模块 Ambari-Server、Agent、web、metrics 的介绍

阅读全文

Gluten和相关依赖

2023年8月27日

| 大数据

对Spark性能增加的一个方案，将处理密集型数据部分的逻辑，由 JVM 交给 C++处理，Gluten只是一个胶水层，本身不做太多的事情，它将Spark的物理计划转为Substrait计划，然后序列化再转发给底层的向量化引擎，如Velox、ClickHouse等。对于不支持的算子会交给原生Spark处理，这种思路跟Databricks 发表的论文Photon是很类似的

阅读全文

大数据采集

2023年7月23日

| 大数据

总结一下大数据采集框架：Flumen、Fluentd、Sqoop、Datax、SeaTunel

阅读全文

Presto在各大公司的应用

2023年7月12日

| 大数据

Presto在 B站、字节跳动等各大公司的应用

阅读全文

分类大数据中的文章

Doris Advanced

Doris Basic

Impala Tuning Summary

大数据的历史

TPCx-HS优化总结

Gluten源码结构

Ambari架构

Gluten和相关依赖

大数据采集

Presto在各大公司的应用

最近文章

分类

归档

标签

RSS

分类 大数据 中的文章

最近文章

归档

RSS

分类大数据中的文章