Compaction in Apache Iceberg 2024年2月29日 | 大数据 压缩,可以将多个小文件合并为大文件提高读性能,几种压缩策略:binpack(简单合并)、sort、z-order(适合多列查询),Expire Snapshots 可以删除过期的数据文件,还提供了参数可以自动删除manifest 文件、保留多少manifest文件,以及清除orphan 文件 阅读全文
Copy-On-Write vs Merge-On-Read in Apache Iceberg 2024年2月28日 | 大数据 Copy-On-Write适用的场景和优缺点,Merge-On-Read的 position deletes、equality deletes 原理,以及适用的场景,优缺点,如何选择COW和MOR,以及如何配置他们 阅读全文
The Life of a Read/Write Query for Apache Iceberg Tables 2024年2月26日 | 大数据 介绍了存储的结构,元数据层包括:manifest files、manifest list, metadata files,catalog指向最新的 metadata files;每一层都可以做裁减,包括数据层,介绍了读取、time travel过程,是自上往下的读取和裁减过程;写入过程:插入、删除、merge过程,写 过程是自下而上的,通过 切换catalog指向,利用OCC控制并发,实现ACID 阅读全文
Iceberg 简单总结 2024年2月25日 | 大数据 branch 和 tag,schema、partition、sort order演化,快照的维护(合并,删除孤儿文件等),manifest list 和 manifest files 两级布局;Hive的问题以及iceberg的优化:list是O(1)的,细粒度的partition,OCC,并发冲突,单节点的plan;Hidden partitioning,Time travelVersion rollback。支持:Spark、Flink、Hive、Trino、ClickHouse、Presto、Dremio、starrocks、Athena、EMR、Impala、Dori 阅读全文