Apache Iceberg中的压缩

2024年2月29日

| 大数据

压缩，可以将多个小文件合并为大文件提高读性能，几种压缩策略：binpack（简单合并）、sort、z-order（适合多列查询），Expire Snapshots 可以删除过期的数据文件，还提供了参数可以自动删除manifest 文件、保留多少manifest文件，以及清除orphan 文件

阅读全文

Copy-On-Write vs Merge-On-Read in Apache Iceberg

2024年2月28日

| 大数据

Copy-On-Write适用的场景和优缺点，Merge-On-Read的 position deletes、equality deletes 原理，以及适用的场景，优缺点，如何选择COW和MOR，以及如何配置他们

阅读全文

Apache Iceberg Tables 的读写和查询管理

2024年2月26日

| 大数据

介绍了存储的结构，元数据层包括：manifest files、manifest list, metadata files，catalog指向最新的 metadata files；每一层都可以做裁减，包括数据层，介绍了读取、time travel过程，是自上往下的读取和裁减过程；写入过程：插入、删除、merge过程，写过程是自下而上的，通过切换catalog指向，利用OCC控制并发，实现ACID

阅读全文

Iceberg 简单总结

2024年2月25日

| 大数据

branch 和 tag，schema、partition、sort order演化，快照的维护（合并，删除孤儿文件等），manifest list 和 manifest files 两级布局；Hive的问题以及iceberg的优化：list是O(1)的，细粒度的partition，OCC，并发冲突，单节点的plan；Hidden partitioning，Time travelVersion rollback。支持：Spark、Flink、Hive、Trino、ClickHouse、Presto、Dremio、starrocks、Athena、EMR、Impala、Dori

阅读全文

包含标签 iceberg 的文章

Apache Iceberg中的压缩

Copy-On-Write vs Merge-On-Read in Apache Iceberg

Apache Iceberg Tables 的读写和查询管理

Iceberg 简单总结

最近文章

分类

归档

标签

RSS