Photon A Fast Query Engine for Lakehouse Systems 2023年1月2日 | 大数据 Databricks 2022年在SIGMOD上发表的论文(最佳工业论文奖),由于I/O方面有很多优化措施,而JVM的对向量化支持较差,之后用C++实现了向量化的执行引擎Photon,来实现进一步的性能提升;首先是从最底层scan开始替换,因为中间替换的代价较高,之后不断往上,直到某个算子Photon不能适配,则由列存转换为Spark的行存,退回到Spark执行,总体看性能可以提升好几倍 阅读全文
FlumeJava: Easy, Efficient Data-Parallel Pipelines 2022年11月10日 | 大数据 FlumeJava论文:《FlumeJava: Easy, Efficient Data-Parallel Pipelines》翻译 阅读全文
Apache Flink™: Stream and Batch Processing in a Single Engine 2022年11月5日 | 大数据 Flink论文:《Apache Flink™: Stream and Batch Processing in a Single Engine》翻译 阅读全文
Delta Lake论文 2022年6月24日 | 大数据 Delta Lake: High-Performance ACID Table Storage over Cloud Object Stores 论文 阅读全文