Materialization Strategies in the Vertica Analytic Database: Lessons Learned

2023年1月7日

| 数据库

列存数据库会通过物化的方式来重建tuple，包括早期物化EM、延迟物化LM，延迟物化的性能更好，但实现更难，当出现join溢出时会出现，此时会退回到早期物化；论文在早期物化基础上增加了：边信息传递SIP技术，并给出了实现细节，如何创建SIP，如何做push down；使用EM+SIP技术，比原始的EM性能大幅度提升，并且在很多场景下比延迟物化LM性能更好

阅读全文

MonetDB/X100: Hyper-Pipelining Query Execution

2023年1月5日

| 数据库

2005年的一篇论文，通过分析MySQL、MonetDB发现这两种没有达到硬件上的预期效果，MySQL是因为经典的火山模型导致编译器没法利用循环流水线，出现大量CPU等待；而MonetDB避免了上述情况但使用了物化，又导致大量的内存带宽拷贝；这篇论文结合了这两者的特点，选择了向量化的执行方式，并配合了合适的cache size，使得执行效率大幅度提升

阅读全文

Access Path Selection in Main-Memory Optimized Data Systems Should I Scan or Should I Probe

2023年1月3日

| 数据库

CMU Query Execution & Processing课程的一篇论文，现代分析系统中scan越来越重要，但二级索引依然有用，通过对比硬件参数、数据布局、压缩、并发等综合情况考虑之下，来选择：scan执行或者index执行；通过性能评估发现，调节scan或者index并不是一个固定的值，而是根据不同的参数以及硬件情况，会动态变化的

阅读全文

Photon A Fast Query Engine for Lakehouse Systems

2023年1月2日

| 大数据

Databricks 2022年在SIGMOD上发表的论文(最佳工业论文奖)，由于I/O方面有很多优化措施，而JVM的对向量化支持较差，之后用C++实现了向量化的执行引擎Photon，来实现进一步的性能提升；首先是从最底层scan开始替换，因为中间替换的代价较高，之后不断往上，直到某个算子Photon不能适配，则由列存转换为Spark的行存，退回到Spark执行，总体看性能可以提升好几倍

阅读全文

关于云环境中多租户问题的论文

2022年11月18日

| 架构

主要挑战：存储计算分离架构，多租户共享资源需要解决的问题，serverless不需要预定资源随用随付费；隔离VS安全，隔离程度高越安全但价格高，整合程度高虚拟化stack高便捷性好便宜；自建机房的SLA基本能确定，但在云共享环境中就不是一个固定值了，一般厂商会提供可用性、吞吐量、延迟这些保证，还有多租户集群管理；开放问题：CPU的扩展和内存之间的结构、缓存的动态迁移、云服务价格优化、自动调优、新硬件的影响、资源评估

阅读全文