Building An Elastic Query Engine on Disaggregated Storage
SnowFlake的一篇论文,目前的架构包含四层:中心化的服务处理端到端的查询、计算层、临时存储层、对象存储层,并讨论了设计临时存储这一层的原因,通过访问数据指标能发现,临时存储的需求变化很大,跟计算层,远端持久存储层都不同。为更好的提高利用率需要计算层跟 临时存储层解耦。调度方面包括:工作窃取、延迟的一致性hash。由于云厂商的计费方式支持到秒级别,原先的预热VM 方式不好使了需要采用共享资源的方式来支持多租户,带来的挑战是,重新设计临时存储层(这层缓存了持久数据和中间数据,扩容会影响其他租户),需要提供私有地址。三个开放问题:临时存和计算层解耦、内存-SSD-远端存储三层机制的有效管理、亚秒计费策略的共享资源架构挑战