2023年5月14日
在资源隔离大功能的基础上,实现动态加载配置修改功能,当用户 alter 了资源配置表,会动态生效
阅读全文
2023年5月13日
基于高可用的两层调度方式,配合 k8s 实现一套资源隔离机制,并实现自定义的语法
阅读全文
2023年5月12日
将业务镜像和底层基础镜像合并,去掉spark的k8s模板配置文件,通过init容器 + env + volumn方式实现
阅读全文
2023年1月2日
Databricks 2022年在SIGMOD上发表的论文(最佳工业论文奖),由于I/O方面有很多优化措施,而JVM的对向量化支持较差,之后用C++实现了向量化的执行引擎Photon,来实现进一步的性能提升;首先是从最底层scan开始替换,因为中间替换的代价较高,之后不断往上,直到某个算子Photon不能适配,则由列存转换为Spark的行存,退回到Spark执行,总体看性能可以提升好几倍
阅读全文
2022年11月18日
MillWheel: Fault-Tolerant Stream Processing at
Internet Scale
阅读全文
2022年11月10日
FlumeJava论文:《FlumeJava: Easy, Efficient Data-Parallel Pipelines》翻译
阅读全文
2022年11月5日
Flink论文:《Apache Flink™: Stream and Batch Processing in a Single Engine》翻译
阅读全文
2022年7月2日
The Snowflake Elastic Data Warehouse 论文 2015年发表在 sigmod上的
阅读全文