spark 的 streaming

2024年9月9日

| 大数据

spark streaming的基本原理，包括MicroBatchExecution，ContinuousExecution，通过IncrementalExecution + 状态实现micro-batch 并复用了spark 的所有查询逻辑；Source接口支持 getOffset，commit，可以自定义各种扩展实现；Sink包括：FileStreamSink、KafkaSink、DeltaSink、、ForeachBatchSink，ForeachWriteTable；Stateful将信息存如StateStoreRDD，保存到 HDFSBackedStateStoreProvider、RocksDBStateStoreProvider 中；Stream-Stream Join使用了StreamingSymmetricHashJoin，需要保证状态；Session Window同样也是通过插入一些流相关的算子 + 状态保存实现的

阅读全文

Spark的数据分布

2024年9月1日

| 大数据

Distribution及相关类，Partitioning类，Partitioner类，排序的物理算子，UnsafeExternalSorter 和UnsafeInMemorySorter，spill和归并排序；shuffle操作，ShuffleDependency，ShuffleRowRDD，map端的ShuffleMapTasks，reduce端 ShuffleDependency 从shuffle manager 那里读取数据，拿到MapStauts 状态；ShuffleManager 包含了ShuffleWriter，ShuffleReader；BypassMergeSortShuffleWriter 、UnsafeShuffleWriter、SortShuffleWriter、、BlockStoreShuffleReader

阅读全文

对 O数据库 CDC 的一些改动

2024年8月25日

| 数据库

对 CDC 工具的一些改动，支持ASM 文件读取，支持 RAC 多个活跃节点，高可用等

阅读全文

对O数据库CDC工具做编译

2024年7月15日

| 数据库

open log replicator 编译

阅读全文

某O 数据库的 CDC 工作原理

2024年6月15日

| 数据库

open log replicator 使用

阅读全文

英文语法的简单总结

2024年5月19日

| 读书笔记

英文语法总结

阅读全文

code-gen

2024年5月6日

| 原理分析

入口点：CollapseCodegenStages，插入WholeStageCodegenExec；对于不支持的，或者 SortMergeJoinExec、ShuffledHashJoinExec 会插入 InputAdapter；代码生成可以看作是两个方向相反的递归过程：代码的整体框架由 produce/doProduce 方法负责，父节点调用子节点。代码具体处理逻辑由 consume/doConsume 方法负责，由子节点调用父节点。整个物理算子树的执行过程被InputAdapter分隔开。boradcast-hash-join跟普通的bhj类似，分割部分插入了InputAdapter。shuffle-hash-join，跟 bhj 类似，只是左右两个子节点都增加了 InputAdapter，作为code-gen 的分割。sort-merge-join 左右两边都是 InputAdapter，对code-gen做了分割，之后调用SortExec 再次增加 InputAdapter，然后是shuffle逻辑，会生成5个代码片段。BroadcastNestedLoopJoin：广播+nested loop实现。CartesianProduct 没有 code-gen

阅读全文

Spark 代码生成工具 Janino

2024年5月5日

| 编程语言

Janino的一些例子，Expression Evaluator，Script Evaluator，Class Body Evaluator，Simple Compiler，as a Source Code Class Loader，jsh - the Java shell，Compiler Plugin for Tomcat，code analysisi，debug

阅读全文

Spark原理-JOIN

2024年4月27日

| 原理分析

join的语法定义，join类型，解析、优化过程，join选择策略：hint、等值、数据size，父hash join： streamedlter 和 buildlter，数据的节点分布，对子节点的要求，JoinedRow 类型；BroadcastHashJoin 和 BroadcastExchange； ShuffleHashJoin 和 ClusteredDistribution，先将数据物化再通过AQEShuffleRead 读取； Shuffle Sort Merge Join，Sort ，Exchange，SortMergeJoinScanner(ExternalAppendOnlyUnsafeRowArray）；BroadcastNestedLoopJoinExec ，BroadcastDistribution 等价两个for循环； CartesianProduct 对子节点无要求也是两个for循环; 排序算子执行过程

阅读全文

Spark原理-窗口函数和多维分析

2024年4月27日

| 原理分析

cube，rollup，grouping set，窗口函数执行过程，lateral，pivot，unpivot，with cube 的代码生成

阅读全文

记录每个瞬间

spark 的 streaming

Spark的数据分布

对 O数据库 CDC 的一些改动

对O数据库CDC工具做编译

某O 数据库的 CDC 工作原理

英文语法的简单总结

code-gen

Spark 代码生成工具 Janino

Spark原理-JOIN

Spark原理-窗口函数和多维分析

最近文章

分类

归档

标签

RSS