SIMD-Scan: Ultra Fast in-Memory Table Scan using onChip Vector Processing Units

原文
https://15721.courses.cs.cmu.edu/spring2023/papers/08-vectorization/willhalm-vldb2009.pdf

背景

随着硬件容量的提高，面向磁盘的数据库开始转向面向内存的数据库
SAP® Netweaver® Business Warehouse Accelerator BWA 利用轻量级的压缩来进一步提升内存带宽
比如

run-length编码
固定长度编码的多版本
bit位编码的字典压缩，默认算法，通过字典来引用列，而且引用是 run-length编码的

访问都是直接基于压缩数据的，会隐式的解压数据，所以数据解压就很重要，变成查询执行的一部分了
CPU处理能力的增加 > 数据带宽的增加，这就引入了更多的复杂算法，用来全表扫描
这就将 I/O 瓶颈转移到了 CPU瓶颈
为了能在内存中尽可能多的处理更多的压缩数据，出现了一些新的研究领域，也就是利用多核处理能力，用各种并行化能力加速表扫描
但是其向量处理单元 Vector Processing Units VPU 并没有真正发挥其能力
这篇论文就引入SIMD的能力，为每个核提供有效的解压内存表列数据，并以低延迟方式搜索数据
当然这些技术就只限于多线程场景
SIMD技术如下，利用一个指令，来实现并行化数据处理

Figure 1. SIMD execution model: In (a) scalar mode: one operation produces one result. In (b) SIMD mode: one operation produces multiple results

全表扫描是主内存列式数据库中一个很重要的操作，它可以避免创建索引减少内存消耗
论文中提出了两项改进操作

Vectorized Value Decompression，这里使用一种快速的SIMD解压方式，用于轻量级数字压缩技术
Vectorized Predicate Handling，用于等值、范围查找，这里也是使用SIMD方式

这些方式都比较通用，对于大多数数据库都是适用的

Figure 2. Vectorized table scan operations

数据库压缩研究集中在两个方面

压缩算法、以及将它们整合到数据库系统中
压缩性能方面，如对查询响应时间加速，节省磁盘存储空间等

概念和实现

Vectorized Value Decompression

这里通过SIMD来优化内存中解压LWC-NC压缩数据，主要分为三个阶段

16字节对齐
4 字节对齐
bit对齐

16-Byte Alignment
主要用来处理 loading、copy(shuffling)、extracting(shifting)、按顺序存储压缩值
对应的 SIMD 解压算法代码如下：
上述算法中几个重要变量介绍

n是最大的bit数，计算公式为：$n = \lfloor log_{2}m \rfloor$
max_index = sizeof(input)，max_index 除以 128，表示一次可以处理 128个bit
变量 $b_{a}$、$c_{a}$、$b_{b}$、$c_{b}$，这是向量变量持有的四个 LWC-NC压缩整数
shuffle掩码 $m_{a}$、$m_{b}$是移位的总量，依赖于 n，而不是 j

将128位的压缩数据，拷贝到 RL寄存器中，拷贝数量 n 取决于要表示多少bit
如果用 9-bit，可以保持14个压缩整数值，注意第 15个值，它是不完整的，所以不能被解压

Figure 4. Loading 128-bit compressed block to a SIMD register (9-bit compression).

上图中，一次加载 a、a + 1，但是v14是不完整的，解决办法

第二次加载时，从v13开始加载，这样前面6个bit是无效的，这样就能得到完整的整数，缺点是这样就不对齐了效率会降低
将两个128位的寄存器拼接在一起，放到 256位的寄存器中，再做移位操作，这种是对其的

Figure 5. Concatenating two SIMD registers for value alignment in one hardware instruction

如上，将两个寄存器拼接，然后 256寄存器做移位，移位15字节
将v13放在新 RL 的第一位，这样整体就是完全对其了，效率就有保证

4-Byte Alignment
这里是拷贝四个独立的压缩整数到寄存器RC 中
使用 shuffle 和掩码指令，将 RL 拷贝到 RC中
下面所有黑色的都是有效的，但这不是对齐的，后面会继续使用 bit对齐的方式来修正

Figure 6. Copying four 9-bit values to separate DWs

另一个问题是，有些元素是横跨了几个寄存器的
这时可以用shuffle指令，将前面 4个值拷贝到 RC1，然后做一次右移指令
Figure 7. Spanning-value issue with 27-bit compression

Bit Alignment
目标是对其四个值，并屏蔽掉尾部的无效位
如下所有独立的值都做左移位，然后将无效的bit清除

Figure 8. Extracting the four 9-bit values

之后将寄存器中四个对其的提取后的解压值，存储回内存位置
这样后续的执行引擎就可以继续使用这些整数值了
Figure 9. Storing the decompressed integer values

Vectorized Predicate Handling

表扫描操作中，用于决定一个值，或者一个值范围
搜索算法会返回搜索范围内的压缩值索引，也可以使用bit位来映射查找范围
比如数组范围是升序的 0d – 255d，查找条件是 1d to 5d
查找结构是256bit的向量，如 011111000…0b，数组索引是1d、2d、3d、4d、5d
这里不是解压整个数据然后从头搜索，而是基于一个查找条件(谓词)，直接在LWC-NC的压缩数据上比较

Figure 10. Vectorized scan-value search with predicate
如上，通过对RC做 min值的比较指令，结果寄存器会保持4个结果，如果对应的结果为0，表示没有落在这个范围内
这样就可以生成一个索引数组的位向量
搜索算法的代码如下： n 的值是通过公式 $n = \lfloor log_{2}m \rfloor$ 计算出来的
$min_{a}$、$min_{b}$、$max_{a}$、$max_{b}$、$b_{a}$、$c_{a}$、$b_{b}$、$c_{b}$ 是向量变量，用来存储4个整数

实现和评估

SIMD的实现包括

Inter的SSE，SSE2、SSE3、SSE4
AMR的 3DNow!

这里选择SSE指令集，并预抓取内存中的128bit 压缩数据到内存中
使用了 Inter提供的 <intrinsic.h> 库函数
使用之前介绍的 concatenate/shift 指令，避免未对齐的情况，而 Intel® Xeon® Processor 5500 提供了快速的未对齐访问方式

4字节对齐通过选择拷贝的值，到独立的目的地址
通过shffule和mark指令完成
bit字节也是类似的，先提取出来，将无效的bit去掉，然后重新存储到内存中

实现中海油其他的一些压缩对齐方式，他们也有加速效果，但只能用于特定的case
乘法可以用于所有场景，而且效果都很好
也不是所有的SIMD实现都支持假设指令，需要用不同方式替代
之后要讲这些实现整合到 SAP® Netweaver® Business Warehouse Accelerator (BWA)
这是SAP 和 Inter联合开发的

它用一个高度压缩的索引结构来加载内存中的用户请求数据
使用高性能的聚合技术，在内存中处理请求
并将结果导回到 BWA中

具体实现包括两种，使用SSE实现

只解压缩表的列
将查询谓词整合到scan中，但不解包数据

图11 显示了，经过优化的，使用了最小化cache丢失比例、海量的循环展开，允许预计算位移参数，以及掩码
对比未优化的没有做循环展开的版本，这个未优化的有很大延迟

Figure 11: Time to decompress 1B integers

图12 显示了并行8个bit的处理，这里使用的是SSE寄存器，平均有 1.58倍的提升
Figure 12. Speedup for decompression by vectorization

图13 是全表扫描的情况，31bit的情况下，向量化还不如scalar扫描，平均有2.16倍加速

Figure 13. Speedup of full-table scan by vectorization

图14是全表扫描，但加入了选择率这个条件，下图中每个黑点代表加速比列，平均有1.63倍的加速

Figure 14. Speedup of full-table scan by selectivity

下面是整合到真实场景中的加速情况
一般来说 8 - 16bit是比较好的，平均来说，全表扫描有 2.45倍加速

Figure 15: Running time distribution for customer workload

下面是 8核，测试可扩展情况，基本上是使用带宽是线性扩展的
最高能达到 13.1G/s

Figure 16. Scalability of vectorized full table scan

SIMD-Scan: Ultra Fast in-Memory Table Scan using onChip Vector Processing Units

背景

概念和实现

Vectorized Value Decompression

Vectorized Predicate Handling

实现和评估

参考

相关文章

最近文章

分类

归档

标签

RSS