包含标签 ES 的文章

ozone

ozone的三个角色Ozone Manager (OM),Storage Container Manager (SCM),DataNode,三个角色的具体存储内容,datanode中数据存储在 container中,按照offset保存数据的位置,recon 提供管理界面,ozone mager和 SCM 的高可用:使用 rocksdb + raft 实现的,这里用的是:ratis。整合spark,flink,presto/trino,doris 都比较容易

阅读全文

ES的简单学习

主节点管理元数据,数据节点(主分片,从分片),协调节点,预处理节点。索引-分片-segment。查询:term query、ranger、prefix、wildcard query,组合查询、聚合查询(每个分片做topN协调节点汇总topN可能数据不准确),各种字段类型。 倒排索引原理,term-index、term dictionary、posting List。Lucene的segment包含多个document,一个document包含多个filed,每个filed有杜丽丽的索引(倒排索引),变种的前缀树、数据编码、Roaring Bitmaps。相关性评分:TF-IDF (Term Frequency-inverse Document Frequency)、BM25 算分模型。分词器:格式处理清洗、文本切分、对切换后的单词做处理。近实时的原因:Refresh,写入的数据会定期刷盘,刷盘后生成不可变文件就可以被读取。index buffer、transaction log。分页方式:from + size、search after、scroll API、point in time。PacificA主从副本同步协议,多个master使用 raft 协议,主副本写入会带SN,将写入数据和SN一起同步给从分片。监控:cluster API,CAT api,索引生命周期管理:hot、warn、colod、delete。 索引别名、reindex、索引模版,收缩index。 ELK 架构。 ES优化:snapshoot、生命周期管理,批量读写,慢日志查询/CPU/内存/磁盘/网络 监控,索引rate,segment大小,shared数量,存储限流,refresh频率

阅读全文