Hudi键更新 发表于 2022-03-09 | 分类于 Hudi | 适用于版本0.10.1。 每条记录通过主键唯一识别,即记录键和分区路径。 主键可用于分区级别的唯一约束,以及高效更新或删除记录。 分区方式直接决定了记录消费和查询延迟。 当前 Hudi支持分区和全局索引。分区索引通过记录键和分区路径唯一确定每条记录,而全局索引仅通过记录键保证记录唯一。 阅读全文 »
Hudi文件布局 发表于 2022-02-25 | 分类于 Hudi | 适用于版本0.10.1 DFS基础路径上按照文件夹结构组织。 表被分解成多个分区。 每个分区中,文件按照文件组分组,文件通过id唯一标识。 每个文件组有多个 文件分片。 每个文件分片包含提交或压缩是生成的base文件(.parquet)和之后生成的log文件(.log.*) Hudi采用多版本并发控制(MVCC)管理文件版本,compaction合并base文件和log 文件,cleaning清理未使用或过时的文件分片。 阅读全文 »
Hudi索引 发表于 2022-02-23 | 分类于 Hudi | 适用于版本0.10.1 1 总览hudi通过连续映射hoodie key(record key + partition key)和文件id提供高效的更新插入。映射关系从首歌版本的数据写入文件后就不会变化。因此,映射的文件组包含了所有版本的记录。 阅读全文 »
Hudi表和查询类型 发表于 2022-02-21 | 分类于 Hudi | 适用于版本0.10.1 1 概览表类型定义了索引方式和数据在分布式文件系统中的布局,以及相关的功能和时间线活动。如写数据方式。 查询类型定义了数据暴露给查询的方式。如读数据方式 阅读全文 »
Spark 2.4迁移至3.0 发表于 2022-02-19 | 分类于 Spark | 1 Spark Core(1) ExecutorPluginorg.apache.spark.ExecutorPlugin替换为org.apache.spark.api.plugin.SparkPlugin。 阅读全文 »
Hudi概念 发表于 2022-02-17 | 分类于 Hudi | 1 时间线Hudi内部维护了一条在表上执行动作的时间线timeline。每个时刻instant提供表的一个即时视图,同时方便按照抵达顺序获取数据。 阅读全文 »