Hudi文件布局 发表于 2022-02-25 | 分类于 Hudi | 适用于版本0.10.1 DFS基础路径上按照文件夹结构组织。 表被分解成多个分区。 每个分区中,文件按照文件组分组,文件通过id唯一标识。 每个文件组有多个 文件分片。 每个文件分片包含提交或压缩是生成的base文件(.parquet)和之后生成的log文件(.log.*) Hudi采用多版本并发控制(MVCC)管理文件版本,compaction合并base文件和log 文件,cleaning清理未使用或过时的文件分片。 参考资料