Hudi文件布局

适用于版本0.10.1

  • DFS基础路径上按照文件夹结构组织。
  • 表被分解成多个分区。
  • 每个分区中,文件按照文件组分组,文件通过id唯一标识。
  • 每个文件组有多个 文件分片。
  • 每个文件分片包含提交或压缩是生成的base文件(.parquet)和之后生成的log文件(.log.*)

Hudi采用多版本并发控制(MVCC)管理文件版本,compaction合并base文件和log 文件,cleaning清理未使用或过时的文件分片。

Partition On HDFS

参考资料