Hopeful Nick


  • 首页

  • 标签

  • 归档

  • 关于

Hudi键更新

发表于 2022-03-09 | 分类于 Hudi |

适用于版本0.10.1。

每条记录通过主键唯一识别,即记录键和分区路径。

主键可用于分区级别的唯一约束,以及高效更新或删除记录。

分区方式直接决定了记录消费和查询延迟。

当前 Hudi支持分区和全局索引。分区索引通过记录键和分区路径唯一确定每条记录,而全局索引仅通过记录键保证记录唯一。

阅读全文 »

Presto中Hudi相关变更

发表于 2022-03-08 | 分类于 Presto |

1 Release Notes

Presto自0.242.1以来与Hudi直接相关的变更

阅读全文 »

Hudi写操作

发表于 2022-02-28 | 分类于 Hudi |

适用于版本0.10.1。

阅读全文 »

Hudi元数据表

发表于 2022-02-25 | 分类于 Hudi |

适用于版本0.10.1。

1 动机

减少文件扫描操作

阅读全文 »

Hudi文件布局

发表于 2022-02-25 | 分类于 Hudi |

适用于版本0.10.1

  • DFS基础路径上按照文件夹结构组织。
  • 表被分解成多个分区。
  • 每个分区中,文件按照文件组分组,文件通过id唯一标识。
  • 每个文件组有多个 文件分片。
  • 每个文件分片包含提交或压缩是生成的base文件(.parquet)和之后生成的log文件(.log.*)

Hudi采用多版本并发控制(MVCC)管理文件版本,compaction合并base文件和log 文件,cleaning清理未使用或过时的文件分片。

阅读全文 »

Hudi索引

发表于 2022-02-23 | 分类于 Hudi |

适用于版本0.10.1

1 总览

hudi通过连续映射hoodie key(record key + partition key)和文件id提供高效的更新插入。映射关系从首歌版本的数据写入文件后就不会变化。因此,映射的文件组包含了所有版本的记录。

阅读全文 »

Hudi表和查询类型

发表于 2022-02-21 | 分类于 Hudi |

适用于版本0.10.1

1 概览

表类型定义了索引方式和数据在分布式文件系统中的布局,以及相关的功能和时间线活动。如写数据方式。

查询类型定义了数据暴露给查询的方式。如读数据方式

阅读全文 »

Spark 2.4迁移至3.0

发表于 2022-02-19 | 分类于 Spark |

1 Spark Core

(1) ExecutorPlugin

org.apache.spark.ExecutorPlugin替换为org.apache.spark.api.plugin.SparkPlugin。

阅读全文 »

Hudi概念

发表于 2022-02-17 | 分类于 Hudi |

1 时间线

Hudi内部维护了一条在表上执行动作的时间线timeline。每个时刻instant提供表的一个即时视图,同时方便按照抵达顺序获取数据。

阅读全文 »

Apache Hudi介绍

发表于 2022-02-17 | 分类于 Hudi |

1 总览

定位:流式数据湖平台,对数据湖提供核心仓库和数据库功能。

阅读全文 »
123…17
Hopeful Nick

Hopeful Nick

To Explore

161 日志
35 分类
42 标签
GitHub E-Mail
© 2022 Hopeful Nick
由 Hexo 强力驱动
|
主题 — NexT.Mist v5.1.4