Hopeful Nick


  • 首页

  • 标签

  • 归档

  • 关于

Hudi on Flink

发表于 2022-04-12 | 分类于 Hudi |

适用于版本0.10.1。

1 指南

  • 配置

    • 全局配置

      使用$FLINK_HOME/conf/flink-conf.yaml配置,详见Global Configuration

    • 作业配置

      详见Table Option

  • 数据写入

    Flink支持多种模式写入数据,如CDC Ingestion, Bulk Insert, Index Bootstrap, Changelog Mode,Append Mode

  • 优化

    详见Memory Optimization,Write Rate Limit

阅读全文 »

Hudi压缩

发表于 2022-04-11 | 分类于 Hudi |

适用于版本0.10.1。

1 异步压缩

Hudi默认采用异步压缩策略。主要分为以下两个阶段:

  • 调度

    由消费作业完成。Hudi扫描分区,选择压缩的文件分片并最终写入时间线。

  • 执行

    独立进程读取压缩计划并执行文件分片压缩。

阅读全文 »

Hudi Docker Demo

发表于 2022-04-08 | 分类于 Hudi |

适用于版本0.10.1。

以下步骤在经过MacBook测试。

阅读全文 »

Hudi on Spark

发表于 2022-03-31 | 分类于 Hudi |

适用于版本0.10.1。

1 配置

  • 支持Spark 2.4.3+版本。
  • 0.9.0已添加Spark DML支持,但处于实验中。
  • 对于Spark 3支持情况
Hudi Supported Spark 3 version
0.10.0 3.1.x (default build), 3.0.x
0.7.0 - 0.9.0 3.0.x
0.6.0 and prior not supported
  • Spark SQL

使用HoodieSparkSessionExtension支持数据读写

阅读全文 »

Hudi数据查询

发表于 2022-03-30 | 分类于 Hudi |

适用于版本0.10.1。

1 Spark数据源

可以简单地通过spark.read.parquet方式加载hudi表。

阅读全文 »

Hudi流式消费

发表于 2022-03-25 | 分类于 Hudi |

适用于版本0.10.1。

1 DeltaStreamer

能力:

  • 刚好一次消费保证,Kafka、Scoop增量导入、HiveIncrementalPuller输出、DFS文件
  • 支持多种来源记录类型,如json、avro和自定义类型
  • 支持管理检查点、回退和恢复
  • 利用DFS中的avro模式或融合模式注册
  • 支持插件转换
阅读全文 »

Hudi SQL DDL

发表于 2022-03-17 | 分类于 Hudi |

适用于版本0.10.1。

以下为Spark SQL操作。

1 Spark建表

只有SparkSQL需要显式建表。使用自定义程序时自动创建不存在的表。

阅读全文 »

Hudi并发控制

发表于 2022-03-16 | 分类于 Hudi |

适用于版本0.10.1。

本文讨论在多个写入时的并发模型。

使用DeltaStreamer和 Hudi datasource。

阅读全文 »

Hudi模式修改

发表于 2022-03-09 | 分类于 Hudi |

适用于版本0.10.1。

可以添加可空的列(含内建复杂数据结构),支持添加元数据列,支持强制类型转换(放大, 含复杂类型中的);

不能添加非空列,不能通过强制类型转换缩小。

阅读全文 »

Hudi数据写入

发表于 2022-03-09 | 分类于 Hudi |

适用于版本0.10.1。

1 Spark Datasource Writer

阅读全文 »
12…17
Hopeful Nick

Hopeful Nick

To Explore

161 日志
35 分类
42 标签
GitHub E-Mail
© 2022 Hopeful Nick
由 Hexo 强力驱动
|
主题 — NexT.Mist v5.1.4