分布式数据仓库

发表于 2020-06-18 | 分类于数据仓库 |

1 集中式与分布式

集中式场景：业务和数据都是集中管理和应用的，分布存储弊大于利

数据在整个企业范围内集成，并且只有总部才会使用
业务是集中式运作的
数据量非常大，集中存储更妥当
分布存储存取困难

阅读全文 »

Hive DDL

发表于 2020-06-16 | 分类于 Hive |

1 概览

除了SHOW PARTITIONS外，分区操作经常作为表操作的选项

阅读全文 »

JDK 14 vs JDK 8

发表于 2020-06-16 | 分类于 Java |

HashMap

1 将普通for循环替换为使用迭代器的增强for循环

2 在类KeySet和Values中提供方法将键名和键值输出为数组，并且尽可能复用传入数组，减少内存分配

3 computeIfAbsent应用函数后增加了并发修改检测

4 新增@java.io.Serial注解，用于注解序列化相关的方法和字段，便于编译器查找错误的声明。

阅读全文 »

数据仓库和技术

发表于 2020-06-15 | 分类于数据仓库 |

数据仓库没有联机数据更新，锁定和完整性需求非常少，只需要最基本的远程处理接口。

1 技术需求

(1) 管理大量数据的能力

能管理并管理好，综合考虑容量、效率和费用。

阅读全文 »

Hive Tutorial

发表于 2020-06-13 | 分类于 Hive |

1 概念

(1) 定位

是一个基于Hadoop的数据仓库基础设施。Hadoop提供海量数据存储和处理能力，以及容错机制。

Hive被设计用来简化数据综合、海量数据临时查询和分析，可以整合SQL和用户自定义函数。

阅读全文 »

Kafka Consumer API

发表于 2020-06-12 | 分类于 Kafka |

1	public class KafkaConsumer<K,V> extends java.lang.Object implements Consumer<K,V>

阅读全文 »

数据仓库粒度

发表于 2020-06-12 | 分类于数据仓库 |

1 粗略估算

根据业务活动和用户规模（含潜在）粗略估算数据量的存储空间。需要考虑备份和恢复的空间。

阅读全文 »

Spark Streaming

发表于 2020-06-12 | 分类于 Spark |

适用于版本2.4.6.

阅读全文 »

CentOS7 + MySQL8

发表于 2020-06-11 | 分类于 MySQL |

1 卸载MariaDB

使用yum安装时会自动替换。

1 2	rpm -qa \| grep mariadb sudo rpm -e --nodeps mariadb-libs-5.5.64-1.el7.x86_64

阅读全文 »

Hive Metastore 3.0

发表于 2020-06-11 | 分类于 Hive |

适用于版本>=3.0，其他版本详见Metastore Administration

阅读全文 »

Hopeful Nick

To Explore

161 日志

35 分类

42 标签

GitHub E-Mail