Hopeful Nick


  • 首页

  • 标签

  • 归档

  • 关于

分布式数据仓库

发表于 2020-06-18 | 分类于 数据仓库 |

1 集中式与分布式

集中式场景:业务和数据都是集中管理和应用的,分布存储弊大于利

  • 数据在整个企业范围内集成,并且只有总部才会使用
  • 业务是集中式运作的
  • 数据量非常大,集中存储更妥当
  • 分布存储存取困难
阅读全文 »

Hive DDL

发表于 2020-06-16 | 分类于 Hive |

1 概览

除了SHOW PARTITIONS外,分区操作经常作为表操作的选项

阅读全文 »

JDK 14 vs JDK 8

发表于 2020-06-16 | 分类于 Java |

HashMap

1 将普通for循环替换为使用迭代器的增强for循环

2 在类KeySet和Values中提供方法将键名和键值输出为数组,并且尽可能复用传入数组,减少内存分配

3 computeIfAbsent应用函数后增加了并发修改检测

4 新增@java.io.Serial注解,用于注解序列化相关的方法和字段,便于编译器查找错误的声明。

阅读全文 »

数据仓库和技术

发表于 2020-06-15 | 分类于 数据仓库 |

数据仓库没有联机数据更新,锁定和完整性需求非常少,只需要最基本的远程处理接口。

1 技术需求

(1) 管理大量数据的能力

能管理并管理好,综合考虑容量、效率和费用。

阅读全文 »

Hive Tutorial

发表于 2020-06-13 | 分类于 Hive |

1 概念

(1) 定位

是一个基于Hadoop的数据仓库基础设施。Hadoop提供海量数据存储和处理能力,以及容错机制。

Hive被设计用来简化数据综合、海量数据临时查询和分析,可以整合SQL和用户自定义函数。

阅读全文 »

Kafka Consumer API

发表于 2020-06-12 | 分类于 Kafka |
1
public class KafkaConsumer<K,V> extends java.lang.Object implements Consumer<K,V>
阅读全文 »

数据仓库粒度

发表于 2020-06-12 | 分类于 数据仓库 |

1 粗略估算

根据业务活动和用户规模(含潜在)粗略估算数据量的存储空间。需要考虑备份和恢复的空间。

image-20200612111300923

阅读全文 »

Spark Streaming

发表于 2020-06-12 | 分类于 Spark |

适用于版本2.4.6.

阅读全文 »

CentOS7 + MySQL8

发表于 2020-06-11 | 分类于 MySQL |

1 卸载MariaDB

使用yum安装时会自动替换。

1
2
rpm -qa | grep mariadb
sudo rpm -e --nodeps mariadb-libs-5.5.64-1.el7.x86_64
阅读全文 »

Hive Metastore 3.0

发表于 2020-06-11 | 分类于 Hive |

适用于版本>=3.0,其他版本详见Metastore Administration

阅读全文 »
1…111213…17
Hopeful Nick

Hopeful Nick

To Explore

161 日志
35 分类
42 标签
GitHub E-Mail
© 2022 Hopeful Nick
由 Hexo 强力驱动
|
主题 — NexT.Mist v5.1.4