Hive入门 发表于 2020-05-27 | 分类于 Hive | 1 定义是构建于Hadoop上的数据仓库,用于查询和分析。为了避免底层Java API,使用类似SQL的HQL查询。HQL将查询转换为MapReduce、Apache Tez或Spark作业。 阅读全文 »
Flume开发指南 发表于 2020-05-27 | 分类于 Flume | 1 简介Flume是分布式、可靠和可用的,海量日志数据高效收集、聚合和移动系统,用于从多源系统到中心数据存储。 阅读全文 »
HashMap(JDK 14) 发表于 2020-05-26 | 分类于 Java | public class HashMap extends AbstractMap implements Map, Cloneable, Serializable 阅读全文 »
数据仓库入门 发表于 2020-05-23 | 分类于 数据仓库 | 1 概览(1) 理解 是与组织运营数据库隔离的数据库。 更新频率不高 处理聚合的历史数据,用于业务分析 帮助组织、理解和使用数据,以便策略决策 帮助聚合多种应用系统 阅读全文 »
Spark入门 发表于 2020-05-22 | 分类于 Spark | 在Spark 2.0之后,主要的编程对象是Dataset。具有类似RDD的强类型特性,提供更加丰富的操作和更好的性能。详见SQL programming guide 阅读全文 »