SQL

发表于 2020-06-01 | 分类于 SQL |

1 使用数据库

use RUNOOB;命令用于选择数据库。

set names utf8;命令用于设置使用的字符集。

阅读全文 »

Kafka入门

发表于 2020-05-27 | 分类于 Kafka |

1 定义

分布式流式平台。

阅读全文 »

Hive入门

发表于 2020-05-27 | 分类于 Hive |

1 定义

是构建于Hadoop上的数据仓库，用于查询和分析。为了避免底层Java API，使用类似SQL的HQL查询。HQL将查询转换为MapReduce、Apache Tez或Spark作业。

阅读全文 »

Flume开发指南

发表于 2020-05-27 | 分类于 Flume |

1 简介

Flume是分布式、可靠和可用的，海量日志数据高效收集、聚合和移动系统，用于从多源系统到中心数据存储。

阅读全文 »

RDD源码

发表于 2020-05-26 | 分类于 Spark |

RDD 2.4.5

阅读全文 »

HashMap(JDK 14)

发表于 2020-05-26 | 分类于 Java |

public class HashMap extends AbstractMap

implements Map, Cloneable, Serializable

阅读全文 »

RDD入门

发表于 2020-05-26 | 分类于 Spark |

1 概览

Spark具有两大抽象： RDD和共享变量。

阅读全文 »

数据仓库入门

发表于 2020-05-23 | 分类于数据仓库 |

1 概览

(1) 理解

是与组织运营数据库隔离的数据库。
更新频率不高
处理聚合的历史数据，用于业务分析
帮助组织、理解和使用数据，以便策略决策
帮助聚合多种应用系统

阅读全文 »

Spark入门

发表于 2020-05-22 | 分类于 Spark |

在Spark 2.0之后，主要的编程对象是Dataset。具有类似RDD的强类型特性，提供更加丰富的操作和更好的性能。详见SQL programming guide

阅读全文 »

数据仓库

发表于 2020-05-15 | 分类于数据仓库 |

1 定义

数据仓库是一个用于报表和数据分析的系统，被认为是BI的核心组件。

阅读全文 »

Hopeful Nick

To Explore

161 日志

35 分类

42 标签

GitHub E-Mail