在Spark 2.0之后,主要的编程对象是Dataset。具有类似RDD的强类型特性,提供更加丰富的操作和更好的性能。详见SQL programming guide
1 安全
默认关闭安全设置,详见Spark Security
2 Spark Shell 交互分析
(1) 基础
启动spark-shell
1 | ./bin/spark-shell |
1 | // 1 构建Dataset:可从Hadoop输入格式或其他Dataset转换。如读取源码目录下的README文件。 |
(2) 数据集操作
示例
1 | // 统计单行最大单词数 |
(3) 缓存
可以在集群范围内缓存海量数据,如热点数据集或者迭代算法中的数据等.
1 | linesWithSpark.cache() |
3 自包含应用
1 | /* SimpleApp.scala */ |
sbt配置文件如下:
1 | name := "Simple Project" |
项目结构、打包和提交命令如下:
1 | Your directory layout should look like this |
4 学习指引
API : [RDD programming guide ]RDD programming guide SQL programming guide
集群部署:deployment overview