Spark简介
Spark是啥
Spark 项目包含多个紧密集成的组件。Spark 的核心是一个对由很多计算任务组成的、运行 在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。
Spark是scala写的,运行在JVM上。
存储层次
Spark支持任何实现Hadoop接口的存储系统。
核心概念
每个Spark应用都由一个驱动器程序(driver program)来发起集群上的操作,驱动器程序管理多个执行器(executor)节点。
RDD编程
Resilient Distributed Dataset
基础
RDD就是一个不可变的分布式对象集合。
创建RDD:
读取外部数据集
lines = sc.textFile("README.MD")
在driver program中分发驱动器程序中的对象集合。
RDD操作
- 转化操作
转化操作是产生一个新的RDD的过程。
- 行动操作
返回计算结果或把结果写入外部系统。