Spark学习笔记

Spark简介

Spark是啥

Spark 项目包含多个紧密集成的组件。Spark 的核心是一个对由很多计算任务组成的、运行 在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。

Spark是scala写的,运行在JVM上。

存储层次

Spark支持任何实现Hadoop接口的存储系统。

核心概念

每个Spark应用都由一个驱动器程序(driver program)来发起集群上的操作,驱动器程序管理多个执行器(executor)节点。

RDD编程

Resilient Distributed Dataset

基础

RDD就是一个不可变的分布式对象集合。

创建RDD:

  1. 读取外部数据集

    lines = sc.textFile("README.MD")

  2. 在driver program中分发驱动器程序中的对象集合。

RDD操作

  1. 转化操作

​ 转化操作是产生一个新的RDD的过程。

  1. 行动操作

​ 返回计算结果或把结果写入外部系统。