Spark中的RDD（弹性分布式数据集）是什么？

Question

Accepted Answer

RDD 全称为 Resilient Distributed Dataset（弹性分布式数据集），它是 Apache Spark 中最基本的数据抽象。 简单来说，RDD 是一个不可变的、可分区的、里面的元素可被并行操作的集合。 为了让你更透彻地理解，我们可以把 RDD 这个名字拆解开来看： 1. 核心概念拆解 Resilient（弹性/容错性）： 这是 RDD 最核心的特性。如果 Spark 集群中的某个节点挂掉了，或者某个分区的数据丢失了，RDD 可以自动恢复。 原理： RDD 并不直接存储硬盘上的物理数据，而是记录了“如何产生这些数据”的步骤（这被称为 Lineage/血统）。如果数据丢了，Spark 只需要根据血统记录，重新计算丢失的那一部分数据即可，而不需要从头重算整个任务。 Distributed（分布式）： RDD 中的数据并不是存储在一台机器的内存中，而是被切分成多个 Partition（分区），散落在集群的多台机器上。 这使得 Spark 能够让多台机器同时处理同一个 RDD 的不同部分（并行计算）。 Dataset（数据集）： 它就是一个数据的集合。这些数据可以是...

播面

Spark中的RDD（弹性分布式数据集）是什么？

1. 核心概念拆解

2. RDD 的五大主要特性

3. RDD 的操作模式

A. Transformation（转换算子）

B. Action（行动算子）

4. 为什么要用 RDD？（相比 Hadoop MapReduce）

5. RDD vs DataFrame/Dataset (现状)

你好！我是 Bomian 助手