- RDD以及依赖关系先容
- RDD(弹性分布式数据集):是Spark的核心数据结构,它代表一个不可变、可分区、内里的元素可以并行盘算的聚集。RDD具有容错性,当某个分区的数据丢失时,可以通过转换操纵的血缘关系重新盘算得到。
- 依赖关系:RDD之间存在依赖关系,这种依赖关系用于在某个RDD分区数据丢失大概须要重新盘算时,可以大概从其依赖的RDD中重新天生数据。根据依赖关系的差别特点,分为宽依赖和窄依赖。
- 窄依赖(Narrow Dependency)
- 概念:窄依赖是指父RDD的每个分区最多被一个子RDD分区利用。比方,map、filter等操纵会产生窄依赖。
- 特点:
- 盘算高效:在举行盘算时,窄依赖答应在一个盘算节点上流水线式地实验多个转换操纵。由于父RDD分区和子RDD分区是一对一大概多对一的关系,以是可以在一个节点上对分区数据连续举行处置处罚,淘汰数据传输开销。
- 故障规复快:如果某个子RDD分区丢失,只须要重新盘算该分区对应的父RDD分区即可。由于父RDD分区到子RDD分区的映射关系简单,重新盘算的代价相对较小。
- 图例:
免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金 |