深度解读sparkRDD宽窄依赖 [复制链接]
发表于 2025-12-18 15:17:17 | 显示全部楼层 |阅读模式
      
  • RDD以及依赖关系先容
         
    • RDD(弹性分布式数据集):是Spark的核心数据结构,它代表一个不可变、可分区、内里的元素可以并行盘算的聚集。RDD具有容错性,当某个分区的数据丢失时,可以通过转换操纵的血缘关系重新盘算得到。   
    • 依赖关系:RDD之间存在依赖关系,这种依赖关系用于在某个RDD分区数据丢失大概须要重新盘算时,可以大概从其依赖的RDD中重新天生数据。根据依赖关系的差别特点,分为宽依赖和窄依赖。   
       
  • 窄依赖(Narrow Dependency)
         
    • 概念:窄依赖是指父RDD的每个分区最多被一个子RDD分区利用。比方,map、filter等操纵会产生窄依赖。   
    • 特点
              
      • 盘算高效:在举行盘算时,窄依赖答应在一个盘算节点上流水线式地实验多个转换操纵。由于父RDD分区和子RDD分区是一对一大概多对一的关系,以是可以在一个节点上对分区数据连续举行处置处罚,淘汰数据传输开销。      
      • 故障规复快:如果某个子RDD分区丢失,只须要重新盘算该分区对应的父RDD分区即可。由于父RDD分区到子RDD分区的映射关系简单,重新盘算的代价相对较小。     
           
    • 图例

         


免责声明:如果侵犯了您的权益,请联系站长,我们会及时删除侵权内容,谢谢合作!qidao123.com:ToB企服之家,中国第一个企服评测及软件市场,开放入驻,技术点评得现金

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

登录后关闭弹窗

登录参与点评抽奖  加入IT实名职场社区
去登录
快速回复 返回顶部 返回列表