Spark|Spark aggregateByKey 算子详解

aggregateByKey

def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U,combOp: (U, U) => U): RDD[(K, U)]

  • zeroValue: 初始值,每个分区中,同一种key,只用一次初始值,第一个值和zeroValue的结果,用于对应key的剩余值计算;初始值不参与combOp的计算
  • seqOp: 区间内计算,每个分区中,同一种key的value进行操作
  • combOp: 区间之间计算,各个分区得到的结果,与其他分区相同key的value结果进行操作
  • RDD[(K, U)]:返回值类型,有多少个不同的key,肯定就有多少个(k,U)
    示例:
//将数据分成4个分区 var z=sc.makeRDD(List(("a",1),("b",2),("a",2),("a",3),("b",0),("c",1),("c",2),("c",9)),4) //查看每个分区的数据 z.glom.collect // Array[Array[(String, Int)]] = Array(Array((a,1), (b,2)), Array((a,2), (a,3)), Array((b,0), (c,1)), Array((c,2), (c,9))) z.aggregateByKey(0)(Math.max(_,_),_+_).collect //Array[(String, Int)] = Array((a,4), (b,2), (c,10))

结果分析:
第一分区:Array((a,1), (b,2))
第二分区:Array((a,2), (a,3))
第三分区:Array((b,0), (c,1))
第四分区:Array((c,2), (c,9))
  1. 初始值0先和第一个分区进行计算,第一个分区不同的key有两个,分别为a和b,所以初始值0会被a和b分别使用一次;对于a:max(0,1),结果为1,对于b:max(0,2),结果为2;第一个分区结束,结果为(a,1)(b,2)
  2. 初始值和第二个分区进行计算,由于第二个分区的key只有a,所以初始值0只使用1次,对于a:
    max(0,2)得到2,然后2再和(a,3)求最大值,(2,3)得到3;第二个分区结束,结果为(a,3)
  3. 剩下两个分区以此类推,结果分别为:
    第三分区:(b,0), (c,1)
    第四分区: (c,9)
  4. 每个区计算结束,然后对各个区间,相同的key进行计算,采用函数_+_
  5. 第一分区的(a,1)和第二分区的(a,3)进行_+操作,得到(a,4);第一分区的(b,2)和第三分区的(b,0)进行+操作,得到(b,2); 第三分区的(c,1)和第四分区的(c,9)进行+_操作,得到(c,10)
  6. 将这三个结果进行返回,得到Array[(String, Int)] = Array((a,4), (b,2), (c,10))
    备注:如果分区只有1个,那么combOp就不会执行啦
var z=sc.makeRDD(List(("a",1),("b",2),("a",2),("a",3),("b",0),("c",1),("c",2),("c",9)),1) //由于只有一个分区,所以_*_没执行 z.aggregateByKey(1)(_+_,_*_).collect// Array((a,7), (b,3), (c,13))

【Spark|Spark aggregateByKey 算子详解】补充:用aggregateByKey进行wordCount
var z=sc.makeRDD(List(("a",1),("b",1),("a",1),("a",1),("b",1),("c",1),("c",1),("c",1)),1) //几个分区不重要 z.aggregateByKey(0)(_+_,_+_).collect//Array((a,3), (b,2), (c,3))

    推荐阅读