Scala當中parallelize并行化的用法
馬克-to-win:parallelize并行化集合是根據(jù)一個已經(jīng)存在的Scala集合創(chuàng)建的RDD對象。集合的里面的元素將會被拷貝進入新創(chuàng)建出的一個可被并行操作的分布式數(shù)據(jù)集。馬克- to-win:馬克 java社區(qū):防盜版實名手機尾號: 73203。
例如:val rdd03 = sc.parallelize(List(1, 4, 3, 7, 5)) 根據(jù)系統(tǒng)環(huán)境來進行切分多個slice,每一個slice啟動一個Task來進行處理。
val rdd03 = sc.parallelize(List(1, 4, 3, 7, 5), 5) 指定了partition的數(shù)量為5,
makeRDD和parallelize的區(qū)別?makeRDD函數(shù)有兩種實現(xiàn),第一種實現(xiàn)其實完全和parallelize一致。而第二種實現(xiàn)可以為數(shù)據(jù)提供位置信息,除此之外,和parallelize是一致的
*/
val rdd03 = sc.parallelize(List(1, 4, 3, 7, 5), 3)
val rdd03_1 = rdd03.map { x => x + 1 }
println("map2 用法 is 馬克-to-win @ 馬克java社區(qū):" + rdd03_1.collect().mkString(","))
val rdd04 = sc.parallelize(List(1, 4, 3, 7, 5), 3)
val rdd04_1 = rdd04.filter { x => x > 3 }
println("filter2 用法 馬克-to-win @ 馬克java社區(qū):" + rdd04_1.collect().mkString(","))
val rdd05: RDD[Int] = sc.makeRDD(Array(1, 4, 3))
val rdd06: RDD[Int] = sc.makeRDD(Array(7, 5))
myunion(rdd05, rdd06)
/*reduce(function)