spark常见算子-白红宇

强烈建议你试试无所不能的chatGPT，快点击我

spark常见算子

阅读量：3963 次

发布时间：2019-05-24

本文共 2705 字，大约阅读时间需要 9 分钟。

Transfomation算子

Transfomation算子	描述
map	返回一个新的RDD，该RDD由每一个输入元素经过func函数转换后组成.就是讲传进去的Rdd的每个元素转换成新的元素
mapPartitions(func)	类似于map，但独立地在RDD的每一个分片上运行，因此在类型为T的RDD上运行时，func的函数类型必须是Iterator[T] => Iterator[U]。假设有N个元素，有M个分区，那么map的函数的将被调用N次,而mapPartitions被调用M次,一个函数一次处理所有分区
flatMap	flatMapRdd算子就是把里面的元素,经过一个方法,把原来的元素由一个变成多个
filter	过滤。返回一个新的RDD，该RDD由经过func函数计算后返回值为true的输入元素组成
distinct([numTasks]))	对源RDD进行去重后返回一个新的RDD。默认情况下，只有8个并行任务来操作，但是可以传入一个可选的numTasks参数改变它
coalesce(numPartitions)	缩减分区数，用于大数据集过滤后，提高小数据集的执行效率
repartition(numPartitions)	根据分区数，重新通过网络随机洗牌所有数据
sortBy(func,[ascending],[numTasks])	使用func先对数据进行处理，按照处理后的数据比较结果排序，默认为正序
union(otherDataset)	对源RDD和参数RDD求并集后返回一个新的RDD
subtract (otherDataset)	计算差的一种函数，去除两个RDD中相同的元素，不同的RDD将保留下来
intersection(otherDataset)	对源RDD和参数RDD求交集后返回一个新的RDD
cartesian(otherDataset)	笛卡尔积（尽量避免使用，没啥用，给自己找事）
partitionBy	对pairRDD进行分区操作，如果原有的partionRDD和现有的partionRDD是一致的话就不进行分区，否则会生成ShuffleRDD，即会产生shuffle过程。
groupByKey	groupByKey也是对每个key进行操作，但只生成一个sequence
reduceByKey(func, [numTasks])	在一个(K,V)的RDD上调用，返回一个(K,V)的RDD，使用指定的reduce函数，将相同key的值聚合到一起，reduce任务的个数可以通过第二个可选的参数来设置。就是对key相同的value进行处理
aggregateByKey（1）zeroValue：给每一个分区中的每一个key一个初始值；（2）seqOp：函数用于在每一个分区中用初始值逐步迭代value；（3）combOp：函数用于合并每个分区中的结果。	在kv对的RDD中，，按key将value进行分组合并，合并时，将每个value和初始值作为seq函数的参数，进行计算，返回的结果作为一个新的kv对，然后再将结果按照key进行合并，最后将每个分组的value传递给combine函数进行计算（先将前两个value进行计算，将返回结果和下一个value传给combine函数，以此类推），将key与计算结果作为一个新的kv对输出
sortByKey([ascending], [numTasks])	在一个(K,V)的RDD上调用，K必须实现Ordered接口，返回一个按照key进行排序的(K,V)的RDD
join(otherDataset, [numTasks])	在类型为(K,V)和(K,W)的RDD上调用，返回一个相同key对应的所有元素对在一起的(K,(V,W))的RDD就是说两个Rdd的键一样，但值不相同，讲键相同的value整合成数据集
cogroup(otherDataset, [numTasks])	在类型为(K,V)和(K,W)的RDD上调用，返回一个(K,(Iterable,Iterable))类型的RDD就是说cogroup:是把两个rdd合并一下;但是两个rdd,得是tuple2;当调用类型为(K，V)和(K，W)的数据集时，返回(K，(Iterable，Iterable)元组的数据集

常见面试题

map()和mapPartition()的区别

map()：每次处理一条数据。

mapPartition()：每次处理一个分区的数据，这个分区的数据处理完后，原RDD中分区的数据才能释放，可能导致OOM。

开发指导：当内存空间较大的时候建议使用mapPartition()，以提高处理效率。

coalesce和repartition的区别

coalesce重新分区，可以选择是否进行shuffle过程。由参数shuffle: Boolean = false/true决定。

repartition实际上是调用的coalesce，默认是进行shuffle的。源码如下：
def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T] = withScope {

coalesce(numPartitions, shuffle = true)
}

reduceByKey和groupByKey的区别

reduceByKey：按照key进行聚合，在shuffle之前有combine（预聚合）操作，返回结果是RDD[k,v].

groupByKey：按照key进行分组，直接进行shuffle。

开发指导：reduceByKey比groupByKey，建议使用。但是需要注意是否会影响业务逻辑。

action算子

算子	描述
reduce(func)	通过func函数聚集RDD中的所有元素，先聚合分区内数据，再聚合分区间数据
collect()	在驱动程序中，以数组的形式返回数据集的所有元素
count()	返回RDD中元素的个数
first()	返回RDD中的第一个元素
take(n)	返回一个由RDD的前n个元素组成的数组
takeOrdered(n)	返回该RDD排序后（默认升序）的前n个元素组成的数组
countByKey()	针对(K,V)类型的RDD，返回一个(K,Int)的map，表示每一个key对应的元素个数
foreach(func)	在数据集的每一个元素上，运行函数func进行更新

转载地址：http://fwgzi.baihongyu.com/

你可能感兴趣的文章

东北赛选拔教训

涨姿势了：求两个分子的最大公倍数

vector.reserve and resize &&vector与map结合

最长公共子序列

太弱了。。水题

位运算（含应用）

野指针与空指针

图文混排效果

urllib2.urlopen超时问题

魏兴国：深入浅出DDoS攻击防御

使连续的参考文献能够中间用破折号连起来

Discover Feature Engineering, How to Engineer Features and How to Get Good at It

36辆车，6条跑道，无计时器，最少几次比赛可以选出前三

matlab2012b与matlab7.1执行set(gca,'Yscale','log')之后画到的直方图结果居然不同

AJAX应用之注册用户即时检测

喝酒易醉，品茶养心，人生如梦，品茶悟道，何以解忧？唯有杜康！-- 愿君每日到此一游！

当前时间: 2024-09-18 23:54:28 当前IP: 3.12.147.168 联系邮箱:javaeecc@qq.com Copyright © 2020 - 2022 baihongyu.com 京ICP备2021015314号-2

强烈建议你试试无所不能的CHAT-GPT，快点击我

强烈建议你试试无所不能的CHAT-GPT，快点击我