平武建站

spark内核RDD的count操作是什么

这篇文章主要介绍“spark内核RDD的count操作是什么”，在日常操作中，相信很多人在spark内核RDD的count操作是什么问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”spark内核RDD的count操作是什么”的疑惑有所帮助！接下来，请跟着小编一起来学习吧！

丰都ssl适用于网站、小程序/APP、API接口等需要进行数据传输应用场景，ssl证书未来市场广阔！成为成都创新互联公司的ssl证书销售渠道，可以享受市场价格4-6折优惠！如果有意向欢迎电话联系或者加微信：18982081108（备注：SSL证书合作）期待与您的合作！

RDD源码的count方法：

spark内核RDD的count操作是什么

从上面代码可以看出来，count方法触发SparkContext的runJob方法的调用：

spark内核RDD的count操作是什么

进一步跟踪runJob(rdd, (context: TaskContext, iter: Iterator[T]) => func(iter), partitions, allowLocal)方法：

spark内核RDD的count操作是什么

spark内核RDD的count操作是什么

2、clean(func)：

spark内核RDD的count操作是什么

代码分析：

3.1、进入submitJob(rdd, func, partitions, callSite, allowLocal, resultHandler, properties)：

spark内核RDD的count操作是什么

上面代码分析：

3.1.1、进入new JobWaiter(this, jobId, partitions.size, resultHandler)方法

spark内核RDD的count操作是什么

我们可以看出来，是给自己发消息的

3.1.3、进入 dagScheduler.handleJobSubmitted(jobId, rdd, func, partitions, allowLocal, callSite,listener, properties)方法

spark内核RDD的count操作是什么

spark内核RDD的count操作是什么

首先构建finalStage，然后又一个getMissingParentsStages方法，可以发现运行有本地运行和集群运行两种模式，本地运行主要用于本地实验和调试：

3.1.3.1、进入 finalStage = newStage(finalRDD, partitions.size, None, jobId, callSite)方法：

spark内核RDD的count操作是什么

3.1.3.2、进入 runLocally(job)方法：

spark内核RDD的count操作是什么

spark内核RDD的count操作是什么

spark内核RDD的count操作是什么

3.1.3.3.2、进入 getMissingParentStages(stage).sortBy(_.id) 方法：

spark内核RDD的count操作是什么

跟进getShuffleMapState方法：

spark内核RDD的count操作是什么

3.1.3.3.3、进入submitMissingTasks(stage, jobId.get) 方法：

spark内核RDD的count操作是什么

spark内核RDD的count操作是什么

spark内核RDD的count操作是什么

到此，关于“spark内核RDD的count操作是什么”的学习就结束了，希望能够解决大家的疑惑。理论与实践的搭配能更好的帮助大家学习，快去试试吧！若想继续学习更多相关知识，请继续关注创新互联网站，小编会继续努力为大家带来更多实用的文章！

本文名称：spark内核RDD的count操作是什么
文章地址：http://pwwzsj.com/article/gijgcs.html

其他资讯