Spark的join的优化经验

[TOC]

经验之谈

Spark作为分布式的计算框架，最为影响其执行效率的地方就是频繁的网络传输。所以一般的，在不存在数据倾斜的情况下，想要更好的提高 Spark Job 的执行效率，就尽量的减少 job 的 shuffle 的过程（减少 job 的 stage），或者减小shuffle带来的影响

调优 Spark

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！