Spark广播变量的作用?
Spark广播变量的作用?
[TOC]
广播变量的好处
广播变量的好处,不需要每个task带上一份变量副本,而是变成每个节点的executor才一份副本。这样的话, 就可以让变量产生的副本大大减少。
广播变量的用法
广播变量用法很简单,其实就是SparkContext的broadcast()方法,传入你要广播的变量,即可。
1 |
|
使用广播变量的时候,直接调用广播变量(Broadcast类型)的value() / getValue() 可以获取到之前封装的广播变量。
1 |
|
广播变量的原理
广播变量,初始的时候,就在Drvier上有一份副本。task在运行的时候,想要使用广播变量中的数据,此时首先会在自己本地的Executor对应的BlockManager中,尝试获取变量副本;如果本地没有,那么就从Driver远程拉取变量副本,并保存在本地的BlockManager中;此后这个executor上的task,都会直接使用本地的BlockManager中的副本。executor的BlockManager除了从driver上拉取,也可能从其他节点的BlockManager上拉取变量副本。
BlockManager
负责管理某个Executor对应的内存和磁盘上的数据,尝试在本地BlockManager中找map
广播变量的场景
使用广播变量的场景很多,我们都知道 Spark 一种常见的有方式就是小表广播,使用 map join 来替代 reduce join,我们通过把小的数据集广播到各个节点上,节省了一次特别昂贵的 shuffle 操作。
比如:Driver 上有一张数据量很小的表,其他节点上的 task 都需要这张表,那么 Driver 阔以先把这张表 copy 到这些节点上,这样 task 就阔以在本地查看表了。
ps: 在 Hadoop的整个生态圈中,数据计算的方式永远是,传算法而不传数据,实在不行必须传数据,那传数据也是小数据,而小表广播则是一个很好的体现!
例子
50个executor,1000个task。一个map,10M。 默认情况下,1000个task,1000份副本。10G的数据,网络传输,在集群中,耗费10G的内存资源。 如果使用了广播变量。50个execurtor,最多50个副本。最多500M的数据,网络传输。而且不一定都是从Driver传输到每个节点,还可能是就近从最近的节点的executor的bockmanager上拉取变量副本,网络传输速度大大增加;最多竟有500M的内存消耗。
10000M,500M,20倍。20倍~以上的网络传输性能消耗的降低;20倍的内存消耗的减少。对性能的提升和影响,还是很客观的。 虽然说,不一定会对性能产生决定性的作用。比如运行30分钟的spark作业,可能做了广播变量以后, 速度快了2分钟,或者5分钟。但是一点一滴的调优,积少成多。最后还是会有效果的。
调优的重要性
没有经过任何调优手段的spark作业,16个小时;三板斧下来,就可以到5个小时;然后非常重要的一个调优,影响特别大,shuffle调优,2~3个小时;应用了10个以上的性能调优的技术点,JVM+广播,30分钟。16小时与30分钟的差别。
本博客所有文章除特别声明外,均采用 CC BY-SA 4.0 协议 ,转载请注明出处!