wallhaven-lq18py

Spark广播变量的作用？

[TOC]

广播变量的好处

广播变量的好处，不需要每个task带上一份变量副本，而是变成每个节点的executor才一份副本。这样的话，就可以让变量产生的副本大大减少。

广播变量的用法

广播变量用法很简单，其实就是SparkContext的broadcast()方法，传入你要广播的变量，即可。

1	`context.broadcast(a) // a 为需要广播出去的变量；context 为SparkContext`

使用广播变量的时候，直接调用广播变量（Broadcast类型）的value() / getValue() 可以获取到之前封装的广播变量。

1	`a.value() //a为上面广播出去的变量。`

广播变量的原理

广播变量，初始的时候，就在Drvier上有一份副本。task在运行的时候，想要使用广播变量中的数据，此时首先会在自己本地的Executor对应的BlockManager中，尝试获取变量副本；如果本地没有，那么就从Driver远程拉取变量副本，并保存在本地的BlockManager中；此后这个executor上的task，都会直接使用本地的BlockManager中的副本。executor的BlockManager除了从driver上拉取，也可能从其他节点的BlockManager上拉取变量副本。

BlockManager

负责管理某个Executor对应的内存和磁盘上的数据，尝试在本地BlockManager中找map

广播变量的场景

使用广播变量的场景很多，我们都知道 Spark 一种常见的有方式就是小表广播，使用 map join 来替代 reduce join，我们通过把小的数据集广播到各个节点上，节省了一次特别昂贵的 shuffle 操作。

比如：Driver 上有一张数据量很小的表，其他节点上的 task 都需要这张表，那么 Driver 阔以先把这张表 copy 到这些节点上，这样 task 就阔以在本地查看表了。

ps： 在 Hadoop的整个生态圈中，数据计算的方式永远是，传算法而不传数据，实在不行必须传数据，那传数据也是小数据，而小表广播则是一个很好的体现！

例子

50个executor，1000个task。一个map，10M。默认情况下，1000个task，1000份副本。10G的数据，网络传输，在集群中，耗费10G的内存资源。如果使用了广播变量。50个execurtor，最多50个副本。最多500M的数据，网络传输。而且不一定都是从Driver传输到每个节点，还可能是就近从最近的节点的executor的bockmanager上拉取变量副本，网络传输速度大大增加；最多竟有500M的内存消耗。

10000M，500M，20倍。20倍~以上的网络传输性能消耗的降低；20倍的内存消耗的减少。对性能的提升和影响，还是很客观的。虽然说，不一定会对性能产生决定性的作用。比如运行30分钟的spark作业，可能做了广播变量以后，速度快了2分钟，或者5分钟。但是一点一滴的调优，积少成多。最后还是会有效果的。

调优的重要性

没有经过任何调优手段的spark作业，16个小时；三板斧下来，就可以到5个小时；然后非常重要的一个调优，影响特别大，shuffle调优，2~3个小时；应用了10个以上的性能调优的技术点，JVM+广播，30分钟。16小时与30分钟的差别。

Spark

本博客所有文章除特别声明外，均采用 CC BY-SA 4.0 协议，转载请注明出处！

Spark中数据倾斜的解决方案上一篇

Spark的shuffle与MR的shuffle的过程简述下一篇