MapReduce当中map端做join

map端做join
马克-to-win @ 马克java社区:map 端做join和reduce端做join有何区别?我们前面讲的是Reduce端join,因为Reduce端join需要把所有的数据都经过 Shuffle,非常消耗资源,效率要远远低于Map端join。Map端join是指只有map工作,reduce不工作,这样可以有效的避免数据倾斜。





马克-to-win @ 马克java社区:什么叫数据倾斜(data skew)?假如,你有两个reduce节点,数据都跑到第一个节点,(比如p_id=p1的数据非常多)第二个节点没什么数据, 结果第一个节点,工作完成总是卡在99.99%,一直99.99%不能结束。
马克- to-win:马克 java社区:防盗版实名手机尾号: 73203。
马克-to-win@ 马克java社区:Map端join的流程是什么:1)在setup阶段:先把一个,这里就是产品全表(即字典表)所有数据读取到HashMap集合中,2)之后再在map方法中一行一行处理数据。缺点: 1.需要一个表(字典表)所有数据都加载到缓存中,所以不能太大。所以带来的问题就是这种mapJoin仅仅适用于大小表,小小表关联。
马克-to-win @ 马克java社区:如何做大表和大表的关联? 对于大表和大表的关联: 1.reducejoin可以解决关联问题,但不完美,有数据倾斜的可能,如前所述。 2.思路:将其中一个大表进行切分,成多个小表再进行关联。