map端做join和reduce端做join有何区别?

马克-to-win @ 马克java社区:map 端做join和reduce端做join有何区别?我们前面讲的是Reduce端join,因为Reduce端join需要把所有的数据都经过 Shuffle,非常消耗资源,效率要远远低于Map端join。Map端join是指只有map工作,reduce不工作,这样可以有效的避免数据倾斜。
马克- to-win:马克 java社区:防盗版实名手机尾号: 73203。
马克-to-win @ 马克java社区:什么叫数据倾斜(data skew)?假如,你有两个reduce节点,数据都跑到第一个节点,(比如p_id=p1的数据非常多)第二个节点没什么数据, 结果第一个节点,工作完成总是卡在99.99%,一直99.99%不能结束。