MapReduce当中什么叫数据倾斜(data skew)

马克-to-win @ 马克java社区:什么叫数据倾斜(data skew)?假如,你有两个reduce节点,数据都跑到第一个节点,(比如p_id=p1的数据非常多)第二个节点没什么数据, 结果第一个节点,工作完成总是卡在99.99%,一直99.99%不能结束。
马克- to-win:马克 java社区:防盗版实名手机尾号: 73203。
马克-to-win @ 马克java社区:Map端join的流程是什么:1)在setup阶段:先把一个,这里就是产品全表(即字典表)所有数据读取到HashMap集合中,2)之后再在map方法中一行一行处理数据。缺点: 1.需要一个表(字典表)所有数据都加载到缓存中,所以不能太大。所以带来的问题就是这种mapJoin仅仅适用于大小表,小小表关联。