MapReduce當中什么叫數(shù)據(jù)傾斜(data skew)
馬克-to-win @ 馬克java社區(qū):什么叫數(shù)據(jù)傾斜(data skew)?假如,你有兩個reduce節(jié)點,數(shù)據(jù)都跑到第一個節(jié)點,(比如p_id=p1的數(shù)據(jù)非常多)第二個節(jié)點沒什么數(shù)據(jù), 結(jié)果第一個節(jié)點,工作完成總是卡在99.99%,一直99.99%不能結(jié)束。
馬克- to-win:馬克 java社區(qū):防盜版實名手機尾號: 73203。
馬克-to-win @ 馬克java社區(qū):Map端join的流程是什么:1)在setup階段:先把一個,這里就是產(chǎn)品全表(即字典表)所有數(shù)據(jù)讀取到HashMap集合中,2)之后再在map方法中一行一行處理數(shù)據(jù)。缺點: 1.需要一個表(字典表)所有數(shù)據(jù)都加載到緩存中,所以不能太大。所以帶來的問題就是這種mapJoin僅僅適用于大小表,小小表關(guān)聯(lián)。