Hadoop Combiner使用方法詳解
Hadoop Combiner使用方法詳解
Combiner函數(shù)是一個(gè)可選的中間函數(shù),發(fā)生在Map階段,Mapper執(zhí)行完成后立即執(zhí)行。使用Combiner有如下兩個(gè)優(yōu)勢(shì):
- Combiner可以用來(lái)減少發(fā)送到Reducer的數(shù)據(jù)量,從而提高網(wǎng)絡(luò)效率。
- Combiner可以用于減少發(fā)送到Reducer的數(shù)據(jù)量,這將提高Reduce端的效率,因?yàn)槊總€(gè)reduce函數(shù)將處理相對(duì)較少記錄,相比于未使用Combiner之前。
Combiner與Reducer結(jié)構(gòu)相同,因?yàn)镃ombiner和Reducer都對(duì)Mapper的輸出進(jìn)行處理。這給了我們一個(gè)復(fù)用Reducer作為Combiner的好機(jī)會(huì)。但問(wèn)題是,復(fù)用Reducer作為Combiner總是是一個(gè)好主意嗎?
特點(diǎn):
Combiners是MapReduce中的一個(gè)優(yōu)化,允許在shuffle和排序階段之前在本地進(jìn)行聚合。Combiners的首要目標(biāo)是通過(guò)最小化鍵值對(duì)的數(shù)量來(lái)節(jié)省盡可能多的帶寬
Reducer作為Combiner的適用場(chǎng)景
假設(shè)我們正在編寫(xiě)一個(gè)MapReduce程序來(lái)計(jì)算股票數(shù)據(jù)集中每個(gè)股票代碼的最大收盤(pán)價(jià)。Mapper將數(shù)據(jù)集中每個(gè)股票記錄的股票代碼作為key和收盤(pán)價(jià)作為value。Reducer然后將循環(huán)遍歷股票代碼對(duì)應(yīng)的所有收盤(pán)價(jià),并從收盤(pán)價(jià)列表中計(jì)算最高收盤(pán)價(jià)。假設(shè)Mapper 1 處理 股票代碼為ABC 的3個(gè)記錄,收盤(pán)價(jià)分別為50,60和111。讓我們假設(shè)Mapper 2 處理股票代碼為ABC的2個(gè)記錄,收盤(pán)價(jià)分別為100和31。那么Reducer將收到股票代碼ABC五個(gè)收盤(pán)價(jià)---50,60,111,100和31。Reducer的工作非常簡(jiǎn)單,它將簡(jiǎn)單地循環(huán)遍歷所有收盤(pán)價(jià),并將計(jì)算最高收盤(pán)價(jià)為111。
我們可以在每個(gè)Mapper之后使用相同的Reducer作為Combiner。Mapper 1 上的Combiner將處理3個(gè)收盤(pán)價(jià)格--50,60和111,并且僅輸出111,因?yàn)樗?個(gè)收盤(pán)價(jià)的最大值。Mapper 2 上的Combiner將處理2個(gè)收盤(pán)價(jià)格--100和31,并且僅輸出100,因?yàn)樗?個(gè)收盤(pán)價(jià)的最大值?,F(xiàn)在使用Combiner之后,Reducer僅處理股票代碼ABC的2個(gè)收盤(pán)價(jià)(原先需要處理5個(gè)收盤(pán)價(jià)),即來(lái)自Mapper 1 的111和來(lái)自Mapper 2 的100,并且將從這兩個(gè)值中計(jì)算出最大收盤(pán)價(jià)格為111。
正如我們看到的,使用Combiner情況下Reducer輸出與沒(méi)有使用Combiner的輸出結(jié)果是相同的,因此在這種情況下復(fù)用Reducer作為
Combiner是沒(méi)有問(wèn)題。
Reducer作為Combiner的不適用場(chǎng)景
假設(shè)我們正在編寫(xiě)一個(gè)MapReduce程序來(lái)計(jì)算股票數(shù)據(jù)集中每個(gè)股票代碼的平均交易量(average volume for each symbol)。Mapper將數(shù)據(jù)集中每個(gè)股票記錄的股票代碼作為key和交易量(volume)作為value。Reducer然后將循環(huán)遍歷股票代碼對(duì)應(yīng)的所有交易量,并從交易量列表中計(jì)算出平均交易量(average volume from the list of volumes for that symbol)。假設(shè)Mapper 1 處理 股票代碼為ABC 的3個(gè)記錄,收盤(pán)價(jià)分別為50,60和111。讓我們假設(shè)Mapper 2 處理股票代碼為ABC的2個(gè)記錄,收盤(pán)價(jià)分別為100和31。那么Reducer將收到股票代碼ABC五個(gè)收盤(pán)價(jià)---50,60,111,100和31。Reducer的工作非常簡(jiǎn)單,它將簡(jiǎn)單地循環(huán)遍歷所有交易量,并將計(jì)算出平均交易量為70.4。
50 + 60 + 111 + 100 + 31 / 5 = 352 / 5 = 70.4
讓我們看看如果我們?cè)诿總€(gè)Mapper之后復(fù)用Reducer作為Combiner會(huì)發(fā)生什么。Mapper 1 上的Combiner將處理3個(gè)交易量--50,60和111,并計(jì)算出三個(gè)交易量的平均交易量為73.66。
Mapper 2 上的Combiner將處理2個(gè)交易量--100和31,并計(jì)算出兩個(gè)交易量的平均交易量為65.5。那么在復(fù)用Reducer作為Combiner的情況下,Reducer僅處理股票代碼ABC的2個(gè)平均交易量,來(lái)自Mapper1的73.66 和 來(lái)自Mapper2的65.5,并計(jì)算股票代碼ABC最終的平均交易量為69.58。
73.66 + 65.5 /2 = 69.58
這與我們不復(fù)用Reducer作為Combiner得出的結(jié)果不一樣,因此復(fù)用Reducer作為Combiner得出平均交易量是不正確的。
所以我們可以看到Reducer不能總是被用于Combiner。所以,當(dāng)你決定復(fù)用Reducer作為Combiner的時(shí)候,你需要問(wèn)自己這樣一個(gè)問(wèn)題 - 使用Combiner與不使用Combiner的輸出結(jié)果是否一樣?
如有疑問(wèn)請(qǐng)留言或者到本站社區(qū)交流討論,感謝閱讀,希望能幫助到大家,謝謝大家對(duì)本站的支持!
相關(guān)文章
Spring注解驅(qū)動(dòng)之ApplicationListener異步處理事件說(shuō)明
這篇文章主要介紹了Spring注解驅(qū)動(dòng)之ApplicationListener異步處理事件說(shuō)明,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-09-09
Spring-boot 2.3.x源碼基于Gradle編譯過(guò)程詳解
這篇文章主要介紹了Spring-boot 2.3.x源碼基于Gradle編譯過(guò)程詳解,本文通過(guò)實(shí)例圖文相結(jié)合給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-12-12
Java實(shí)現(xiàn)簡(jiǎn)單棋盤(pán)存檔和讀取功能
這篇文章主要為大家詳細(xì)介紹了Java實(shí)現(xiàn)簡(jiǎn)單棋盤(pán)存檔和讀取功能,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-09-09
分享一個(gè)你不知道的Java異常實(shí)現(xiàn)的缺陷
Java中一個(gè)大家熟知的知識(shí)點(diǎn)就是異常捕獲,try...catch...finally組合,但是很多人不知道這里面有一個(gè)關(guān)于Java的缺陷,或者說(shuō)是異常實(shí)現(xiàn)的一點(diǎn)不足之處。本文就通過(guò)一個(gè)很簡(jiǎn)單的實(shí)驗(yàn)給大家演示下效果玩玩兒,希望大家能覺(jué)得有趣2022-12-12
Springboot基于maven打包分離lib及resource
這篇文章主要介紹了Springboot基于maven打包分離lib及resource,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-10-10

