官方詳解HDFS?Balancer工具主要調(diào)優(yōu)參數(shù)
引言
HDFS Balancer工具可以用來分析塊的分布情況,并且可以重新分配DataNode中的數(shù)據(jù)。本文通過為您介紹如何使用HDFS Balancer工具以及Balancer的主要調(diào)優(yōu)參數(shù)。
使用HDFS Balancer
方式一:使用HDFS Balancer命令
HDFS Balancer命令語句如下。
hdfs balancer [-threshold <threshold>] [-policy <policy>] [-exclude [-f <hosts-file> | <comma-separated list of hosts>]] [-include [-f <hosts-file> | <comma-separated list of hosts>]] [-source [-f <hosts-file> | <comma-separated list of hosts>]] [-blockpools <comma-separated list of blockpool ids>] [-idleiterations <idleiterations>]
Balancer主要參數(shù)如下表。
| 參數(shù) | 描述 |
|---|---|
| threshold | 磁盤容量的百分?jǐn)?shù)。 默認(rèn)值為10%,表示上下浮動10%。 當(dāng)集群總使用率較高時,需要調(diào)小Threshold,避免閾值過高。 當(dāng)集群新增節(jié)點較多時,您可以適當(dāng)增加Threshold,使數(shù)據(jù)從高使用率節(jié)點移向低使用率節(jié)點。 |
| policy | 平衡策略。支持以下策略:
|
| exclude | Balancer排除特定的DataNode。 |
| include | Balancer僅對特定的DataNode進行平衡操作。 |
| source | 僅選擇特定的DataNode作為源節(jié)點。 |
| blockpools | Balancer僅在指定的blockpools中運行。 |
| idleiterations | 最多允許的空閑循環(huán)次數(shù)。覆蓋默認(rèn)的5次。 |
方式二:使用start-balancer.sh工具
start-balancer.sh實際上是調(diào)用hdfs daemon start balancer命令。使用方式如下:
- 登錄待配置集群的任意節(jié)點,詳情請參見登錄集群。
可選:執(zhí)行以下命令,修改Balancer的最大帶寬。
hdfs dfsadmin -setBalancerBandwidth <bandwidth in bytes per second>
說明 <bandwidth in bytes per second>為設(shè)置的最大帶寬。例如,如果需要設(shè)置最大帶寬為20 MB/s,對應(yīng)值為20971520,則完整代碼示例為hdfs dfsadmin -setBalancerBandwidth 20971520。如果集群負(fù)載較高,建議設(shè)置為209715200(200 MB/s);如果集群空閑,建議設(shè)置為1073741824(1 GB/s)。
- 執(zhí)行以下命令,切換到hdfs用戶并執(zhí)行Balancer參數(shù)。
DataLake集群
su hdfs /opt/apps/HDFS/hdfs-current/sbin/start-balancer.sh -threshold 5
Hadoop集群
su hdfs /usr/lib/hadoop-current/sbin/start-balancer.sh -threshold 5
- 執(zhí)行以下命令,進入HDFS安裝目錄。
DataLake集群
cd /var/log/emr/hadoop/
Hadoop集群
cd /var/log/hadoop-hdfs
執(zhí)行以下命令,查看Balancer運行情況。
當(dāng)提示信息包含Successfully字樣時,表示執(zhí)行成功。
DataLake集群
tailf hadoop-hdfs-balancer-master-1-1.c-xxx.log
Hadoop集群
tailf hadoop-hdfs-balancer-emr-header-1.cluster-xxx.log
說明 命令中的hadoop-hdfs-balancer-master-1-1.c-xxx.log和hadoop-hdfs-balancer-emr-header-xx.cluster-xxx.log為上一步驟中獲取到的日志名稱。
Balancer調(diào)優(yōu)參數(shù)
執(zhí)行Balancer會占用一定的系統(tǒng)資源,建議在業(yè)務(wù)空閑期執(zhí)行。默認(rèn)情況下,不需要對HDFS Balancer參數(shù)進行額外調(diào)整。當(dāng)需要對Balancer參數(shù)進行額外調(diào)整時,您可以在E-MapReduce控制臺的HDFS服務(wù)頁面,選擇配置 > hdfs-site.xml,調(diào)整以下兩類配置。
客戶端配置
| 參數(shù) | 描述 |
|---|---|
| dfs.balancer.dispatcherThreads | Balancer在移動Block之前,每次迭代時查詢出一個Block列表,分發(fā)給Mover線程使用。 說明 dispatcherThreads是該分發(fā)線程的個數(shù),默認(rèn)為200。 |
| dfs.balancer.rpc.per.sec | 默認(rèn)值為20,即每秒發(fā)送的RPC數(shù)量為20。 因為分發(fā)線程調(diào)用大量getBlocks的RPC查詢,所以為了避免NameNode由于分發(fā)線程壓力過大,需要控制分發(fā)線程RPC的發(fā)送速度。 例如,您可以在負(fù)載高的集群調(diào)整參數(shù)值,減小10或者5,對整體移動進度不會產(chǎn)生特別大的影響。 |
| dfs.balancer.getBlocks.size | Balancer會在移動Block前,每次迭代時查詢出一個Block列表,給Mover線程使用,默認(rèn)Block列表中Block的大小為2 GB。因為getBlocks過程會對RPC進行加鎖,所以您可以根據(jù)NameNode壓力進行調(diào)整。 |
| dfs.balancer.moverThreads | 默認(rèn)值為1000。 Balancer處理移動Block的線程數(shù),每個Block移動時會使用一個線程。 |
DataNode配置
| 參數(shù) | 描述 |
|---|---|
| dfs.datanode.balance.bandwidthPerSec | 指定DataNode用于Balancer的帶寬,通常推薦設(shè)置為100 MB/s,您也可以通過dfsadmin -setBalancerBandwidth 參數(shù)進行適當(dāng)調(diào)整,無需重啟DataNode。 例如,在負(fù)載低時,增加Balancer的帶寬。在負(fù)載高時,減少Balancer的帶寬。 |
| dfs.datanode.balance.max.concurrent.moves | 默認(rèn)值為5。 指定DataNode節(jié)點并發(fā)移動的最大個數(shù)。通??紤]和磁盤數(shù)匹配,推薦在DataNode端設(shè)置為4 * 磁盤數(shù)作為上限,可以使用Balancer的值進行調(diào)節(jié)。 例如:一個DataNode有28塊盤,在Balancer端設(shè)置為28,DataNode端設(shè)置為28 * 4。具體使用時根據(jù)集群負(fù)載適當(dāng)調(diào)整。在負(fù)載較低時,增加concurrent數(shù);在負(fù)載較高時,減少concurrent數(shù)。 |
常見問題
Q:為什么Balancer的threshold設(shè)置為10(%),但是平衡以后看到差值為20%左右?
A:threshold的含義是控制每個DataNode的使用率不高于或者不低于集群平均的使用率,所以使用率最多和最少的DataNode在平衡后可能差值為20%。要減少這種差距,可以嘗試把差值調(diào)節(jié)到5(%)。
以上就是官方詳解HDFS Balancer工具主要調(diào)優(yōu)參數(shù)的詳細內(nèi)容,更多關(guān)于HDFS Balancer工具參數(shù)調(diào)優(yōu)的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
詳解@ConfigurationProperties實現(xiàn)原理與實戰(zhàn)
這篇文章主要介紹了詳解@ConfigurationProperties實現(xiàn)原理與實戰(zhàn),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-10-10
Java異常 Factory method''sqlSessionFactory''rew exception;este
這篇文章主要介紹了Java異常 Factory method ‘sqlSessionFactory‘ threw exception; nested exception is java.lang.NoSuchMethodError:,本文介紹了springboot 引入mybatis-plus后報錯的解決方案,以下就是詳細內(nèi)容,需要的朋友可以參考下2021-07-07
mybatis創(chuàng)建一個或多個新用戶 insert 字段和表名不確定時動態(tài)添加問題
這篇文章主要介紹了mybatis創(chuàng)建一個或多個新用戶 insert 字段和表名不確定時動態(tài)添加問題,非常不錯,具有參考借鑒價值,需要的朋友可以參考下2017-02-02
Java?8函數(shù)式接口之BinaryOperator使用示例詳解
這篇文章主要大家介紹了Java?8函數(shù)式接口之BinaryOperator,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2023-07-07
springboot整合swagger3和knife4j的詳細過程
knife4j的前身是swagger-bootstrap-ui,取名knife4j是希望她能像一把匕首一樣小巧,輕量,并且功能強悍,下面這篇文章主要介紹了springboot整合swagger3和knife4j的詳細過程,需要的朋友可以參考下2022-11-11
java?常規(guī)輪詢長輪詢Long?polling實現(xiàn)示例詳解
這篇文章主要為大家介紹了java?常規(guī)輪詢長輪詢Long?polling實現(xiàn)示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-12-12
解決java執(zhí)行cmd命令調(diào)用ffmpeg報錯Concat error - No such filter ''[0,0]
這篇文章主要介紹了java執(zhí)行cmd命令,調(diào)用ffmpeg報錯Concat error - No such filter '[0,0]'解決方法,本文通過截圖實例代碼說明給大家介紹的非常詳細,對大家的工作或?qū)W習(xí)有一定的參考借鑒價值,需要的朋友可以參考下2020-03-03

