Hadoop YARN權(quán)威指南 帶目錄完整pdf[41MB] 41.6MB / 08-16
Hadoop權(quán)威指南(第4版)(修訂版&升級(jí)版) 中文完整pdf掃描版[1191.6MB / 07-20
Hadoop + Spark 大數(shù)據(jù)巨量分析與機(jī)器學(xué)習(xí)整合開發(fā)實(shí)戰(zhàn) 完整pdf99.8MB / 07-13
Hadoop大數(shù)據(jù)開發(fā)案例教程與項(xiàng)目實(shí)戰(zhàn) 高清pdf掃描版[133MB]133.3MB / 06-20
Hadoop MapReduce實(shí)戰(zhàn)手冊(cè) 中文完整pdf掃描版[42MB] 42.5MB / 08-29
-
ElasticSearch7.x入門到案例實(shí)戰(zhàn)教程 中文pdf版+源碼 服務(wù)器 / 7.2MB
-
-
-
Nginx 安全配置指南技術(shù)手冊(cè)pdf版 服務(wù)器 / 488KB
-
DNS學(xué)習(xí)從入門到精通 完整PDF版 服務(wù)器 / 6.33MB
-
Windows Server 2016系統(tǒng)配置指南 完整pdf掃描版[155MB] 服務(wù)器 / 154.8MB
-
-
Windows Server 2016 Active Directory配置指南 中文PDF版 服務(wù)器 / 23.3MB
-
Windows Server 2012-2022 故障轉(zhuǎn)移群集 完整版PDF 服務(wù)器 / 6.64MB
-
vSAN操作指南 中文PDF完整版 服務(wù)器 / 6.11MB
詳情介紹
Hadoop 是一個(gè)開源的MapReduce 平臺(tái),設(shè)計(jì)運(yùn)行在大型分布式集群環(huán)境中,為開發(fā)者進(jìn)行數(shù)據(jù)存儲(chǔ)、管理以及分析提供便利的方法?!禜adoop硬實(shí)戰(zhàn)》詳細(xì)講解了Hadoop 和MapReduce 的基本概念,并收集了85 個(gè)問題及其解決方案。在關(guān)鍵問題領(lǐng)域?qū)A(chǔ)概念和實(shí)戰(zhàn)方法做了權(quán)衡。
《Hadoop硬實(shí)戰(zhàn)》適合使用Hadoop 進(jìn)行數(shù)據(jù)存儲(chǔ)、管理和分析的技術(shù)人員使用。
目錄
前言
致謝
關(guān)于本書
第1 部分 背景和基本原理
1 跳躍中的Hadoop
1.1 什么是Hadoop
1.1.1 Hadoop 的核心組件
1.1.2 Hadoop 生態(tài)圈
1.1.3 物理架構(gòu)
1.1.4 誰在使用Hadoop
1.1.5 Hadoop 的局限性
1.2 運(yùn)行Hadoop
1.2.1 下載并安裝Hadoop
1.2.2 Hadoop 的配置
1.2.3 CLI 基本命令
1.2.4 運(yùn)行MapReduce 作業(yè)
1.3 本章小結(jié)
第2 部分 數(shù)據(jù)邏輯.
2 將數(shù)據(jù)導(dǎo)入導(dǎo)出Hadoop.
2.1 導(dǎo)入導(dǎo)出的關(guān)鍵要素
2.2 將數(shù)據(jù)導(dǎo)入Hadoop .
2.2.1 將日志文件導(dǎo)入Hadoop
技術(shù)點(diǎn)1 使用Flume 將系統(tǒng)日志文件導(dǎo)入HDFS
2.2.2 導(dǎo)入導(dǎo)出半結(jié)構(gòu)化和二進(jìn)制文件
技術(shù)點(diǎn)2 自動(dòng)復(fù)制文件到HDFS 的機(jī)制
技術(shù)點(diǎn)3 使用Oozie 定期執(zhí)行數(shù)據(jù)導(dǎo)入活動(dòng)
2.2.3 從數(shù)據(jù)庫(kù)中拉數(shù)據(jù)
技術(shù)點(diǎn)4 使用MapReduce 將數(shù)據(jù)導(dǎo)入數(shù)據(jù)庫(kù)
技術(shù)點(diǎn)5 使用Sqoop 從MySQL 導(dǎo)入數(shù)據(jù)
2.2.4 HBase
技術(shù)點(diǎn)6 HBase 導(dǎo)入HDFS
技術(shù)點(diǎn)7 將HBase 作為MapReduce 的數(shù)據(jù)源
2.3 將數(shù)據(jù)導(dǎo)出Hadoop
2.3.1 將數(shù)據(jù)導(dǎo)入本地文件系統(tǒng)
技術(shù)點(diǎn)8 自動(dòng)復(fù)制HDFS 中的文件
2.3.2 數(shù)據(jù)庫(kù)
技術(shù)點(diǎn)9 使用Sqoop 將數(shù)據(jù)導(dǎo)入MySQL
2.3.3 Hbase
技術(shù)點(diǎn)10 將數(shù)據(jù)從HDFS 導(dǎo)入HBase
技術(shù)點(diǎn)11 使用HBase 作為MapReduce 的數(shù)據(jù)接收器
2.4 本章小結(jié)
3 數(shù)據(jù)序列化――處理文本文件及其他格式的文件
3.1 了解MapReduce 中的輸入和輸出
3.1.1 數(shù)據(jù)輸入
3.1.2 數(shù)據(jù)輸出
3.2 處理常見的序列化格式
3.2.1 XML .
技術(shù)點(diǎn)12 MapReduce 和XML
3.2.2 JSON .
技術(shù)點(diǎn)13 MapReduce 和JSON .
3.3 大數(shù)據(jù)的序列化格式
3.3.1 比較SequenceFiles、Protocol Buffers、Thrift 和 Avro
3.3.2 Sequence File
技術(shù)點(diǎn)14 處理SequenceFile
3.3.3 Protocol Buffers
技術(shù)點(diǎn)15 整合Protocol Buffers 和MapReduce .
3.3.4 Thrift .
技術(shù)點(diǎn)16 使用Thrift
3.3.5 Avro
技術(shù)點(diǎn)17 MapReduce 的下一代數(shù)據(jù)序列化技術(shù)
3.4 自定義文件格式
3.4.1 輸入輸出格式
技術(shù)點(diǎn)18 輸入和輸出格式為CSV 的文件
3.4.2 output committing 的重要性
3.5 本章小結(jié)
第3 部分 大數(shù)據(jù)模式
4 處理大數(shù)據(jù)的MapReduce 模式
4.1 Join
4.1.1 Repartition Join
技術(shù)點(diǎn)19 優(yōu)化repartition join
4.1.2 Replicated Join
4.1.3 Semi-join
技術(shù)點(diǎn)20 實(shí)現(xiàn)semi-join
4.1.4 為你的數(shù)據(jù)挑選最優(yōu)的合并策略
4.2 排序
4.2.1 二次排序
技術(shù)點(diǎn)21 二次排序的實(shí)現(xiàn)
4.2.2 整體并行排序
技術(shù)點(diǎn)22 通過多個(gè)reducer 對(duì)key 進(jìn)行排序
4.3 抽樣
技術(shù)點(diǎn)23 蓄水池抽樣(reservoir 抽樣)
4.4 本章小結(jié)
5 優(yōu)化HDFS 處理大數(shù)據(jù)的技術(shù)
5.1 處理小文件
技術(shù)點(diǎn)24 使用Avro 存儲(chǔ)大量小文件
5.2 通過壓縮提高數(shù)據(jù)存儲(chǔ)效率
技術(shù)點(diǎn)25 選擇合適的壓縮解碼器
技術(shù)點(diǎn)26 在HDFS、MapReduce、Pig 和Hive 中使用數(shù)據(jù)壓縮
技術(shù)點(diǎn)27 在MapReduce、Hive 和Pig 中處理可分割的LZOP
5.3 本章小結(jié)
6 診斷和優(yōu)化性能問題
6.1 衡量MapReduce 和你的環(huán)境
6.1.1 提取作業(yè)統(tǒng)計(jì)信息的工具
6.1.2 監(jiān)控
6.2 確定性能問題的原因
6.2.1 了解哪些因素會(huì)影響MapReduce 作業(yè)的性能
6.2.2 map 端異常
技術(shù)點(diǎn)28 發(fā)現(xiàn)輸入數(shù)據(jù)中的坑
技術(shù)點(diǎn)29 確定map 端數(shù)據(jù)傾斜問題
技術(shù)點(diǎn)30 判定map 任務(wù)吞吐量
技術(shù)點(diǎn)31 小文件
技術(shù)點(diǎn)32 不可切割的文件
6.2.3 reduce 端問題
技術(shù)點(diǎn)33 reducer 任務(wù)數(shù)過大或過小 .
技術(shù)點(diǎn)34 定位reduce 端數(shù)據(jù)傾斜問題
技術(shù)點(diǎn)35 確定reduce 任務(wù)是否存在整體吞吐量過低
技術(shù)點(diǎn)36 緩慢的洗牌(shuffle)和排序 .
6.2.4 任務(wù)的一般性能問題
技術(shù)點(diǎn)37 作業(yè)競(jìng)爭(zhēng)和調(diào)度器限制
技術(shù)點(diǎn)38 使用堆轉(zhuǎn)儲(chǔ)來查找未優(yōu)化的用戶代碼
6.2.5 硬件性能問題
技術(shù)點(diǎn)39 查找硬件的失效
技術(shù)點(diǎn)40 CPU 競(jìng)爭(zhēng) .
技術(shù)點(diǎn)41 內(nèi)存交換
技術(shù)點(diǎn)42 磁盤健康
技術(shù)點(diǎn)43 網(wǎng)絡(luò)
6.3 可視化
技術(shù)點(diǎn)44 提取并可視化任務(wù)執(zhí)行時(shí)間
6.4 優(yōu)化 .
6.4.1 剖析MapReduce 的用戶代碼
技術(shù)點(diǎn)45 剖析map 和reduce 任務(wù)
6.4.2 參數(shù)配置
6.4.3 優(yōu)化 shuffle 和 sort 階段
技術(shù)點(diǎn)46 避免reducer
技術(shù)點(diǎn)47 過濾和投影
技術(shù)點(diǎn)48 使用 combiner
技術(shù)點(diǎn)49 超炫的使用比較器的快速排序
6.4.4 減輕傾斜
技術(shù)點(diǎn)50 收集傾斜數(shù)據(jù)
技術(shù)點(diǎn)51 減輕reducer 階段傾斜
6.4.5 在MapReduce 中優(yōu)化用戶的Java 代碼
6.4.6 數(shù)據(jù)序列化
6.5 本章小結(jié)
第4 部分 數(shù)據(jù)科學(xué).
7 數(shù)據(jù)結(jié)構(gòu)和算法的運(yùn)用
7.1 使用圖進(jìn)行數(shù)據(jù)建模和解決問題
7.1.1 模擬圖
7.1.2 最短路徑算法
技術(shù)點(diǎn)52 找出兩個(gè)用戶間的最短距離
7.1.3 friends-of-friends(FoF)
技術(shù)點(diǎn)53 計(jì)算FoF
7.1.4 PageRank
技術(shù)點(diǎn)54 通過Web 圖計(jì)算PageRank
7.2 Bloom filter
技術(shù)點(diǎn)55 在MapReduce 中并行創(chuàng)建Bloom filter
技術(shù)點(diǎn)56 通過MapReduce 對(duì)Bloom filter 進(jìn)行semi-join
7.3 本章小結(jié)
8 結(jié)合R 和Hadoop 進(jìn)行數(shù)據(jù)統(tǒng)計(jì)
8.1 比較R 和MapReduce 集成的幾種方法
8.2 R 基礎(chǔ)知識(shí)
8.3 R 和Streaming
8.3.1 Streaming 和map-only R
技術(shù)點(diǎn)57 計(jì)算股票日平均值
8.3.2 Streaming、R 和完整的MapReduce
技術(shù)點(diǎn)58 計(jì)算股票的累積均值
8.4 Rhipe――將客戶端R 和Hadoop 進(jìn)行集成
技術(shù)點(diǎn)59 使用Rhipe 計(jì)算CMA
8.5 RHadoop――更簡(jiǎn)單地在客戶端集成R 和Hadoop 的技術(shù)
技術(shù)點(diǎn)60 使用RHadoop 計(jì)算CMA
8.6 本章小結(jié)
9 使用Mahout 進(jìn)行預(yù)測(cè)分析
9.1 使用recommender 提供產(chǎn)品建議
9.1.1 相似性度量的可視化
9.1.2 GroupLens 數(shù)據(jù)集
9.1.3 基于用戶的recommender
9.1.4 基于物品的recommender
技術(shù)點(diǎn)61 使用基于物品的recommender 進(jìn)行電影評(píng)級(jí)
9.2 classification
9.2.1 編寫一個(gè)手動(dòng)naïve Bayesian 分類器
9.2.2 可擴(kuò)展的垃圾郵件偵測(cè)分類系統(tǒng)
技術(shù)點(diǎn)62 使用Mahout 訓(xùn)練和測(cè)試?yán)]件分類器
9.2.3 其他分類算法
9.3 K-means clustering
9.3.1 簡(jiǎn)單介紹
9.3.2 并行執(zhí)行K-means
技術(shù)點(diǎn)63 K-means 處理合成的二維數(shù)據(jù)集
9.3.3 K-means 和文本
9.3.4 其他Mahout clustering 算法 .
9.4 本章小結(jié)
第5 部分 馴服大象
10 深入解析 Hive
10.1 Hive 基礎(chǔ)
10.1.1 安裝
10.1.2 元存儲(chǔ)
10.1.3 數(shù)據(jù)庫(kù)、表、分區(qū)和存儲(chǔ)
10.1.4 數(shù)據(jù)模型
10.1.5 查詢語(yǔ)言
10.1.6 交互式和非交互式Hive
10.2 使用Hive 進(jìn)行數(shù)據(jù)分析
10.2.1 序列化和反序列化
技術(shù)點(diǎn)64 載入日志文件
10.2.2 UDF、分區(qū)、分桶和壓縮
技術(shù)點(diǎn)65 編寫UDF 和壓縮分區(qū)表
10.2.3 數(shù)據(jù)合并
技術(shù)點(diǎn)66 優(yōu)化Hive 合并
10.2.4 分組、排序和explain
10.3 本章小結(jié)
11 Pig 流管道
11.1 Pig 基礎(chǔ)
11.1.1 安裝
11.1.2 架構(gòu)
11.1.3 PigLatin.
11.1.4 數(shù)據(jù)類型
11.1.5 操作符和函數(shù)
11.1.6 交互式和非交互式的Pig
11.2 使用Pig 在日志數(shù)據(jù)中發(fā)現(xiàn)惡意行為者
11.2.1 加載數(shù)據(jù)
技術(shù)點(diǎn)67 加載Apache 日志文件
11.2.2 過濾和投影
技術(shù)點(diǎn)68 通過過濾和投影減少數(shù)據(jù)處理量
11.2.3 分組和聚合UDF
技術(shù)點(diǎn)69 IP 地址的分組和計(jì)數(shù)
11.2.4 使用UDF 進(jìn)行定位
技術(shù)點(diǎn)70 使用分布式緩存進(jìn)行IP 地理定位
11.2.5 流
技術(shù)點(diǎn)71 使用你的腳本合并Pig
11.2.6 合并
技術(shù)點(diǎn)72 在Pig 中合并數(shù)據(jù)
11.2.7 排序
技術(shù)點(diǎn)73 元組排序
11.2.8 存儲(chǔ)數(shù)據(jù)
技術(shù)點(diǎn)74 在SequenceFiles 中存儲(chǔ)數(shù)據(jù)
11.3 使用Pig 優(yōu)化用戶的工作流程
技術(shù)點(diǎn)75 通過4 步快速處理大數(shù)據(jù)
11.4 性能
技術(shù)點(diǎn)76 Pig 優(yōu)化
11.5 本章小結(jié)
12 Crunch 及相關(guān)技術(shù)
12.1 什么是Crunch
12.1.1 背景和概念
12.1.2 基本原理
12.1.3 簡(jiǎn)單示例
12.2 發(fā)現(xiàn)日志中最熱門的URL
技術(shù)點(diǎn)77 使用Crunch 進(jìn)行日志解析和基本分析
12.3 合并
技術(shù)點(diǎn)78 Crunch 的repartition join
12.4 Cascading
12.5 本章小結(jié)
13 測(cè)試和調(diào)試.
13.1 測(cè)試
13.1.1 有效的單元測(cè)試的基本要素
13.1.2 MRUnit .
技術(shù)點(diǎn)79 MapReduce 函數(shù)、作業(yè)和管道的單元測(cè)試
13.1.3 LocalJobRunner
技術(shù)點(diǎn)80 用LocalJobRunner 進(jìn)行重量級(jí)的作業(yè)測(cè)試
13.1.4 集成和QA 測(cè)試
13.2 調(diào)試用戶空間的問題
13.2.1 訪問任務(wù)日志
技術(shù)點(diǎn)81 檢查任務(wù)日志
13.2.2 調(diào)試不可預(yù)期的輸入
技術(shù)點(diǎn)82 定位input split 問題
13.2.3 調(diào)試JVM 配置
技術(shù)點(diǎn)83 解決任務(wù)的JVM 啟動(dòng)參數(shù)
13.2.4 高效調(diào)試的編碼準(zhǔn)則
技術(shù)點(diǎn)84 調(diào)試和錯(cuò)誤處理
13.3 MapReduce 陷阱
技術(shù)點(diǎn)85 MapReduce 反模式
13.4 本章小結(jié)
附錄A 相關(guān)技術(shù)
附錄B Hadoop 內(nèi)置的數(shù)據(jù)導(dǎo)入導(dǎo)出工具
附錄C HDFS 解剖.
附錄D 優(yōu)化MapReduce 合并框架
索引
下載地址
人氣書籍
![決戰(zhàn)Nginx系統(tǒng)卷:高性能Web服務(wù)器詳解與運(yùn)維 PDF掃描版[94MB] 決戰(zhàn)Nginx系統(tǒng)卷:高性能Web服務(wù)器詳解與運(yùn)維 PDF掃描版[94MB]](http://img.jbzj.com/do/uploads/litimg/140512/1531562U353.png)
決戰(zhàn)Nginx系統(tǒng)卷:高性能Web服務(wù)器詳解與運(yùn)維 PDF掃描版[94MB]
Tomcat權(quán)威指南(第2版) PDF掃描版
Hadoop實(shí)戰(zhàn)(第2版)陸嘉恒著 PDF掃描版![Nginx高性能Web服務(wù)器詳解 pdf掃描版[178MB] Nginx高性能Web服務(wù)器詳解 pdf掃描版[178MB]](http://img.jbzj.com/do/uploads/litimg/160704/1A1562KU6.jpg)
Nginx高性能Web服務(wù)器詳解 pdf掃描版[178MB]![精通Windows Server 2008 R2 PDF掃描版[157MB] 精通Windows Server 2008 R2 PDF掃描版[157MB]](http://img.jbzj.com/do/uploads/litimg/140510/1419532T2T.jpg)
精通Windows Server 2008 R2 PDF掃描版[157MB]![大規(guī)模Web服務(wù)開發(fā)技術(shù) PDF掃描版[14MB] 大規(guī)模Web服務(wù)開發(fā)技術(shù) PDF掃描版[14MB]](http://img.jbzj.com/do/uploads/litimg/140607/162Q12W016.jpg)
大規(guī)模Web服務(wù)開發(fā)技術(shù) PDF掃描版[14MB]
Hadoop應(yīng)用開發(fā)技術(shù)詳解 pdf掃描版
深入剖析Tomcat (Paul Deck) pdf掃描版![Windows Server 2012 Hyper-V虛擬化管理實(shí)踐 PDF掃描版[223MB] Windows Server 2012 Hyper-V虛擬化管理實(shí)踐 PDF掃描版[223MB]](http://img.jbzj.com/do/uploads/litimg/150311/1545362Y592.jpg)
Windows Server 2012 Hyper-V虛擬化管理實(shí)踐 PDF掃描版[223MB]![學(xué)習(xí)Nginx HTTP Server(中文版) PDF掃描版[23MB] 學(xué)習(xí)Nginx HTTP Server(中文版) PDF掃描版[23MB]](http://img.jbzj.com/do/uploads/litimg/150311/1534022V3E.png)
學(xué)習(xí)Nginx HTTP Server(中文版) PDF掃描版[23MB]
下載聲明
☉ 解壓密碼:www.dhdzp.com 就是本站主域名,希望大家看清楚,[ 分享碼的獲取方法 ]可以參考這篇文章
☉ 推薦使用 [ 迅雷 ] 下載,使用 [ WinRAR v5 ] 以上版本解壓本站軟件。
☉ 如果這個(gè)軟件總是不能下載的請(qǐng)?jiān)谠u(píng)論中留言,我們會(huì)盡快修復(fù),謝謝!
☉ 下載本站資源,如果服務(wù)器暫不能下載請(qǐng)過一段時(shí)間重試!或者多試試幾個(gè)下載地址
☉ 如果遇到什么問題,請(qǐng)?jiān)u論留言,我們定會(huì)解決問題,謝謝大家支持!
☉ 本站提供的一些商業(yè)軟件是供學(xué)習(xí)研究之用,如用于商業(yè)用途,請(qǐng)購(gòu)買正版。
☉ 本站提供的Hadoop硬實(shí)戰(zhàn) (美)霍姆斯著 帶書簽?zāi)夸浲暾鎝df[93MB]資源來源互聯(lián)網(wǎng),版權(quán)歸該下載資源的合法擁有者所有。


![Hadoop硬實(shí)戰(zhàn) (美)霍姆斯著 帶書簽?zāi)夸浲暾鎝df[93MB]](http://img.jbzj.com/do/uploads/allimg/201711/010P00006304311-1.jpg)