讓python在hadoop上跑起來

更新時間：2016年01月27日 10:48:43 作者：wing1995

讓python在hadoop上跑起來，python如何在hadoop上跑起來？感興趣的小伙伴們可以參考一下

本文實例講解的是一般的hadoop入門程序“WordCount”，就是首先寫一個map程序用來將輸入的字符串分割成單個的單詞，然后reduce這些單個的單詞，相同的單詞就對其進行計數，不同的單詞分別輸出，結果輸出每一個單詞出現的頻數。

　　注意：關于數據的輸入輸出是通過sys.stdin（系統標準輸入）和sys.stdout（系統標準輸出）來控制數據的讀入與輸出。所有的腳本執(zhí)行之前都需要修改權限，否則沒有執(zhí)行權限，例如下面的腳本創(chuàng)建之前使用“chmod +x mapper.py”

1.mapper.py

#!/usr/bin/env python
import sys

for line in sys.stdin: # 遍歷讀入數據的每一行
  
  line = line.strip() # 將行尾行首的空格去除
  words = line.split() #按空格將句子分割成單個單詞
  for word in words:
    print '%s\t%s' %(word, 1)

2.reducer.py

#!/usr/bin/env python

from operator import itemgetter
import sys

current_word = None # 為當前單詞
current_count = 0 # 當前單詞頻數
word = None

for line in sys.stdin:
  words = line.strip() # 去除字符串首尾的空白字符
  word, count = words.split('\t') # 按照制表符分隔單詞和數量
  
  try:
    count = int(count) # 將字符串類型的‘1'轉換為整型1
  except ValueError:
    continue

  if current_word == word: # 如果當前的單詞等于讀入的單詞
    current_count += count # 單詞頻數加1
  else:
    if current_word: # 如果當前的單詞不為空則打印其單詞和頻數
      print '%s\t%s' %(current_word, current_count) 
    current_count = count # 否則將讀入的單詞賦值給當前單詞，且更新頻數
    current_word = word

if current_word == word:
  print '%s\t%s' %(current_word, current_count)

在shell中運行以下腳本，查看輸出結果：

echo "foo foo quux labs foo bar zoo zoo hying" | /home/wuying/mapper.py | sort -k 1,1 | /home/wuying/reducer.py

# echo是將后面“foo ****”字符串輸出，并利用管道符“|”將輸出數據作為mapper.py這個腳本的輸入數據，并將mapper.py的數據輸入到reducer.py中，其中參數sort -k 1,1是將reducer的輸出內容按照第一列的第一個字母的ASCII碼值進行升序排序

其實，我覺得后面這個reducer.py處理單詞頻數有點麻煩，將單詞存儲在字典里面，單詞作為‘key'，每一個單詞出現的頻數作為'value'，進而進行頻數統計感覺會更加高效一點。因此，改進腳本如下：

mapper_1.py

但是，貌似寫著寫著用了兩個循環(huán)，反而效率低了。關鍵是不太明白這里的current_word和current_count的作用，如果從字面上老看是當前存在的單詞，那么怎么和遍歷讀取的word和count相區(qū)別？

下面看一些腳本的輸出結果：

我們可以看到，上面同樣的輸入數據，同樣的shell換了不同的reducer，結果后者并沒有對數據進行排序，實在是費解～

讓Python代碼在hadoop上跑起來！

一、準備輸入數據

接下來，先下載三本書：

$ mkdir -p tmp/gutenberg
$ cd tmp/gutenberg
$ wget http://www.gutenberg.org/ebooks/20417.txt.utf-8
$ wget http://www.gutenberg.org/files/5000/5000-8.txt
$ wget http://www.gutenberg.org/ebooks/4300.txt.utf-8

然后把這三本書上傳到hdfs文件系統上：

 $ hdfs dfs -mkdir /user/${whoami}/input # 在hdfs上的該用戶目錄下創(chuàng)建一個輸入文件的文件夾
 $ hdfs dfs -put /home/wuying/tmp/gutenberg/*.txt /user/${whoami}/input # 上傳文檔到hdfs上的輸入文件夾中

尋找你的streaming的jar文件存放地址，注意2.6的版本放到share目錄下了，可以進入hadoop安裝目錄尋找該文件：

$ cd $HADOOP_HOME
$ find ./ -name "*streaming*"

然后就會找到我們的share文件夾中的hadoop-straming*.jar文件:

尋找速度可能有點慢，因此你最好是根據自己的版本號到對應的目錄下去尋找這個streaming文件，由于這個文件的路徑比較長，因此我們可以將它寫入到環(huán)境變量：

$ vi ~/.bashrc # 打開環(huán)境變量配置文件
# 在里面寫入streaming路徑
export STREAM=$HADOOP_HOME/share/hadoop/tools/lib/hadoop-streaming-*.jar

由于通過streaming接口運行的腳本太長了，因此直接建立一個shell名稱為run.sh來運行：

hadoop jar $STREAM \
-files ./mapper.py,./reducer.py \
-mapper ./mapper.py \
-reducer ./reducer.py \
-input /user/$(whoami)/input/*.txt \
-output /user/$(whoami)/output

然后"source run.sh"來執(zhí)行mapreduce。結果就響當當的出來啦。這里特別要提醒一下：

1、一定要把本地的輸入文件轉移到hdfs系統上面，否則無法識別你的input內容；

2、一定要有權限，一定要在你的hdfs系統下面建立你的個人文件夾否則就會被denied，是的，就是這兩個錯誤搞得我在服務器上面痛不欲生，四處問人的感覺真心不如自己清醒對待來的好；

3、如果你是第一次在服務器上面玩hadoop，建議在這之前請在自己的虛擬機或者linux系統上面配置好偽分布式然后入門hadoop來的比較不那么頭疼，之前我并不知道我在服務器上面運維沒有給我運行的權限，后來在自己的虛擬機里面運行一下example實例以及wordcount才找到自己的錯誤。

好啦，然后不出意外，就會complete啦，你就可以通過如下方式查看計數結果：

以上就是本文的全部內容，希望對大家學習python軟件編程有所幫助。

您可能感興趣的文章:

Python機器學習iris數據集預處理和模型訓練方式
iris數據集包含150個樣本,每個樣本有4個特征及其類別信息,本文介紹了iris數據集的基本操作和如何使用knn模型進行花卉種類預測,是機器學習中的經典案例,適用于監(jiān)督式學習
2024-10-10
Python后臺管理員管理前臺會員信息的講解
今天小編就為大家分享一篇關于Python后臺管理員管理前臺會員信息的講解，小編覺得內容挺不錯的，現在分享給大家，具有很好的參考價值，需要的朋友一起跟隨小編來看看吧
2019-01-01
Python實現一鍵改變raw格式照片風格
這篇文章主要為大家詳細介紹了如何基于Python實現一鍵改變raw格式照片風格效果，文中的示例代碼講解詳細，具有一定的學習價值，需要的可以一起學習一下
2023-05-05
安裝python依賴包psycopg2來調用postgresql的操作
這篇文章主要介紹了安裝python依賴包psycopg2來調用postgresql的操作，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2021-01-01
python批量同步web服務器代碼核心程序
這篇文章主要介紹了python批量同步web服務器代碼核心程序,需要的朋友可以參考下
2014-09-09
WxPython界面利用pubsub如何實現多線程控制
這篇文章主要介紹了WxPython界面利用pubsub如何實現多線程控制，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2022-11-11
python使用PIL模塊實現給圖片打水印的方法
這篇文章主要介紹了python使用PIL模塊實現給圖片打水印的方法,涉及使用PIL模塊操作圖片的相關技巧,需要的朋友可以參考下
2015-05-05
零基礎學Python之前需要學c語言嗎
在本篇文章里小編給大家整理的是一篇關于零基礎學Python之前需要學c語言關系的文章，需要的朋友們可以參考下。
2020-07-07
Python 實現OpenCV格式和PIL.Image格式互轉
今天小編就為大家分享一篇Python 實現OpenCV格式和PIL.Image格式互轉，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-01-01
Pytorch中關于F.normalize計算理解
這篇文章主要介紹了Pytorch中關于F.normalize計算理解，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2023-02-02