利用python爬取斗魚app中照片方法實(shí)例

更新時(shí)間：2017年12月03日 16:28:19 作者：newen

最近在學(xué)習(xí)python，通過(guò)實(shí)踐是學(xué)習(xí)的一個(gè)好辦法，下面這篇文章就來(lái)給大家介紹了關(guān)于利用python爬取斗魚app中照片的相關(guān)資料，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友下面來(lái)一起看看吧。

前言

沒想到python是如此強(qiáng)大，令人著迷，以前看見圖片總是一張一張復(fù)制粘貼，現(xiàn)在好了，學(xué)會(huì)python就可以用程序?qū)⒁粡垙垐D片，保存下來(lái)。

最近看到斗魚里的照片都不錯(cuò)，決定用最新學(xué)習(xí)的python技術(shù)進(jìn)行爬取，下面將實(shí)現(xiàn)的過(guò)程分享出來(lái)供大家參考，下面話不多說(shuō)了，來(lái)一起看看詳細(xì)的介紹吧。

方法如下：

首先下載一個(gè)斗魚（不下載也可以，url都在這了對(duì)吧）

　　通過(guò)抓包，抓取到一個(gè)json的數(shù)據(jù)包，得到下面的地址

　　觀察測(cè)試可知，通過(guò)修改offset值就是相當(dāng)于app的翻頁(yè)

　　訪問這個(gè)url，返回得到的是一個(gè)大字典，字典里面兩個(gè)索引，一個(gè)error，一個(gè)data。而data又是一個(gè)長(zhǎng)度為20的數(shù)組，每個(gè)數(shù)組又是一個(gè)字典。每個(gè)字典中又有一個(gè)索引，vertical_src。

　　我們的目標(biāo)就是它了！

import urllib.parse
import urllib
import json
import urllib.request
data_info={}
data_info['type']='AUTO'
data_info['doctype']='json'
data_info['xmlVersion']='1.6'
data_info['ue']='UTF-8'
data_info['typoResult']='true'
head_info={}
head_info['User-Agent']='DYZB/2.271 (iphone; iOS 9.3.2; Scale/3.00)'
url='http://capi.douyucdn.cn/api/v1/getVerticalRoom?aid=ios&client_sys=ios&limit=20&offset=20'
data_info=urllib.parse.urlencode(data_info).encode('utf-8')
print(data_info)
requ=urllib.request.Request(url,data_info)
requ.add_header('Referer','http://capi.douyucdn.cn')
requ.add_header('User-Agent','DYZB/2.271 (iphone; iOS 9.3.2; Scale/3.00)')
response=urllib.request.urlopen(requ)
print(response)
html=response.read().decode('utf-8')

這短短20多行代碼就能返回得到j(luò)son數(shù)據(jù)了。然后再通過(guò)對(duì)這json代碼的切片，分離得到每個(gè)主播照片的url地址。

然后得到這一頁(yè)的照片

import json
import urllib.request
data_info={}
data_info['type']='AUTO'
data_info['doctype']='json'
data_info['xmlVersion']='1.6'
data_info['ue']='UTF-8'
data_info['typoResult']='true'

url+str(i)='http://capi.douyucdn.cn/api/v1/getVerticalRoom?aid=ios&client_sys=ios&limit=20&offset='+str(x)
data_info=urllib.parse.urlencode(data_info).encode('utf-8')
print(data_info)
requ=urllib.request.Request(url,data_info)
requ.add_header('Referer','http://capi.douyucdn.cn')
requ.add_header('User-Agent','DYZB/2.271 (iphone; iOS 9.3.2; Scale/3.00)')
response=urllib.request.urlopen(requ)
print(response)
html=response.read().decode('utf-8')
'''
 print(type(dictionary))
print(type(dictionary[data]))
'''
dictionary=json.loads(html)
data_arr=dictionary["data"]
for i in range(0,19):
  name=data_arr[i]["nickname"]
  img_url=data_arr[i]["vertical_src"]
  print(type(img_url))
  respon_tem=urllib.request.urlopen(img_url)
  anchor_img=respon_tem.read()
  with open('../photos/'+name+'.jpg','wb') as f:
    f.write(anchor_img)

然后修改一下，讓它有了翻頁(yè)的功能

import urllib.parse
import urllib
import json
import urllib.request
data_info={}
data_info['type']='AUTO'
data_info['doctype']='json'
data_info['xmlVersion']='1.6'
data_info['ue']='UTF-8'
data_info['typoResult']='true'
data_info=urllib.parse.urlencode(data_info).encode('utf-8')

for x in range(0,195):
  url='http://capi.douyucdn.cn/api/v1/getVerticalRoom?aid=ios&client_sys=ios&limit=20&offset='+str(x)
  print(data_info)
  requ=urllib.request.Request(url,data_info)
  requ.add_header('Referer','http://capi.douyucdn.cn')
  requ.add_header('User-Agent','DYZB/2.271 (iphone; iOS 9.3.2; Scale/3.00)')
  response=urllib.request.urlopen(requ)
  print(response)
  html=response.read().decode('utf-8')
  dictionary=json.loads(html)
  data_arr=dictionary["data"]
  for i in range(0,19):
    name=data_arr[i]["nickname"]
    img_url=data_arr[i]["vertical_src"]
    print(type(img_url))
    respon_tem=urllib.request.urlopen(img_url)
    anchor_img=respon_tem.read()
    with open('../photos/'+name+'.jpg','wb') as f:
      f.write(anchor_img)

然后就等著吧~~

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了，希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，如果有疑問大家可以留言交流，謝謝大家對(duì)腳本之家的支持。

您可能感興趣的文章: