Python爬蟲(chóng)之爬取某文庫(kù)文檔數(shù)據(jù)
一、基本開(kāi)發(fā)環(huán)境
Python 3.6
Pycharm
二、相關(guān)模塊的使用
import os import requests import time import re import json from docx import Document from docx.shared import Cm
安裝Python并添加到環(huán)境變量,pip安裝需要的相關(guān)模塊即可。
三、目標(biāo)網(wǎng)頁(yè)分析

網(wǎng)站的文檔內(nèi)容,都是以圖片形式存在的。它有自己的數(shù)據(jù)接口
接口鏈接:
https://openapi.book118.com/getPreview.html?&project_id=1&aid=272112230&t=f2c66902d6b63726d8e08b557fef90fb&view_token=SqX7ktrZ_ZakjDI@vcohcCwbn_PLb3C1&page=1&callback=jQuery18304186406662159248_1614492889385&_=1614492889486
接口的請(qǐng)求參數(shù)

四、整體思路
- 請(qǐng)求網(wǎng)頁(yè)返回response數(shù)據(jù)(字符串)
- 通過(guò)re模塊匹配提取中間的數(shù)據(jù)(列表)索引取0(字符串)
- 通過(guò)json模塊是把提取出來(lái)的數(shù)據(jù)轉(zhuǎn)換成json模塊
- 通過(guò)遍歷獲取每張圖片的url地址
- 保存圖片到本地文件夾
- 把圖片保存到word文檔
- 爬蟲(chóng)代碼實(shí)現(xiàn)
五、爬蟲(chóng)代碼實(shí)現(xiàn)
def download():
content = 0
for page in range(1, 96, 6):
# 給定 2秒延時(shí)
time.sleep(2)
# 獲取時(shí)間戳
now_time = int(time.time() * 1000)
url = 'https://openapi.book118.com/getPreview.html'
# 請(qǐng)求參數(shù)
params = {
'project_id': '1',
'aid': '272112230',
't': 'f2c66902d6b63726d8e08b557fef90fb',
'view_token': 'SqX7ktrZ_ZakjDI@vcohcCwbn_PLb3C1',
'page': f'{page}',
'_': now_time,
}
# 請(qǐng)求頭
headers = {
'Host': 'openapi.book118.com',
'Referer': 'https://max.book118.com/html/2020/0427/8026036013002110.shtm',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, params=params, headers=headers)
# 使用正則表達(dá)式提取內(nèi)容
result = re.findall('jsonpReturn\((.*?)\)', response.text)[0]
# 字符串轉(zhuǎn)json數(shù)據(jù)
json_data = json.loads(result)['data']
# 字典值的遍歷
for value in json_data.values():
content += 1
# 拼接圖片url
img_url = 'http:' + value
print(img_url)
headers_1 = {
'Host': 'view-cache.book118.com',
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
# 請(qǐng)求圖片url地址 獲取content二進(jìn)制數(shù)據(jù)
img_content = requests.get(url=img_url, headers=headers_1).content
# 文件名
img_name = str(content) + '.jpg'
# 保存路徑
filename = 'img\\'
# 以二進(jìn)制方式保存 (圖片、音頻、視頻等文件都是以二進(jìn)制的方式保存)
with open(filename + img_name, mode='wb') as f:
f.write(img_content)
注意點(diǎn):
1、一定要給延時(shí),不然后面接口數(shù)據(jù)會(huì)請(qǐng)求不到。
2、請(qǐng)求圖片url的時(shí)候headers參數(shù)需要寫(xiě)完整,否則保存圖片是無(wú)法打開(kāi)的
3、命名最好是給定數(shù)字,1.jpg、2.jpg 這樣,方便后續(xù)保存到word
爬蟲(chóng)部分的代碼還是比較簡(jiǎn)單的,沒(méi)有什么特別的難度。
爬取這些文檔,都是需要打印或者查詢(xún)所以要把這些單張的圖片都保存到word文檔里面。
六、寫(xiě)入文檔
def save_picture():
document = Document()
path = './img/'
lis = os.listdir(path)
c = []
for li in lis:
index = li.replace('.jpg', '')
c.append(index)
c_1 = sorted(list(map(int, c)))
print(c_1)
new_files = [(str(i) + '.jpg') for i in c_1]
for num in new_files:
img_path = path + num
document.add_picture(img_path, width=Cm(17), height=Cm(24))
document.save('tu.doc') # 保存文檔
os.remove(img_path) # 刪除保存在本地的圖片
到此這篇關(guān)于Python爬蟲(chóng)之爬取某文庫(kù)文檔數(shù)據(jù)的文章就介紹到這了,更多相關(guān)python爬取文檔數(shù)據(jù)內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- Python爬取股票信息,并可視化數(shù)據(jù)的示例
- Python爬取數(shù)據(jù)并實(shí)現(xiàn)可視化代碼解析
- python如何爬取網(wǎng)站數(shù)據(jù)并進(jìn)行數(shù)據(jù)可視化
- 高考要來(lái)啦!用Python爬取歷年高考數(shù)據(jù)并分析
- 單身狗福利?Python爬取某婚戀網(wǎng)征婚數(shù)據(jù)
- Python爬蟲(chóng)之自動(dòng)爬取某車(chē)之家各車(chē)銷(xiāo)售數(shù)據(jù)
- Python爬蟲(chóng)之爬取2020女團(tuán)選秀數(shù)據(jù)
- python爬蟲(chóng)之教你如何爬取地理數(shù)據(jù)
- Python爬蟲(chóng)實(shí)戰(zhàn)之爬取京東商品數(shù)據(jù)并實(shí)實(shí)現(xiàn)數(shù)據(jù)可視化
相關(guān)文章
Flask web開(kāi)發(fā)處理POST請(qǐng)求實(shí)現(xiàn)(登錄案例)
這篇文章主要介紹了Flask web開(kāi)發(fā)處理POST請(qǐng)求實(shí)現(xiàn)(登錄案例),小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2018-07-07
python?實(shí)現(xiàn)兩個(gè)字符串乘法小練習(xí)
這篇文章主要給大家分享的是python?實(shí)現(xiàn)兩個(gè)字符串乘法小練習(xí),兩個(gè)字符串相乘,基本思路是num1依次乘以num2各個(gè)數(shù)位上的數(shù)字,下面分享的內(nèi)容,可作為大家平時(shí)學(xué)習(xí)的小練習(xí),需要的朋友可以參考下,希望對(duì)你的學(xué)習(xí)有所幫助2022-02-02
python:接口間數(shù)據(jù)傳遞與調(diào)用方法
今天小編就為大家分享一篇python:接口間數(shù)據(jù)傳遞與調(diào)用方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-12-12
python?tkinter庫(kù)的Text記錄點(diǎn)擊路經(jīng)和刪除記錄詳情
這篇文章主要介紹了python?tkinter庫(kù)的Text記錄點(diǎn)擊路經(jīng)和刪除記錄詳情,文章圍繞主題展開(kāi)詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,感興趣的小伙伴可以參考一下2022-06-06
python SMTP實(shí)現(xiàn)發(fā)送帶附件電子郵件
這篇文章主要為大家詳細(xì)介紹了python SMTP實(shí)現(xiàn)發(fā)送帶附件電子郵件,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-05-05
python使用mysql數(shù)據(jù)庫(kù)示例代碼
本篇文章主要介紹了python使用mysql數(shù)據(jù)庫(kù)示例代碼,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2017-05-05
python3實(shí)現(xiàn)UDP協(xié)議的服務(wù)器和客戶(hù)端
這篇文章主要為大家詳細(xì)介紹了python3實(shí)現(xiàn)UDP協(xié)議的服務(wù)器和客戶(hù)端,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2017-06-06
python不相等的兩個(gè)字符串的 if 條件判斷為T(mén)rue詳解
這篇文章主要介紹了python不相等的兩個(gè)字符串的 if 條件判斷為T(mén)rue詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-03-03
python實(shí)現(xiàn)合并兩個(gè)排序的鏈表
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)合并兩個(gè)排序的鏈表,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-03-03
PyCharm 配置遠(yuǎn)程python解釋器和在本地修改服務(wù)器代碼
這篇文章主要介紹了PyCharm 配置遠(yuǎn)程python解釋器和在本地修改服務(wù)器代碼,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-07-07

