python起點(diǎn)網(wǎng)月票榜字體反爬案例
前言:
字體反爬是什么個(gè)意思?就是網(wǎng)站把自己的重要數(shù)據(jù)不直接的在源代碼中呈現(xiàn)出來,而是通過相應(yīng)字體的編碼,與一個(gè)字體文件(一般后綴為ttf或woff)把相應(yīng)的編碼轉(zhuǎn)換為自己想要的數(shù)據(jù),知道了原理,接下來開始展示才藝
1.解析過程
老規(guī)矩哈我們先進(jìn)入起點(diǎn)月票榜f12調(diào)試,找到書名與其對(duì)應(yīng)的月票數(shù)據(jù)所在,使用xpath嘗試提取
?
可以看到剛剛好20條數(shù)據(jù),接下來找月票數(shù)據(jù):
?
這是什么鬼xpath檢索出來20條數(shù)據(jù)但是數(shù)據(jù)為空,element中數(shù)據(jù)顯示為未知符號(hào),這貌似沒有數(shù)據(jù)呀,這時(shí)我們觀察源代碼,搜索關(guān)鍵字font-face可以看到這種看不懂的編碼,這就是前言中所說的字體的編碼。
?我們接下來找字體文件數(shù)據(jù)包

?woff文件并且請(qǐng)求地址與這上面看到的地址一樣,不過這里需要注意的是每次請(qǐng)求地址都不一樣,文件名字也不一樣,所以我們需要每爬取一次都要單獨(dú)爬取一次字體加密數(shù)據(jù),字體加密數(shù)據(jù)可以使用第三方庫fonttools進(jìn)行解析
我們現(xiàn)在擁有:
1.書名
2.月票數(shù)據(jù)的密文
3.月票數(shù)據(jù)密文對(duì)應(yīng)的字體文件
2.開始敲代碼
首先定義獲取書名的函數(shù)get_book_name并進(jìn)行測(cè)試:
import requests
from lxml import etree
def get_book_name(xml_obj):
name_list = xml_obj.xpath("http://div[@class='book-mid-info']/h4/a/text()")
return name_list
if __name__ == '__main__':
# 設(shè)置我們通用的請(qǐng)求頭,避免被反爬攔截
headers_ = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
'referer': 'https://www.qidian.com/rank/',
'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
}
url_ = 'https://www.qidian.com/rank/yuepiao/'
# 請(qǐng)求網(wǎng)頁源代碼
str_data = requests.get(url_, headers=headers_).text
# 使用xpath解析書名
xml_obj = etree.HTML(str_data)
print(get_book_name(xml_obj)) # ['從紅月開始', '人族鎮(zhèn)守使', '全屬性武道', '深空彼岸', '我的云養(yǎng)女友', '我用閑書成圣人', '明克街13號(hào)', '星門', '東晉北府一丘八', '夜的命名術(shù)', '這個(gè)人仙太過正經(jīng)', '頂級(jí)氣運(yùn),悄悄修煉千年', '不科學(xué)御獸', '我的治愈系游戲', '這游戲也太真實(shí)了', '長夜余火', '赤心巡天', '輪回樂園', '合道', '宇宙職業(yè)選手']
2.請(qǐng)求月票數(shù)據(jù)密文,并進(jìn)行測(cè)試:
import re
import requests
from lxml import etree
# 獲取書名
def get_book_name(xml_obj):
name_list = xml_obj.xpath("http://div[@class='book-mid-info']/h4/a/text()")
return name_list
# 獲取月票加密數(shù)據(jù)
def get_yuepiao(str_data):
# 這里我們之前分析發(fā)現(xiàn)xpath取出來的數(shù)據(jù)是空值,我們直接對(duì)網(wǎng)頁源代碼使用re正則匹配獲取加密數(shù)據(jù)
yuepiao_list=re.findall(r'''</style><span class=".*?">(.*?)</span>''',str_data)
return yuepiao_list
if __name__ == '__main__':
# 設(shè)置我們通用的請(qǐng)求頭,避免被反爬攔截
headers_ = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
'referer': 'https://www.qidian.com/rank/',
'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
}
url_ = 'https://www.qidian.com/rank/yuepiao/'
# 請(qǐng)求網(wǎng)頁源代碼
str_data = requests.get(url_, headers=headers_).text
# 使用xpath解析書名
xml_obj = etree.HTML(str_data)
print(get_book_name(xml_obj)) # ['從紅月開始', '人族鎮(zhèn)守使', '全屬性武道', '深空彼岸', '我的云養(yǎng)女友', '我用閑書成圣人', '明克街13號(hào)', '星門', '東晉北府一丘八', '夜的命名術(shù)', '這個(gè)人仙太過正經(jīng)', '頂級(jí)氣運(yùn),悄悄修煉千年', '不科學(xué)御獸', '我的治愈系游戲', '這游戲也太真實(shí)了', '長夜余火', '赤心巡天', '輪回樂園', '合道', '宇宙職業(yè)選手']
print(get_yuepiao(str_data)) # ['𘢒𘢒𘢐𘢉𘢎', '𘢌𘢋𘢐𘢐', '𘢌𘢏𘢌𘢑', '𘢑𘢉𘢒𘢎', '𘢑𘢎𘢋𘢔', '𘢑𘢏𘢏𘢉', '𘢎𘢑𘢐𘢉', '𘢎𘢏𘢑𘢔', '𘢎𘢒𘢉𘢏', '𘢏𘢎𘢏𘢎', '𘢔𘢑𘢑𘢔', '𘢔𘢎𘢐𘢓', '𘢔𘢔𘢑𘢐', '𘢔𘢒𘢑𘢏', '𘢔𘢐𘢒𘢐', '𘢒𘢌𘢉𘢌', '𘢒𘢑𘢌𘢓', '𘢒𘢑𘢎𘢓', '𘢒𘢎𘢓𘢉', '𘢒𘢎𘢏𘢐']
3.獲取字體加密文件里的對(duì)應(yīng)關(guān)系:
安裝fonttools庫

?由于第一次使用fonttools庫,在使用時(shí)遇到了以下錯(cuò)誤?查詢百度得知可能是由于字體文件名字有誤,把名稱換成url上面帶的就成功的提取出來鍵值對(duì)了
(也可能是我使用re正則提取font_url時(shí)候不規(guī)范造成url錯(cuò)誤)
只是這個(gè)鍵值對(duì)怎么編碼對(duì)應(yīng)英文,程序員為何為難程序員呢,不說了我們要定義一個(gè)英語與阿拉伯?dāng)?shù)字對(duì)應(yīng)的字典進(jìn)行對(duì)英文的替換
def get_font(xml_obj, headers_):
# 使用xpath與re獲取字體加密數(shù)據(jù)包地址
font_div = xml_obj.xpath("http://span/style/text()")[0]
font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0]
font_name = str(font_url).rsplit('/', 1)[1]
# 獲取font文件進(jìn)行本地保存
font_data = requests.get(font_url, headers_).content
with open(f'{font_name}', 'wb') as f:
f.write(font_data)
# 加載字體文件
font_data = TTFont(f'{font_name}')
# font_data.saveXML('字體.xml')
font_doct01 = font_data.getBestCmap()
font_doct02 = {
'period': '.',
'zero': '0',
'one': '1',
'two': '2',
'three': '3',
'four': '4',
'five': '5',
'six': '6',
'seven': '7',
'eight': '8',
'nine': '9'
}
for i in font_doct01:
font_doct01[i]=font_doct02[font_doct01[i]]
return font_doct01
程序完美運(yùn)行:

總代碼如下:?
import re
import requests
from lxml import etree
from fontTools.ttLib import TTFont
# 獲取書名
def get_book_name(xml_obj):
name_list = xml_obj.xpath("http://div[@class='book-mid-info']/h4/a/text()")
return name_list
# 獲取月票加密數(shù)據(jù)
def get_yuepiao(str_data):
# 這里我們之前分析發(fā)現(xiàn)xpath取出來的數(shù)據(jù)是空值,我們直接對(duì)網(wǎng)頁源代碼使用re正則匹配獲取加密數(shù)據(jù)
yuepiao_list = re.findall(r'''</style><span class=".*?">(.*?)</span>''', str_data)
return yuepiao_list
def get_font(xml_obj, headers_):
# 使用xpath與re獲取字體加密數(shù)據(jù)包地址
font_div = xml_obj.xpath("http://span/style/text()")[0]
font_url = re.findall("eot.*?(https:.*?.woff)", font_div)[0]
font_name = str(font_url).rsplit('/', 1)[1]
# 獲取font文件進(jìn)行本地保存
font_data = requests.get(font_url, headers_).content
with open(f'{font_name}', 'wb') as f:
f.write(font_data)
# 加載字體文件
font_data = TTFont(f'{font_name}')
# font_data.saveXML('字體.xml')
font_doct01 = font_data.getBestCmap()
font_doct02 = {
'period': '.',
'zero': '0',
'one': '1',
'two': '2',
'three': '3',
'four': '4',
'five': '5',
'six': '6',
'seven': '7',
'eight': '8',
'nine': '9'
}
for i in font_doct01:
font_doct01[i] = font_doct02[font_doct01[i]]
return font_doct01
def jiemi(miwen_list, font_list):
yuepiao = []
for i in miwen_list:
num = ''
mw_list=re.findall('&#(.*?);', i)
for j in mw_list:
num += font_list[int(j)]
yuepiao.append(int(num))
return yuepiao
if __name__ == '__main__':
# 設(shè)置我們通用的請(qǐng)求頭,避免被反爬攔截
headers_ = {
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/96.0.4664.45 Safari/537.36',
'referer': 'https://www.qidian.com/rank/',
'cookie': 'e1=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; e2=%7B%22pid%22%3A%22qd_P_rank_19%22%2C%22eid%22%3A%22%22%2C%22l1%22%3A5%7D; _yep_uuid=6a2ad124-678f-04d3-7195-2e4e9f5c470e; _gid=GA1.2.501012674.1638335311; newstatisticUUID=1638335311_1217304635; _csrfToken=adBfL5dzru0KuzVgLJpxtsE8zQcfgZT8MzKf0aMs; e2=; e1=%7B%22pid%22%3A%22qd_p_qidian%22%2C%22eid%22%3A%22qd_A16%22%2C%22l1%22%3A3%7D; _ga_FZMMH98S83=GS1.1.1638362844.2.1.1638362855.0; _ga_PFYW0QLV3P=GS1.1.1638362844.2.1.1638362855.0; _ga=GA1.2.2025243050.1638335311; _gat_gtag_UA_199934072_2=1'
}
url_ = 'https://www.qidian.com/rank/yuepiao/'
# 請(qǐng)求網(wǎng)頁源代碼
str_data = requests.get(url_, headers=headers_).text
# 使用xpath解析書名
xml_obj = etree.HTML(str_data)
# print(get_book_name(
# xml_obj)) # ['從紅月開始', '人族鎮(zhèn)守使', '全屬性武道', '深空彼岸', '我的云養(yǎng)女友', '我用閑書成圣人', '明克街13號(hào)', '星門', '東晉北府一丘八', '夜的命名術(shù)', '這個(gè)人仙太過正經(jīng)', '頂級(jí)氣運(yùn),悄悄修煉千年', '不科學(xué)御獸', '我的治愈系游戲', '這游戲也太真實(shí)了', '長夜余火', '赤心巡天', '輪回樂園', '合道', '宇宙職業(yè)選手']
# print(get_yuepiao(
# str_data)) # ['𘢒𘢒𘢐𘢉𘢎', '𘢌𘢋𘢐𘢐', '𘢌𘢏𘢌𘢑', '𘢑𘢉𘢒𘢎', '𘢑𘢎𘢋𘢔', '𘢑𘢏𘢏𘢉', '𘢎𘢑𘢐𘢉', '𘢎𘢏𘢑𘢔', '𘢎𘢒𘢉𘢏', '𘢏𘢎𘢏𘢎', '𘢔𘢑𘢑𘢔', '𘢔𘢎𘢐𘢓', '𘢔𘢔𘢑𘢐', '𘢔𘢒𘢑𘢏', '𘢔𘢐𘢒𘢐', '𘢒𘢌𘢉𘢌', '𘢒𘢑𘢌𘢓', '𘢒𘢑𘢎𘢓', '𘢒𘢎𘢓𘢉', '𘢒𘢎𘢏𘢐']
# print(get_font(xml_obj, headers_))
# 書名列表
book_name_list = get_book_name(xml_obj)
# 月票列表
yuepiao_list = jiemi(get_yuepiao(str_data), get_font(xml_obj, headers_))
for i in range(len(book_name_list)):
print(f'{book_name_list[i]}:{yuepiao_list[i]}')
到此這篇關(guān)于python起點(diǎn)網(wǎng)月票榜字體反爬案例的文章就介紹到這了,更多相關(guān)python字體反爬內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
VS2022安裝Python開發(fā)環(huán)境的詳細(xì)過程
這篇文章主要介紹了VS2022安裝Python開發(fā)環(huán)境,文中用Python實(shí)現(xiàn)裴波那契數(shù)列,來感受一下Python的魅力,結(jié)合實(shí)例代碼給大家介紹的非常詳細(xì),需要的朋友可以參考下2022-08-08
一文讓你秒懂精通pip并快速體驗(yàn)深度學(xué)習(xí)應(yīng)用【建議收藏】
在使用python的時(shí)候,經(jīng)常使用到pip這個(gè)工具,可以很方便的線上安裝依賴庫,當(dāng)然pip還有很多參數(shù)都可以幫我們?nèi)ゲ樵円恍煨畔?這篇文章主要給大家介紹了如何通過一篇文章讓你秒懂精通pip并快速體驗(yàn)深度學(xué)習(xí)應(yīng)用的相關(guān)資料,需要的朋友可以參考下2021-08-08
Python使用Chardet庫檢測(cè)字符編碼的操作詳解
在處理文本數(shù)據(jù)時(shí),字符編碼問題是一個(gè)常見的挑戰(zhàn),如果編碼不正確,可能會(huì)導(dǎo)致亂碼問題,而 Chardet 是 Python 中非常實(shí)用的一個(gè)庫,可以幫助我們快速檢測(cè)文件或字符串的編碼格式,本文給大家詳細(xì)介紹了Python Chardet 庫用法,需要的朋友可以參考下2025-01-01
python 使用遞歸實(shí)現(xiàn)打印一個(gè)數(shù)字的每一位示例
今天小編就為大家分享一篇python 使用遞歸實(shí)現(xiàn)打印一個(gè)數(shù)字的每一位示例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-02-02
通過Python將MP4視頻轉(zhuǎn)換為GIF動(dòng)畫
Python可用于讀取常見的MP4視頻格式并將其轉(zhuǎn)換為GIF動(dòng)畫。本文將詳細(xì)為大家介紹實(shí)現(xiàn)的過程,文中的代碼具有一定的參考價(jià)值,感興趣的小伙伴可以學(xué)習(xí)一下2021-12-12
python 實(shí)現(xiàn)按對(duì)象傳值
今天小編就為大家分享一篇python 實(shí)現(xiàn)按對(duì)象傳值,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-12-12
python微信跳一跳系列之自動(dòng)計(jì)算跳一跳距離
這篇文章主要為大家詳細(xì)介紹了python微信跳一跳系列之自動(dòng)計(jì)算跳一跳距離,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-02-02
python光學(xué)仿真實(shí)現(xiàn)光線追跡之空間關(guān)系
這篇文章主要介紹了python光學(xué)仿真中實(shí)現(xiàn)光線追跡的空間關(guān)系示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步2021-10-10
Python用5行代碼寫一個(gè)自定義簡(jiǎn)單二維碼
今天小編就為大家分享一篇關(guān)于Python用5行代碼寫一個(gè)自定義簡(jiǎn)單二維碼的文章,小編覺得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來看看吧2018-10-10

