Python爬蟲如何應對Cloudflare郵箱加密
最近寫一個小爬蟲,需要拿到郵箱信息,發(fā)現(xiàn)拿不到,也不是ajax接口。最后查資料發(fā)現(xiàn)是被Cloudflare加密起來了,有加密肯定有解密。
通過大佬http://www.dhdzp.com/article/189404.htm得到了加密算法。
參考大佬的原話搞起來就好:
檸之漠然:
這個解密方式就是從那段 js 代碼轉換過來的
其中最主要的一句話
for (e = ”, r = ‘0x' + a.substr(0, 2) | 0, n = 2; a.length – n; n += 2) e += ‘%' + (‘0' + (‘0x' + a.substr(n, 2) ^ r).toString(16)).slice( – 2);
前面的 2 位數(shù)字轉化成 16 進制之后就是秘鑰, 接下來的每兩位字符跟秘鑰異或操作之后轉成16進制, 然后轉換成字符
最后將所有解出來的字符拼成一起, 就得到郵箱 abc@abc.com 了
js 這邊是用 urlencode 的方式
下面是復現(xiàn)的js解密代碼:
function jiemi(val) {
for (e = '', r = '0x' + val.substr(0, 2) | 0, n = 2; val.length - n; n += 2) e += '%' + ('0' + ('0x' + val.substr(n, 2) ^ r).toString(16)).slice(-2); return decodeURIComponent(e)
}
然后通過python調用js完美搞定:
import execjs
def get_js():
# f = open("./../js/my.js", 'r', encoding='utf-8') # 打開JS文件
f = open("./jiemi.js", 'r', encoding='utf-8') # 打開JS文件
line = f.readline()
htmlstr = ''
while line:
htmlstr = htmlstr+line
line = f.readline()
return htmlstr
def get_des_psswd(e):
js_str = get_js()
ctx = execjs.compile(js_str) #加載JS文件
return (ctx.call('jiemi', e)) #調用js方法 第一個參數(shù)是JS的方法名,后面的data和key是js方法的參數(shù)
if __name__ == '__main__':
print(get_des_psswd(e='30515253705152531e535f5d'))
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
相關文章
tensorflow從ckpt和從.pb文件讀取變量的值方式
這篇文章主要介紹了tensorflow從ckpt和從.pb文件讀取變量的值方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-05-05
python 實現(xiàn)turtle畫圖并導出圖片格式的文件
今天小編就為大家分享一篇python 實現(xiàn)turtle畫圖并導出圖片格式的文件,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-12-12

