Python實(shí)現(xiàn)的爬取網(wǎng)易動(dòng)態(tài)評論操作示例
本文實(shí)例講述了Python實(shí)現(xiàn)的爬取網(wǎng)易動(dòng)態(tài)評論操作。分享給大家供大家參考,具體如下:
打開網(wǎng)易的一條新聞的源代碼后,發(fā)現(xiàn)并沒有所要得評論內(nèi)容。
經(jīng)過學(xué)習(xí)后發(fā)現(xiàn),源代碼只是一個(gè)完整頁面的“骨架”,而我所需要的內(nèi)容是它的填充物,這時(shí)候需要打開工具里面的開發(fā)人員工具,從加載的“骨肉”里找到我所要的評論

圈住的是類型
找到之后打開網(wǎng)頁,發(fā)現(xiàn)json類型的格式,用我已學(xué)過的正則,bs都不好鬧,于是便去了解了正則,發(fā)現(xiàn)把json的格式換化成python的格式后,用列表提取內(nèi)容是一條明朗的道路。。。
但是在細(xì)致分析的時(shí)候也發(fā)現(xiàn)了問題

從這里獲得每條評論時(shí),感覺有點(diǎn)不對,觀察發(fā)現(xiàn)如果是回復(fù)評論的評論會(huì)出現(xiàn)他回復(fù)那條評論的數(shù)據(jù),于是用正則提取了一下
最終的代碼如下:
#coding=utf-8
__author__ = 'kongmengfan123'
import urllib
import re
import json
import time
def gethothtml(url):#最熱評論
page=urllib.urlopen(url)
html=page.read()
get_json(html)
def gethnewtml():#最新評論有5頁
for i in range(1,6):
url = 'http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/C4QFIJNS0001875O/comments/newList?offset=%d&limit=30&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc&_=1478010624978'%i*30
page = urllib.urlopen(url)
html=page.read()
time.sleep(1)
get_json(html)
def get_json(json_):
end_=re.compile(r'\);')#將json網(wǎng)頁轉(zhuǎn)化成python數(shù)據(jù)
begain=re.compile(r'getData\(')
json_=begain.sub('',json_)
json_=end_.sub('',json_)
ajson=json.loads(json_)
lis=ajson["commentIds"]#獲得每條評論的鍵
n=0
for i in range(1,len(lis)):
try:
xulie=re.compile('\d{10,}')#取得準(zhǔn)確評論的鍵(去掉回復(fù))
bia=re.findall(xulie,lis[n])
w.write(ajson['comments'][bia[len(bia)-1]]['user']['nickname'].encode('utf-8')+'|')
except KeyError:
w.write(ajson['comments'][bia[len(bia)-1]]['user']['location'].encode('utf-8')+'|')
if (len(lis[n])>13):
xulie=re.compile('\d{10,}')
bia=re.findall(xulie,lis[n])
w.write(ajson['comments'][bia[len(bia)-1]]['content'].encode('utf-8')+'\n')
else:
w.write(ajson['comments'][lis[n]]['content'].encode('utf-8')+'\n')
n=n+1
return lis
w=open('wangyi.txt','w')
w.write('用戶名'+'|'+'熱門評論'+'\n')
hot_=gethothtml('http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/C4QFIJNS0001875O/comments/hotList?offset=0&limit=40&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc')
w.write('用戶名'+'|'+'最新評論'+'\n')
gethnewtml()
w.close()
成功。
更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python Socket編程技巧總結(jié)》、《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對大家Python程序設(shè)計(jì)有所幫助。
相關(guān)文章
Pandas DataFrame replace替換后無效的解決
這篇文章主要介紹了Pandas DataFrame replace替換后無效的解決方案,具有很好的參考價(jià)值,希望對大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-08-08
matplotlib調(diào)整子圖間距,調(diào)整整體空白的方法
今天小編就為大家分享一篇matplotlib調(diào)整子圖間距,調(diào)整整體空白的方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-08-08
Python+OpenCV實(shí)現(xiàn)相機(jī)標(biāo)定的方法詳解
opencv中內(nèi)置了張正友的棋盤格標(biāo)定法,通過一些姿態(tài)各異的棋盤格圖像,可以標(biāo)定相機(jī)的內(nèi)外參數(shù),本文為大家介紹OpenCV進(jìn)行相機(jī)標(biāo)定的具體方法,希望對大家有所幫助2023-05-05
詳解Python手寫數(shù)字識(shí)別模型的構(gòu)建與使用
這篇文章主要為大家詳細(xì)介紹了Python中手寫數(shù)字識(shí)別模型的構(gòu)建與使用,文中的示例代碼簡潔易懂,對我們學(xué)習(xí)Python有一定的幫助,需要的可以參考一下2022-12-12
python基礎(chǔ)之類型轉(zhuǎn)換函數(shù)
這篇文章主要介紹了python類型轉(zhuǎn)換函數(shù),實(shí)例分析了Python中返回一個(gè)返回值與多個(gè)返回值的方法,需要的朋友可以參考下2021-10-10
tensorflow mnist 數(shù)據(jù)加載實(shí)現(xiàn)并畫圖效果
TensorFlow™ 是一個(gè)采用數(shù)據(jù)流圖(data flow graphs),用于數(shù)值計(jì)算的開源軟件庫。這篇文章給大家介紹tensorflow mnist 數(shù)據(jù)加載實(shí)現(xiàn)并畫圖效果,感興趣的朋友一起看看吧2020-02-02

