python爬蟲獲取新浪新聞教學(xué)
一提到python,大家經(jīng)常會提到爬蟲,爬蟲近來興起的原因我覺得主要還是因為大數(shù)據(jù)的原因,大數(shù)據(jù)導(dǎo)致了我們的數(shù)據(jù)不在只存在于自己的服務(wù)器,而python語言的簡便也成了爬蟲工具的首要語言,我們這篇文章來講下爬蟲,爬取新浪新聞
1、大家知道,爬蟲實際上就是模擬瀏覽器請求,然后把請求到的數(shù)據(jù),經(jīng)過我們的分析,提取出我們想要的內(nèi)容,這也就是爬蟲的實現(xiàn)大家知道,爬蟲實際上就是模擬瀏覽器請求,然后把請求到的數(shù)據(jù),經(jīng)過我們的分析,提取出我們想要的內(nèi)容,這也就是爬蟲的實現(xiàn)
2、首先,我們要寫爬蟲,可以借鑒一些工具,我們先從簡單的入門,首先說到請求,我們就會想到python中,非常好用的requests,然后說到分析解析就會用到bs4,然后我們可以直接用pip命令來實現(xiàn)安裝,假如安裝的是python3,也可以用pip3

3、安裝好這兩個類庫之后,然后我們就可以先請求數(shù)據(jù),查看下新聞的內(nèi)容,這個時候我們有可能看到的是亂碼

4、怎么處理亂碼呢?我們可以拿瀏覽器打開網(wǎng)頁,右鍵查看網(wǎng)頁源代碼,我們可以看到編碼格式為utf-8


5、然后我們在輸出的時候添加編碼格式,就可以查看到正確編碼的數(shù)據(jù)了

6、拿到數(shù)據(jù)之后,我們需要先分析數(shù)據(jù),看我們想要的數(shù)據(jù)在哪里,我們打開瀏覽器,右鍵審查,然后按示例圖操作,就可以看到我們新聞所在的標(biāo)簽,假如是windows系統(tǒng),選擇開發(fā)中工具里面一樣


7、我們知道屬于哪個標(biāo)簽之后,就是用bs4來解析拿到我們想要的數(shù)據(jù)了

8、我們想要拿到新聞的具體標(biāo)題,時間,地址,就需要我們在對元素進(jìn)行深入的解析,我們還是按之前的方法,找到標(biāo)題所在的標(biāo)簽

9、然后我們編寫標(biāo)題時間地址的python程序,就可以爬取出對應(yīng)的標(biāo)題內(nèi)容,時間和地址

10、簡單的python爬取新聞就講到這里啦
總結(jié):以上就是關(guān)于Python爬蟲獲取新浪新聞內(nèi)容的步驟,感謝大家的的閱讀和對腳本之家的支持。
相關(guān)文章
tensorflow 獲取模型所有參數(shù)總和數(shù)量的方法
今天小編就為大家分享一篇tensorflow 獲取模型所有參數(shù)總和數(shù)量的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-06-06
Python實現(xiàn)灰色關(guān)聯(lián)分析與結(jié)果可視化的詳細(xì)代碼
今天小編通過代碼以灰色色系為例給大家介紹Python灰色關(guān)聯(lián)分析實現(xiàn)方法,灰色關(guān)聯(lián)度分析對于一個系統(tǒng)發(fā)展變化態(tài)勢提供了量化的度量,非常適合動態(tài)歷程分析,感興趣的朋友一起看看吧2022-03-03
keras實現(xiàn)調(diào)用自己訓(xùn)練的模型,并去掉全連接層
這篇文章主要介紹了keras實現(xiàn)調(diào)用自己訓(xùn)練的模型,并去掉全連接層,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-06-06

