Python 通過requests實現(xiàn)騰訊新聞抓取爬蟲的方法

更新時間：2019年02月22日 10:49:10 作者：無緣浪子

今天小編就為大家分享一篇Python 通過requests實現(xiàn)騰訊新聞抓取爬蟲的方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

最近也是學習了一些爬蟲方面的知識。以我自己的理解，通常我們用瀏覽器查看網(wǎng)頁時，是通過瀏覽器向服務器發(fā)送請求，然后服務器響應以后返回一些代碼數(shù)據(jù)，再經(jīng)過瀏覽器解析后呈現(xiàn)出來。而爬蟲則是通過程序向服務器發(fā)送請求，并且將服務器返回的信息，通過一些處理后，就能得到我們想要的數(shù)據(jù)了。

以下是前段時間我用python寫的一個爬取TX新聞標題及其網(wǎng)址的一個簡單爬蟲：

首先需要用到python中requests（方便全面的http請求庫）和 BeautifulSoup（html解析庫）。

通過pip來安裝這兩個庫，命令分別是：pip install requests 和 pip install bs4 (如下圖)

Python requests實現(xiàn)騰訊新聞抓取爬蟲

先放上完整的代碼

# coding:utf-8
import requests
from bs4 import BeautifulSoup
 
url = "http://news.qq.com/"
# 請求騰訊新聞的URL，獲取其text文本
wbdata = requests.get(url).text
# 對獲取到的文本進行解析
soup = BeautifulSoup(wbdata,'lxml')
# 從解析文件中通過select選擇器定位指定的元素，返回一個列表
news_titles = soup.select("div.text > em.f14 > a.linkto")
 
# 對返回的列表進行遍歷
for n in news_titles:
  title = n.get_text()
  link = n.get("href")
  data = {
    '標題':title,
    '鏈接':link
  }
  print(data)

首先引入上述兩個庫

import requests
from bs4 import BeautifulSoup

然后get請求騰訊新聞網(wǎng)url，返回的字符串實質(zhì)上就是我們手動打開這個網(wǎng)站，然后查看網(wǎng)頁源代碼所看到的html代碼。

wbdata = requests.get(url).text

我們需要的僅僅是某些特定標簽里的內(nèi)容：

Python requests實現(xiàn)騰訊新聞抓取爬蟲

可以看出，每條新聞鏈接、標題都在<div class="text">標簽的<em class="f14 124">標簽下

之后我們將剛剛請求得到的html代碼進行處理，這時候就需要用到BeautifulSoap庫了

soup = BeautifulSoup(wbdata,'lxml')

這一行的意思是對獲取的信息進行解析處理,也可以將lxml庫換成html.parser庫，效果是相同的

news_titles = soup.select("div.text > em.f14 > a.linkto")

這一行是利用剛剛經(jīng)過解析獲取的soup對象，選擇我們需要的標簽，返回值是一個列表。列表中存放了我們需要的所有標簽內(nèi)容。也可以使用BeautifulSoup中的find()方法或findall()方法來對標簽進行選擇。

最后用 for in 對列表進行遍歷，分別取出標簽中的內(nèi)容（新聞標題）和標簽中href的值（新聞網(wǎng)址），存放在data字典中

for n in news_titles:
  title = n.get_text()
  link = n.get("href")
  data = {
    '標題':title,
    '鏈接':link
  }

data存放的就是所有的新聞標題和鏈接了，下圖是部分結(jié)果

Python requests實現(xiàn)騰訊新聞抓取爬蟲

這樣一個爬蟲就完成了，當然這只是一個最簡單的爬蟲。深入爬蟲的話還有許多模擬瀏覽器行為、安全問題、效率優(yōu)化、多線程等等需要考慮，不得不說爬蟲是一個很深的坑。

python中爬蟲可以通過各種庫或者框架來完成，requests只是比較常用的一種而已。其他語言中也會有許多爬蟲方面的庫，例如php可以使用curl庫。爬蟲的原理都是一樣的，只是用不同語言、不同庫來實現(xiàn)的方法不一樣。

以上這篇Python 通過requests實現(xiàn)騰訊新聞抓取爬蟲的方法就是小編分享給大家的全部內(nèi)容了，希望能給大家一個參考，也希望大家多多支持腳本之家。

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Python 通過requests實現(xiàn)騰訊新聞抓取爬蟲的方法

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

Python 通過requests實現(xiàn)騰訊新聞抓取爬蟲的方法

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕