Python使用scrapy抓取網(wǎng)站sitemap信息的方法
更新時間:2015年04月08日 09:46:40 作者:pythoner
這篇文章主要介紹了Python使用scrapy抓取網(wǎng)站sitemap信息的方法,涉及Python框架scrapy的使用技巧,具有一定參考借鑒價值,需要的朋友可以參考下
本文實例講述了Python使用scrapy抓取網(wǎng)站sitemap信息的方法。分享給大家供大家參考。具體如下:
import re
from scrapy.spider import BaseSpider
from scrapy import log
from scrapy.utils.response import body_or_str
from scrapy.http import Request
from scrapy.selector import HtmlXPathSelector
class SitemapSpider(BaseSpider):
name = "SitemapSpider"
start_urls = ["http://www.domain.com/sitemap.xml"]
def parse(self, response):
nodename = 'loc'
text = body_or_str(response)
r = re.compile(r"(<%s[\s>])(.*?)(</%s>)"%(nodename,nodename),re.DOTALL)
for match in r.finditer(text):
url = match.group(2)
yield Request(url, callback=self.parse_page)
def parse_page(self, response):
hxs = HtmlXPathSelector(response)
#Mock Item
blah = Item()
#Do all your page parsing and selecting the elemtents you want
blash.divText = hxs.select('//div/text()').extract()[0]
yield blah
希望本文所述對大家的Python程序設(shè)計有所幫助。
您可能感興趣的文章:
- python爬蟲框架scrapy實現(xiàn)模擬登錄操作示例
- 使用scrapy實現(xiàn)爬網(wǎng)站例子和實現(xiàn)網(wǎng)絡(luò)爬蟲(蜘蛛)的步驟
- Scrapy框架基本命令與settings.py設(shè)置
- Python Scrapy框架第一個入門程序示例
- python3 Scrapy爬蟲框架ip代理配置的方法
- Python利用Scrapy框架爬取豆瓣電影示例
- pycharm運(yùn)行scrapy過程圖解
- 基于python框架Scrapy爬取自己的博客內(nèi)容過程詳解
- Python3環(huán)境安裝Scrapy爬蟲框架過程及常見錯誤
- 圖文詳解python安裝Scrapy框架步驟
- Scrapy框架實現(xiàn)的登錄網(wǎng)站操作示例
相關(guān)文章
python入門for循環(huán)嵌套理解學(xué)習(xí)
這篇文章主要介紹了python入門關(guān)于for循環(huán)嵌套的理解學(xué)習(xí),希望大家可以學(xué)會并運(yùn)用到日常工作中,有需要的朋友可以借鑒參考下,希望能夠有幫助2021-09-09
python判斷所輸入的任意一個正整數(shù)是否為素數(shù)的兩種方法
今天小編就為大家分享一篇python判斷所輸入的任意一個正整數(shù)是否為素數(shù)的兩種方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-06-06
jupyter?notebook?自定義python解釋器的過程詳解
大家都知道jupyter?notebook?網(wǎng)頁版交互環(huán)境,類似于ipython,功能強(qiáng)大,這篇文章主要介紹了jupyter?notebook?自定義python解釋器的過程,本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2022-10-10
使用Matplotlib創(chuàng)建基本圖表的詳細(xì)指南
Matplotlib 是一個功能強(qiáng)大的 Python 庫,用于創(chuàng)建各種類型的圖表和可視化,在本文中,我們將提供一個完整的指南,介紹如何使用 Matplotlib 創(chuàng)建基本的圖表,包括折線圖、散點圖、柱狀圖和餅圖,感興趣的小伙伴跟著小編一起來看看吧2024-05-05

