Python Scrapy框架第一個入門程序示例
本文實例講述了python Scrapy框架第一個入門程序。分享給大家供大家參考,具體如下:
首先創(chuàng)建項目:
scrappy start project maitian
第二步: 明確要抓取的字段items.py
import scrapy class MaitianItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() title = scrapy.Field() price = scrapy.Field() area = scrapy.Field() district = scrapy.Field()
第三步: 在spider目錄下創(chuàng)建爬蟲文件: zufang_spider.py
2.1 創(chuàng)建一個類,并繼承scrapy的一個子類: scrapy.Spider
2.2 自定義爬取名, name="" 后面運行框架需要用到;
2.3 定義爬取目標(biāo)網(wǎng)址
2.4 定義scrapy的方法
下面是簡單項目:
import scrapy
from maitian.items import MaitianItem
class MaitianSpider(scrapy.Spider):
name = "zufang"
start_urls = ['http://bj.maitian.cn/zfall/PG1']
def parse(self, response):
for zufang_itme in response.xpath('//div[@class="list_title"]'):
yield {
'title': zufang_itme.xpath('./h1/a/text()').extract_first().strip(),
'price': zufang_itme.xpath('./div[@class="the_price"]/ol/strong/span/text()').extract_first().strip(),
'area': zufang_itme.xpath('./p/span/text()').extract_first().replace('㎡', '').strip(),
'district': zufang_itme.xpath('./p//text()').re(r'昌平|朝陽|東城|大興|豐臺|海淀|石景山|順義|通州|西城')[0],
}
next_page_url = response.xpath(
'//div[@id="paging"]/a[@class="down_page"]/@href').extract_first()
if next_page_url is not None:
yield scrapy.Request(response.urljoin(next_page_url))
第四步: 在settings.py文件中設(shè)置數(shù)據(jù)保存到數(shù)據(jù)庫
.
.
.
ITEM_PIPELINES = {'maitian.pipelines.MaitianPipeline': 300,}
MONGODB_HOST = '127.0.0.1'
MONGODB_PORT = 27017
MONGODB_DBNAME = 'maitian'
MONGODB_DOCNAME = 'zufang'
第五步: 通過管道pipelines.py 連接上面的操作
import pymongo
from scrapy.conf import settings
class MaitianPipeline(object):
def __init__(self):
host = settings['MONGODB_HOST']
port = settings['MONGODB_PORT']
db_name = settings['MONGODB_DBNAME']
client = pymongo.MongoClient(host=host, port=port)
db = client[db_name]
self.post = db[settings['MONGODB_DOCNAME']]
def process_item(self, item, spider):
zufang = dict(item)
self.post.insert(zufang)
return item
其中 middlewares.py 文件暫不處理
以上簡單的scrapy爬蟲項目搭建完畢了
更多相關(guān)內(nèi)容可查看本站專題:《Python Socket編程技巧總結(jié)》、《Python正則表達式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對大家基于Scrapy框架的Python程序設(shè)計有所幫助。
相關(guān)文章
python 2.7 檢測一個網(wǎng)頁是否能正常訪問的方法
今天小編就為大家分享一篇python 2.7 檢測一個網(wǎng)頁是否能正常訪問的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-12-12
Python閉包之返回函數(shù)的函數(shù)用法示例
這篇文章主要介紹了 Python閉包之返回函數(shù)的函數(shù)用法示例,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2018-01-01
Python命令行參數(shù)argv和argparse該如何使用
這篇文章主要介紹了Python命令行參數(shù)argv和argparse該如何使用,幫助大家更好的理解和學(xué)習(xí)使用python,感興趣的朋友可以了解下2021-02-02
python使用requests庫提交multipart/form-data請求的方法詳解
multipart/form-data的基礎(chǔ)是post請求,即基于post請求來實現(xiàn)的 ,下面這篇文章主要給大家介紹了關(guān)于python使用requests庫提交multipart/form-data請求的相關(guān)資料,需要的朋友可以參考下2023-01-01
在Windows上安裝和配置 Jupyter Lab 作為桌面級應(yīng)用程序教程
這篇文章主要介紹了在Windows上安裝和配置 Jupyter Lab 作為桌面級應(yīng)用程序教程,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-04-04
Python+Kepler.gl實現(xiàn)時間輪播地圖過程解析
這篇文章主要介紹了Python+Kepler.gl實現(xiàn)時間輪播地圖過程解析,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-07-07

