Python爬蟲之爬取二手房信息

更新時(shí)間：2021年04月27日 14:52:23 作者：世界的隱喻

這篇文章主要介紹了Python爬蟲之爬取二手房信息,文中有非常詳細(xì)的代碼示例,對正在學(xué)習(xí)python爬蟲的小伙伴們有非常好的幫助,需要的朋友可以參考下

前言

說到二手房信息，不知道你們心里最先跳出來的公司（網(wǎng)站）是什么，反正我心里第一個(gè)跳出來的是網(wǎng)站是 58 同城。哎呦，我這暴脾氣，想到就趕緊去干。

但很顯然，我失敗了。說顯然，而不是不幸，這是因?yàn)?58 同城是大公司，我這點(diǎn)本事爬不了數(shù)據(jù)是再正常不過的了。下面來看看 58 同城的反爬手段了。這是我爬取下來的網(wǎng)頁源碼。

在這里插入圖片描述

我們看到爬取下來的源碼有很多英文大寫字母和數(shù)字是網(wǎng)頁源碼中沒有的，后來我了解到 58 同城對自己的網(wǎng)站的源碼進(jìn)行了文本加密，所以就出現(xiàn)了我爬取到的情況。

爬取二手房信息

我打開 58 同城的 robots 協(xié)議。

在這里插入圖片描述

好家伙，不愧是大公司，所有的動態(tài)網(wǎng)址都不讓爬取，打擾了。我只好轉(zhuǎn)頭離開，去尋找可以讓我這種小白爬取的二手房網(wǎng)站。于是我找到了c21網(wǎng)站,不知道是我的原因，還是別的原因，反正我是沒有找到這個(gè)網(wǎng)站的 robots 協(xié)議。不管了，既然沒找到，就默認(rèn)沒有吧，直接開始爬取。

我本來打算通過二手房的目錄跳到一個(gè)具體信息，然后爬取二手房的一些基本信息和屬性。

在這里插入圖片描述

像我紅筆圈起來的部分。但很可惜我失敗了，后來我看了看紅筆圈起來的部分的爬取到的源碼。

在這里插入圖片描述

好家伙，還可以這樣。不過這怎么可以難倒機(jī)智的我？（其實(shí)我真不知道怎么解決它）。沒關(guān)系，之前的源碼里不是有類似的信息嗎？我只好將就一下了。

在這里插入圖片描述

然后是翻頁。翻頁問題很好解決，我們很快就發(fā)現(xiàn)網(wǎng)頁都是 https://bj.c21.com.cn/ershoufang/pg2/。其中的頁數(shù)和 pg 后面的數(shù)字有關(guān)。

然后就是分析這些數(shù)據(jù)源碼的位置了。

在這里插入圖片描述

首先，我們發(fā)現(xiàn)我們要爬取的數(shù)據(jù)全在 li 標(biāo)簽里，所以我們可以先獲得 li 標(biāo)簽的列表。偽代碼就像這樣。

form lxml import etree
……   ……
tree = etree.HTML(源碼)
li_list = tree.xpath( li 標(biāo)簽的路徑)

這時(shí)候我們獲得的就是 li 標(biāo)簽的 etree 的類，可以繼續(xù)使用 etree 類里的函數(shù)。然后我們就可以利用 for 循環(huán)提出不同房源的 li 標(biāo)簽，根據(jù)自己的需要獲取文本信息。

歐克，了解了這些（感覺源碼前前后后就是四個(gè)字 ”我是菜雞“ ）我們就可以開始寫代碼了。

import requests
from lxml import etree
import re

if __name__ == "__main__":
    # UA偽裝
    header = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.72 Safari/537.36"
        }

    for pg in range(1, 3): # 翻兩頁
        # 指定 url
        url = "https://bj.c21.com.cn/ershoufang/pg%s/" % str(pg)

        # 獲取網(wǎng)頁源碼
        page = requests.get(url = url, headers = header).text

        # xpath 解析
        tree = etree.HTML(page)
        li_list = tree.xpath('//ul[@id="availability"]/li') 
        for li in li_list:
            title = li.xpath('div[2]/div/a/text()')[0] # 房子的名稱
            # print(title[0]) # 測試
            add = li.xpath('div[2]/div/p//a/text()') # 地址
            add = add[-2: ] + add[0:1] # 地址范圍由大到小
            # print(add) # 測試
            div_list = li.xpath('div[2]/div[2]/div')
            # 具體信息
            message_list = ["建筑面積", "房屋戶型", "房屋朝向", "所在樓層", "裝修情況", "建成時(shí)間"]
            for i in range(6):
                div = div_list[i]
                message = div.xpath('span/text()')[0]
                message = re.sub("\s", "", str(message)) # 因?yàn)榘l(fā)現(xiàn)獲取的文本有很多換行符和空格，所以需要去掉
                message = re.sub("\\n", "", str(message))
                message_list[i] = message_list[i] + "：" + message
            # print(message_list) # 測試
            # 交通情況
            traffic = li.xpath('div[2]/div[4]//text()')
            # print(traffic) # 測試
            # 價(jià)格情況
            price = li.xpath('div[2]/div[3]//text()')
            price = price[0] + price[1]
            # print(price) # 測試
            with open("C:\\Users\\ASUS\\Desktop\\CSDN\\數(shù)據(jù)解析\\xpath\\二手房\\" + "二手房.txt", "a", encoding = "utf-8") as fp:
                fp.write(title + "\n")
                for message in message_list:
                    fp.write(message + "\n")
                if traffic == []:
                    fp.write("交通情況：無介紹" + "\n")
                else:
                    fp.write("交通情況：" + traffic[0] + "\n")
                fp.write("價(jià)格：" + price + "\n\n")
            print(title, "下載完成?。?！")

    print("over!!!")