用python爬取租房網(wǎng)站信息的代碼
自己在剛學(xué)習(xí)python時(shí)寫的,中途遇到很多問題,查了很多資料,下面就是我爬取租房信息的代碼:
鏈家的房租網(wǎng)站
兩個(gè)導(dǎo)入的包
1.requests 用來過去網(wǎng)頁內(nèi)容
2.BeautifulSoup
import time
import pymssql
import requests
from bs4 import BeautifulSoup
# https://wh.lianjia.com/zufang/
#獲取url中下面的內(nèi)容
def get_page(url):
responce = requests.get(url)
soup = BeautifulSoup(responce.text,'lxml')
return soup
#封裝成函數(shù),作用是獲取列表下的所有租房頁面的鏈接,返回一個(gè)鏈接列表
def get_links(url):
responce = requests.get(url)
soup = BeautifulSoup(responce.text,'lxml')
link_div = soup.find_all('div',class_ = 'pic-panel')
links = [div.a.get('href') for div in link_div]
return links
#收集一個(gè)房子的信息
def get_house_info(house_url):
soup = get_page(house_url)
price = soup.find('span',class_='total').text
unit = soup.find('span',class_= 'unit').text[1:-1]
area = soup.find('p', class_ = 'lf').text
house_info= soup.find_all('p',class_ = 'lf')
area = house_info[0].text[3:] #字符串切片工具
layout = house_info[1].text[5:]
info={
'價(jià)格':price,
'單位':unit,
'面積':area,
'戶型':layout
}
return info
#鏈接數(shù)據(jù)庫
server="192.168.xx.xx" #換成自己的服務(wù)器信息
user="liujiepeng"
password="xxxxx" #自己的數(shù)據(jù)庫用戶名和密碼
conn=pymssql.connect(server,user,password,database="house")
def insert(conn,house):
#sql_values = values.format(house['價(jià)格'],house['單位'],house['面積'],
#house['戶型'])
sql = "insert into [house].dbo.lianjia(price,unit,area,layout)values('%s','%s','%s','%s')"%(house["價(jià)格"],house["單位"],house["面積"],house["戶型"])
print(sql)
cursor = conn.cursor() #游標(biāo),開拓新的窗口
#cursor1 = conn.cursor()
cursor.execute(sql) #執(zhí)行sql語句
conn.commit() #提交 ,更新sql 語句
links = get_links('https://wh.lianjia.com/zufang/')
count = 1
for link in links:
#time.sleep(2)
print('獲取一個(gè)數(shù)據(jù)成功')
house = get_house_info(link)
insert(conn,house)
print("第%s個(gè)數(shù)據(jù),存入數(shù)據(jù)庫成功!"%(count))
count = count+1
#print(house["價(jià)格"],end='\r')
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,謝謝大家對腳本之家的支持。如果你想了解更多相關(guān)內(nèi)容請查看下面相關(guān)鏈接
相關(guān)文章
Python使用Pandas對csv文件進(jìn)行數(shù)據(jù)處理的方法
這篇文章主要介紹了Python使用Pandas對csv文件進(jìn)行數(shù)據(jù)處理的方法,本文通過實(shí)例代碼相結(jié)合給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-08-08
Python分支語句與循環(huán)語句應(yīng)用實(shí)例分析
這篇文章主要介紹了Python分支語句與循環(huán)語句應(yīng)用,結(jié)合具體實(shí)例形式詳細(xì)分析了Python分支語句與循環(huán)語句各種常見應(yīng)用操作技巧與相關(guān)注意事項(xiàng),需要的朋友可以參考下2019-05-05
Python MySQLdb 執(zhí)行sql語句時(shí)的參數(shù)傳遞方式
這篇文章主要介紹了Python MySQLdb 執(zhí)行sql語句時(shí)的參數(shù)傳遞方式,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-03-03
pycharm打開chrome自動(dòng)退出錯(cuò)誤的解決方法
這篇文章主要給大家介紹了關(guān)于pycharm打開chrome自動(dòng)退出錯(cuò)誤的解決方法,文中通過實(shí)例代碼以及圖文將解決的辦法介紹的非常詳細(xì),需要的朋友可以參考下2023-07-07
Python腳本實(shí)現(xiàn)Zabbix多行日志監(jiān)控過程解析
這篇文章主要介紹了Python腳本實(shí)現(xiàn)Zabbix多行日志監(jiān)控過程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-08-08

