Python如何利用正則表達式爬取網(wǎng)頁信息及圖片

更新時間：2021年04月17日 09:15:31 作者：小俊俊啊

這篇文章主要給大家介紹了關于Python如何利用正則表達式爬取網(wǎng)頁信息及圖片的相關資料，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧

一、正則表達式是什么?

概念:

正則表達式是對字符串操作的一種邏輯公式，就是用事先定義好的一些特定字符、及這些特定字符的組合，組成一個“規(guī)則字符串”，這個“規(guī)則字符串”用來表達對字符串的一種過濾邏輯。

正則表達式是一個特殊的字符序列，它能幫助你方便的檢查一個字符串是否與某種模式匹配。

個人理解:

簡單來說就是使用正則表達式來寫一個過濾器來過濾了掉雜亂的無用的信息(eg:網(wǎng)頁源代碼…)從中來獲取自己想要的內容

二、實戰(zhàn)項目

1.爬取內容

獲取上海所有三甲醫(yī)院的名稱并保存到.txt文件中

2.訪問鏈接

上海三甲醫(yī)院網(wǎng)站 link：https://yyk.99.com.cn/sanjia/shanghai/

3.正則表達式書寫的靈感

進入網(wǎng)站查看本頁面的源代碼發(fā)現(xiàn) ：醫(yī)院的名稱都是放在一個

<div class="province-box"> ...... </div>

盒子里我們只需要直接把這個盒子里面的數(shù)據(jù)過濾一下就行

正則表達式:

法一:

1.一級過濾 :

開頭是:<div class="province-box"> (.*) 結尾是:<div class="wrap-right">

2.二級過濾:

title="(.*[院心部]）*)" 獲取title=" " 里面的信息

法二:

優(yōu)化后一次性過濾:

貼圖片

開頭是:

結尾是:

4.項目源代碼

import requests
import re

url = "https://yyk.99.com.cn/sanjia/shanghai/"
# 模擬瀏覽器的訪問
headers ={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:87.0) '
                        'Gecko/20100101 Firefox/87.0'}
res = requests.get(url,headers=headers)

if res.status_code == 200:
	#1.獲取網(wǎng)頁源代碼
    raw_text = res.text
    
    #2.正則表達式書寫:
    #2.2注意:正則表達式默認匹配的是一行  我們的源代碼是多行匹配的要加另一個參數(shù) re.DOTALL
	#2.3正則法一:
		#re.findall() 返回的是lsit集合 一次過濾
    re_res = re.findall(r'<div class="province-box">(.*)<div class="wrap-right">', raw_text,re.DOTALL)
    	#re_res[0] 獲取下標是的數(shù)據(jù)    二次過濾
    res=re.findall(r'title="(.*[院心部]）*)"',re_res[0])
    	#檢查打印獲取到的信息
	print(res)
	
	#2.4正則法二:
		#(優(yōu)化)不用二次過濾 一次過濾就解決了
    # re_list = re.findall(r'<li><a href="/[^/].*/" rel="external nofollow"  rel="external nofollow"  target="_blank" title="(.*)">', res.text)
    #print(re_list)

    # 寫入文件中
    read = open("上海醫(yī)院名單", "w", encoding='utf-8')
    for i in res:
        read.write(i)
        read.write("\n")
    read.close()
else:
    print("error")

項目目錄:

部分結果:

python 正則表達式-提取圖片地址

import os,sys,time,json,time
import socket,random,hashlib
import requests,configparser
import json,re
from datetime import datetime
from multiprocessing.dummy import Pool as ThreadPool


def getpicurl(url):
    url = "http://www.mzitu.com/zipai/comment-page-352"
    html = requests.get(url).text
    pic_url = re.findall('img src="(.*?)"',html,re.S)
    for key in pic_url:
        print(key + "\r\n")
    #print(pic_url)
    
getpicurl("http://www.mzitu.com/zipai/comment-pag.e-352")

輸出結果：

python mmm.py
http://wx3.sinaimg.cn/mw1024/9d52c073gy1fsvu6578k1j20sg15nk4x.jpg

http://wx1.sinaimg.cn/mw1024/9d52c073gy1fsvu64q4lgj20j60nz0ua.jpg

http://wx1.sinaimg.cn/mw1024/9d52c073gy1fsvu67hhbaj20sg110toc.jpg

http://wx2.sinaimg.cn/mw1024/9d52c073gy1fsvu66bw56j20sg0zjtlr.jpg

http://wx1.sinaimg.cn/mw1024/9d52c073gy1fsvu65vvvtj20sg0mmtfc.jpg

http://wx2.sinaimg.cn/mw1024/9d52c073gy1fsvu66gtnzj20sg0zk48h.jpg

http://wx1.sinaimg.cn/mw1024/9d52c073gy1fsvu65q1qyj20sg11vtmo.jpg

http://wx3.sinaimg.cn/mw1024/9d52c073gy1fsvu64wgejj20e60iwtax.jpg

http://wx1.sinaimg.cn/mw1024/9d52c073gy1fsvu66a8xfj20lt0rptgw.jpg

http://wx4.sinaimg.cn/mw1024/9d52c073gy1fsnr6n7n66j20k00ozn52.jpg

http://wx1.sinaimg.cn/mw1024/9d52c073gy1fsnr6njhjyj20sg0zkn88.jpg

http://wx3.sinaimg.cn/mw1024/9d52c073gy1fsnr6n2zmyj20sg0ldten.jpg

總結

到此這篇關于Python如何利用正則表達式爬取網(wǎng)頁信息及圖片的文章就介紹到這了,更多相關Python正則表達式爬取內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

python常用的時間模塊之datetime模塊示例詳解
這篇文章主要介紹了python常用的時間模塊之datetime模塊,本文通過示例代碼給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2023-05-05
Python txt文件常用讀寫操作代碼實例
這篇文章主要介紹了Python txt文件常用讀寫操作代碼實例,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2020-08-08
一文帶你搞懂Python中的pyc文件
Python是一門解釋性語言，沒有嚴格意義上的編譯和匯編過程。Pyc文件是py編譯過程中產生的字節(jié)碼文件，可以由虛擬機直接執(zhí)行，是python將目標源碼編譯成字節(jié)碼以后在磁盤上的文件形式。本文就來聊聊pyc文件的寫入等只是，感興趣的可以了解一下
2022-12-12
詳解如何利用tushare、pycharm和excel三者結合進行股票分析
這篇文章主要介紹了詳解如何利用tushare、pycharm和excel三者結合進行股票分析，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2021-04-04
pycharm配置安裝autopep8自動規(guī)范代碼的實現(xiàn)
這篇文章主要介紹了pycharm配置安裝autopep8自動規(guī)范代碼的實現(xiàn)，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2021-03-03
python中時間模塊的基本使用教程
這篇文章主要給大家介紹了關于python中時間模塊的基本使用的相關資料，文中通過示例代碼介紹的非常詳細，對大家學習或者使用python具有一定的參考學習價值，需要的朋友們下面來一起學習學習吧
2019-05-05
詳解python中asyncio模塊
本篇文章給大家詳細分析了python中重要的asyncio模塊相關知識點，有興趣的朋友可以學習參考下。
2018-03-03
Python繪制數(shù)據(jù)動態(tài)圖的方法詳解
這篇文章主要為大家詳細介紹了如何利用Python語言繪制好看的數(shù)據(jù)動態(tài)圖，文中的示例代碼講解詳細，感興趣的小伙伴可以跟隨小編一起動手嘗試一下
2022-07-07
Python預測2020高考分數(shù)和錄取情況
這篇文章主要介紹了Python預測2020高考分數(shù)和錄取情況可能是這樣,本文通過示例代碼給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2020-07-07
python 執(zhí)行函數(shù)的九種方法
這篇文章主要介紹了python 執(zhí)行函數(shù)的九種方法，幫助大家更好的理解和學習使用python，感興趣的朋友可以了解下
2021-03-03