Python3使用正則表達式爬取內涵段子示例

更新時間：2018年04月22日 11:49:32 作者：wangbowj123

這篇文章主要介紹了Python3使用正則表達式爬取內涵段子,涉及Python正則匹配與文件讀寫相關操作技巧,需要的朋友可以參考下

本文實例講述了Python3使用正則表達式爬取內涵段子的方法。分享給大家供大家參考，具體如下：

似乎正則在爬蟲中用的不是很廣泛，但是也是基本功需要我們去掌握。

先將內涵段子網(wǎng)頁爬取下來，之后利用正則進行匹配，匹配完成后將匹配的段子寫入文本文檔內。代碼如下：

# -*- coding:utf-8 -*-
from urllib import request as urllib2
import re
# 利用正則表達式爬取內涵段子
url = r'http://www.neihanpa.com/article/list_5_{}.html'
headers = {
  'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:57.0) Gecko/20100101 Firefox/57.0',
}
file_name = '內涵段子.txt'
for page in range(2):
# 2表示頁數(shù)，可以自行調整
  fullurl = url.format(str(page+1))
  request = urllib2.Request(url=fullurl, headers=headers)
  response = urllib2.urlopen(request)
  html = response.read().decode('gbk')
  # re.S 如果沒有re.S 則是只匹配一行有沒有符合規(guī)則的字符串，如果沒有則下一行重新匹配
  # 如果加上re.S 則是將所有的字符串作為一個整體進行匹配
  pattern = re.compile(r'<div\sclass="f18 mb20">(.*?)</div>',re.S)
  duanzis = pattern.findall(html)
  for duanzi in duanzis:
    duanzi = duanzi.replace('<p>','').replace('</p>','').replace('<br />','\n').replace('&ldquo;','').replace('&rdquo','').replace('&hellip;','')
    try:
      # 將爬取的段子寫入文件
      file = open(file_name,'a',encoding='utf-8')
      file.write('\n'.join(duanzi.split()))
      file.close()
    except OSError as e:
      print(e)

運行后生成如下圖所示文件：

PS：這里再為大家提供2款非常方便的正則表達式工具供大家參考使用：

JavaScript正則表達式在線測試工具：
http://tools.jb51.net/regex/javascript

正則表達式在線生成工具：
http://tools.jb51.net/regex/create_reg

更多關于Python相關內容可查看本站專題：《Python正則表達式用法總結》、《Python數(shù)據(jù)結構與算法教程》、《Python函數(shù)使用技巧總結》、《Python字符串操作技巧匯總》、《Python入門與進階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》

希望本文所述對大家Python程序設計有所幫助。

您可能感興趣的文章:

Python 文件操作的詳解及實例
這篇文章主要介紹了Python 文件操作的詳解及實例的相關資料,希望通過本文大家能夠理解掌握Python 文件操作的知識，需要的朋友可以參考下
2017-09-09
Python中Sorted()函數(shù)的key參數(shù)使用方法詳解
這篇文章主要介紹了關于Python中Sorted()函數(shù)的key參數(shù)使用方法 ,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
2019-06-06
Matplotlib自定義坐標軸刻度的實現(xiàn)示例
這篇文章主要介紹了Matplotlib自定義坐標軸刻度的實現(xiàn)示例，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2020-06-06
Python高級特性切片(Slice)操作詳解
在Python中對于具有序列結構的數(shù)據(jù)來說都可以使用切片操作，需注意的是序列對象某個索引位置返回的是一個元素，而切片操作返回是和被切片對象相同類型對象的副本。
2018-09-09
使用OpenCV實現(xiàn)迷宮解密的全過程
同學發(fā)了我張迷宮圖片,讓我走迷宮來緩解暴躁,于是乎就碼了一個程序出來,下面這篇文章主要給大家介紹了關于使用OpenCV實現(xiàn)迷宮解密的相關資料,需要的朋友可以參考下
2022-10-10
基于Python+Pygame實現(xiàn)變異狗大戰(zhàn)游戲
只有你想不到，沒有我找不到寫不了的好游戲！這篇文章就來和大家分享一下如何基于Python+Pygame實現(xiàn)變異狗大戰(zhàn)游戲，感興趣的可以了解一下
2023-03-03
python實現(xiàn)語音常用度量方法的代碼詳解
由于語音信號是一種緩慢變化的短時平穩(wěn)信號，因而在不同時間段上的信噪比也應不一樣。為了改善上面的問題，可以采用分段信噪比。接下來通過本文給大家介紹python實現(xiàn)語音常用度量方法，感興趣的朋友跟隨小編一起看看吧
2021-05-05
在tensorflow中設置保存checkpoint的最大數(shù)量實例
今天小編就為大家分享一篇在tensorflow中設置保存checkpoint的最大數(shù)量實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-01-01
總結用Pdb庫調試Python的方式及常用的命令
大家都知道Python是自帶Pdb庫，使用Pdb調試Python程序還是很方便的。但是遠程調試、多線程，Pdb是搞不定的，下面一起來看看用Pdb庫調試Python的方式及常用的命令。
2016-08-08
pytorch 固定部分參數(shù)訓練的方法
今天小編就為大家分享一篇pytorch 固定部分參數(shù)訓練的方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-08-08