Python抓取Discuz!用戶名腳本代碼
最近學(xué)習(xí)Python,于是就用Python寫了一個抓取Discuz!用戶名的腳本,代碼很少但是很搓。思路很簡單,就是正則匹配title然后提取用戶名寫入文本文檔。程序以百度站長社區(qū)為例(一共有40多萬用戶),掛在VPS上就沒管了,雖然用了延時但是后來發(fā)現(xiàn)一共只抓取了50000多個用戶名就被封了。。。
代碼如下:
# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站長平臺用戶名腳本
import urllib
import urllib2
import re
import time
def BiduSpider():
pattern = re.compile(r'<title>(.*)的個人資料 百度站長社區(qū) </title>')
uid=1
thedatas = []
while uid <400000:
theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
uid +=1
theResponse = urllib2.urlopen(theUrl)
thePage = theResponse.read()
#正則匹配用戶名
theFindall = re.findall(pattern,thePage)
#等待0.5秒,以防頻繁訪問被禁止
time.sleep(0.5)
if theFindall :
#中文編碼防止亂碼輸出
thedatas = theFindall[0].decode('utf-8').encode('gbk')
#寫入txt文本文檔
f = open('theUid.txt','a')
f.writelines(thedatas+'\n')
f.close()
if __name__ == '__main__':
BiduSpider()
最終成果如下:

- Python實現(xiàn)抓取網(wǎng)頁并且解析的實例
- Python抓取京東圖書評論數(shù)據(jù)
- python抓取網(wǎng)頁時字符集轉(zhuǎn)換問題處理方案分享
- python小技巧之批量抓取美女圖片
- python抓取網(wǎng)頁圖片示例(python爬蟲)
- python抓取網(wǎng)頁圖片并放到指定文件夾
- python多線程抓取天涯帖子內(nèi)容示例
- python抓取網(wǎng)頁中的圖片示例
- python使用beautifulsoup從愛奇藝網(wǎng)抓取視頻播放
- python抓取豆瓣圖片并自動保存示例學(xué)習(xí)
- python正則匹配抓取豆瓣電影鏈接和評論代碼分享
- python抓取京東商城手機(jī)列表url實例代碼
- python實現(xiàn)從web抓取文檔的方法
相關(guān)文章
python fabric實現(xiàn)遠(yuǎn)程操作和部署示例
這篇文章主要介紹了python使用fabric實現(xiàn)遠(yuǎn)程操作和部署示例,需要的朋友可以參考下2014-03-03
詳解Python中數(shù)據(jù)處理的方法總結(jié)及實現(xiàn)
數(shù)據(jù)增強(qiáng)作為前處理的關(guān)鍵步驟,在整個計算機(jī)視覺中有著具足輕重的地位。本文為大家總結(jié)了Python中數(shù)據(jù)處理的方法及實現(xiàn),需要的可以參考一下2022-09-09
python自動化測試之從命令行運行測試用例with verbosity
這篇文章主要介紹了python自動化測試之從命令行運行測試用例with verbosity,是一個較為經(jīng)典的自動化測試實例,需要的朋友可以參考下2014-09-09
Python實戰(zhàn)之實現(xiàn)簡易的學(xué)生選課系統(tǒng)
又到了小伙伴們最喜歡的python實戰(zhàn)環(huán)節(jié),文中對實現(xiàn)簡易的學(xué)生選課系統(tǒng)作了非常詳細(xì)的代碼示例,對正在學(xué)習(xí)python的小伙伴們有很好的幫助,需要的朋友可以參考下2021-05-05
python+mysql實現(xiàn)學(xué)生信息查詢系統(tǒng)
這篇文章主要為大家詳細(xì)介紹了python+mysql實現(xiàn)學(xué)生信息查詢系統(tǒng),文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下2019-02-02

