python 自動(dòng)提交和抓取網(wǎng)頁

更新時(shí)間：2009年07月13日 00:36:49 作者：

最近在研究怎么樣做個(gè)自動(dòng)發(fā)帖器，要完成這個(gè)工具難度蠻大的，驗(yàn)證碼就是一個(gè)大問題(還沒有想到解決辦法哦，不管了），先要解決的是如何抓取，分析和提交頁面的問題。

下面是用python寫的，使用lxml來做html分析，從網(wǎng)上看到的，說是分析速度最快的哦，不過沒有驗(yàn)證過。好了，上代碼。

 
import urllib 
import urllib2 
import urlparse 
import lxml.html 
def url_with_query(url, values): 
parts = urlparse.urlparse(url) 
rest, (query, frag) = parts[:-2], parts[-2:] 
return urlparse.urlunparse(rest + (urllib.urlencode(values), None)) 
def make_open_http(): 
opener = urllib2.build_opener(urllib2.HTTPCookieProcessor()) 
opener.addheaders = [] # pretend we're a human -- don't do this 
def open_http(method, url, values={}): 
if method == "POST": 
return opener.open(url, urllib.urlencode(values)) 
else: 
return opener.open(url_with_query(url, values)) 
return open_http 
open_http = make_open_http() 
tree = lxml.html.fromstring(open_http("GET", "http://www.dhdzp.com").read()) 
form = tree.forms[0] 
form.fields["q"] = "eplussoft" 
form.action="http://www.dhdzp.com/search" 
response = lxml.html.submit_form(form,open_http=open_http) 
html = response.read() 
doc = lxml.html.fromstring(html) 
lxml.html.open_in_browser(doc) 

恩，驗(yàn)證碼是個(gè)大問題。還有今天看了一些百度貼吧上的東西，更是壞了心情，它的驗(yàn)證碼是用ajax取的圖片，這就更加麻煩了。不過好像現(xiàn)在大多數(shù)的論壇和博客的驗(yàn)證碼都是這樣的了。這樣第一次抓取下來的頁面就不會包含有驗(yàn)證碼圖片了，更不要說分析驗(yàn)證碼圖片了。要解決的問題還是很多的。。。

您可能感興趣的文章:

相關(guān)文章

利用?Python?把小伙伴制作成表情包
這篇文章主要介紹了如何利用?Python把你的小伙伴變成表情包，在日常生活中，我們經(jīng)常會存取一些朋友們的丑照，在這個(gè)項(xiàng)目中，我們以萌萌噠的熊貓頭作為背景，然后試著在背景圖上加入朋友們的照片，下面詳細(xì)內(nèi)容需要的小伙伴可以參考一下
2022-02-02
如何利用Python快速繪制海報(bào)級別地圖詳解
Python之所以這么流行,是因?yàn)樗粌H能夠應(yīng)用于科技領(lǐng)域,還能用來做許多其他學(xué)科的研究工具,最常見的便是繪制地圖,這篇文章主要給大家介紹了關(guān)于如何利用Python快速繪制海報(bào)級別地圖的相關(guān)資料,需要的朋友可以參考下
2021-09-09
Python專用方法與迭代機(jī)制實(shí)例分析
這篇文章主要介紹了Python專用方法與迭代機(jī)制,包括類的私有方法、專有方法、模塊私有對象、迭代__iter__()方法的對象等,需要的朋友可以參考下
2014-09-09
圖鄰接矩陣可視化解析
這篇文章主要介紹了基于圖鄰接矩陣可視化解析，具有很好的參考價(jià)值，希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教
2022-12-12
Python 數(shù)據(jù)結(jié)構(gòu)之旋轉(zhuǎn)鏈表
這篇文章主要介紹了Python 數(shù)據(jù)結(jié)構(gòu)之旋轉(zhuǎn)鏈表的相關(guān)資料,需要的朋友可以參考下
2017-02-02
python利用Excel讀取和存儲測試數(shù)據(jù)完成接口自動(dòng)化教程
這篇文章主要介紹了python利用Excel讀取和存儲測試數(shù)據(jù)完成接口自動(dòng)化教程，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-04-04
Python調(diào)用shell命令常用方法(4種)
這篇文章主要介紹了Python調(diào)用shell命令常用方法，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2020-05-05
python抓取網(wǎng)頁中鏈接的靜態(tài)圖片
這篇文章主要為大家詳細(xì)介紹了python抓取網(wǎng)頁中鏈接的靜態(tài)圖片，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2018-01-01
詳解Python的Twisted框架中reactor事件管理器的用法
這篇文章主要介紹了詳解Python的Twisted框架中reactor事件管理器的用法,Twisted是一款高人氣的異步Python開發(fā)框架,需要的朋友可以參考下
2016-05-05
Pytorch訓(xùn)練網(wǎng)絡(luò)過程中l(wèi)oss突然變?yōu)?的解決方案
這篇文章主要介紹了Pytorch訓(xùn)練網(wǎng)絡(luò)過程中l(wèi)oss突然變?yōu)?的解決方案，具有很好的參考價(jià)值，希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教
2021-05-05