Python3實(shí)現(xiàn)抓取javascript動(dòng)態(tài)生成的html網(wǎng)頁(yè)功能示例
本文實(shí)例講述了Python3實(shí)現(xiàn)抓取javascript動(dòng)態(tài)生成的html網(wǎng)頁(yè)功能。分享給大家供大家參考,具體如下:
用urllib等抓取網(wǎng)頁(yè),只能讀取網(wǎng)頁(yè)的靜態(tài)源文件,而抓不到由javascript生成的內(nèi)容。
究其原因,是因?yàn)閡rllib是瞬時(shí)抓取,它不會(huì)等javascript的加載延遲,所以頁(yè)面中由javascript生成的內(nèi)容,urllib讀取不到。
那由javascript生成的內(nèi)容就真的沒(méi)有辦法讀取了嗎?非也!
這里要介紹一個(gè)python庫(kù):selenium,本文使用的版本是 2.44.0
先安裝:
pip install -U selenium
下面用三個(gè)例子來(lái)說(shuō)明其用法:
【例0】
打開(kāi)一個(gè)Firefox瀏覽器
載入所給url地址的頁(yè)面
from selenium import webdriver
browser = webdriver.Firefox()
browser.get('http://www.baidu.com/')
【例1】
打開(kāi)一個(gè)Firefox瀏覽器
載入百度主頁(yè)
搜索 “seleniumhq”
關(guān)閉瀏覽器
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
browser = webdriver.Firefox()
browser.get('http://www.baidu.com')
assert '百度' in browser.title
elem = browser.find_element_by_name('p') # Find the search box
elem.send_keys('seleniumhq' + Keys.RETURN) # 模擬按鍵
browser.quit()
【例2】
Selenium WebDriver 常用于網(wǎng)絡(luò)程序的測(cè)試。 下面是一個(gè)使用Python標(biāo)準(zhǔn)庫(kù) unittest 的例子:
import unittest
class BaiduTestCase(unittest.TestCase):
def setUp(self):
self.browser = webdriver.Firefox()
self.addCleanup(self.browser.quit)
def testPageTitle(self):
self.browser.get('http://www.baidu.com')
self.assertIn('百度', self.browser.title)
if __name__ == '__main__':
unittest.main(verbosity=2)
更多關(guān)于Python相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《Python進(jìn)程與線程操作技巧總結(jié)》、《Python Socket編程技巧總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門(mén)與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。
相關(guān)文章
Python深度學(xué)習(xí)實(shí)戰(zhàn)PyQt5窗口切換的堆疊布局示例詳解
本文以堆疊窗口控件為例,詳細(xì)介紹堆疊布局的界面設(shè)計(jì)和程序?qū)崿F(xiàn)過(guò)程,通過(guò)案例帶小白創(chuàng)建一個(gè)典型的堆疊布局多窗口切換程序2021-10-10
使用jupyter?notebook保存python代碼為.py格式問(wèn)題
這篇文章主要介紹了使用jupyter?notebook保存python代碼為.py格式問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-07-07
解決pandas無(wú)法在pycharm中使用plot()方法顯示圖像的問(wèn)題
今天小編就為大家分享一篇解決pandas無(wú)法在pycharm中使用plot()方法顯示圖像的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-05-05
python中如何用time方法生成當(dāng)前時(shí)間年月日時(shí)分秒
這篇文章主要給大家介紹了關(guān)于python中如何用time方法生成當(dāng)前時(shí)間年月日時(shí)分秒的相關(guān)資料,在Python中與時(shí)間處理有關(guān)的模塊就包括:time,datetime以及calendar,Time模塊用以取得系統(tǒng)時(shí)間相關(guān)的信息和時(shí)間的格式化等操作,需要的朋友可以參考下2023-08-08
python通過(guò)paramiko復(fù)制遠(yuǎn)程文件及文件目錄到本地
這篇文章主要為大家詳細(xì)介紹了python通過(guò)paramiko復(fù)制遠(yuǎn)程文件及文件目錄到本地,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2019-04-04
Python?中將數(shù)字轉(zhuǎn)換為字母的方法
本文詳細(xì)介紹了在 Python 中將數(shù)字轉(zhuǎn)換為字母的幾種常用方法,我們介紹了使用 chr() 函數(shù)、string 模塊和 ord() 函數(shù)等方法,并提供了示例代碼幫助你理解和應(yīng)用這些方法,感興趣的朋友跟隨小編一起看看吧2023-06-06
Python?numpy生成矩陣基礎(chǔ)用法實(shí)例代碼
矩陣是matrix類型的對(duì)象,該類繼承自numpy.ndarray,任何針對(duì)ndarray的操作,對(duì)矩陣對(duì)象同樣有效,下面這篇文章主要給大家介紹了關(guān)于Python?numpy生成矩陣基礎(chǔ)的相關(guān)資料,需要的朋友可以參考下2022-08-08

