Python使用selenium + headless chrome獲取網頁內容的方法示例

更新時間：2019年10月16日 11:43:00 作者：JouyPub

這篇文章主要介紹了Python使用selenium + headless chrome獲取網頁內容的方法示例，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧

使用python寫爬蟲時，優(yōu)選selenium，由于PhantomJS因內部原因已經停止更新，最新版的selenium已經使用headless chrome替換掉了PhantomJS，所以建議將selenium更新到最新版，使用selenium + headless chrome

準備工作：

安裝chrome、chrome driver、selenium

一、安裝chrome

配置yum下載源，在目錄/etc/yum.repos.d/下新建文件google-chrome.repo

> cd /ect/yum.repos.d/
> vim google-chrome.repo

編輯google-chrome.repo，內容如下，保存退出

[google-chrome]
name=google-chrome
baseurl=http://dl.google.com/linux/chrome/rpm/stable/$basearch
enabled=1
gpgcheck=1
gpgkey=https://dl-ssl.google.com/linux/linux_signing_key.pub

安裝google chrome瀏覽器：

> yum -y install google-chrome-stable

PS: Google官方源可能在中國無法使用，導致安裝失敗或者在國內無法更新，可以添加以下參數來安裝：

> yum -y install google-chrome-stable --nogpgcheck

這樣，google chrome即可安裝成功。

二、安裝chrome driver

查看上述安裝的chrome版本，根據版本選擇對應的chrome driver下載，下載之后放到/usr/local/bin目錄

三、安裝selenium

> pip install selenium

上述準備工作完成后，就可以開始寫代碼了

from selenium.webdriver import Chrome
from selenium.webdriver.chrome.options import Options


options = Options()
options.add_argument('--headless')
options.add_argument('--disable-gpu')
options.add_argument('lang=zh_CN.UTF-8')

# 在linux上需要添加一下兩個參數
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')

browser = Chrome(chrome_options=options)
browser.set_page_load_timeout(30)
browser.set_script_timeout(30)
browser.get(url)

# 獲取返回內容
print browser.page_source

# 查找元素
print browser.find_element_by_tag_name('pre').text

備注：如果訪問一些詳情頁有cookie驗證，可以先訪問主頁，然后再訪問詳情頁，webdriver會自動攜帶cookie

以上就是本文的全部內容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

pytorch dataloader 取batch_size時候出現bug的解決方式
今天小編就為大家分享一篇pytorch dataloader 取batch_size時候出現bug的解決方式，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-02-02
python2.7到3.x遷移指南
由于PYTHON2.7即將停止支持，小編給大家分享了一篇關python2.7到3.x遷移指南內容，希望對各位有用。
2018-02-02
Django 實現圖片上傳和下載功能
這篇文章主要介紹了Django 如何實現圖片上傳和下載功能，幫助大家更好的理解和使用django框架，感興趣的朋友可以了解下
2020-12-12
Python繪制時鐘的示例代碼
這篇文章主要介紹了如何利用Python和Pygame庫繪制一個簡單的時鐘效果。文中的示例代碼講解詳細，對我們學習Python有一定幫助，需要的可以參考一下
2022-02-02
Python+Django實現接口測試工具的示例代嗎
本文主要介紹了Python+Django實現接口測試工具，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2023-07-07
詳解如何使用Python實現刪除重復文件
這篇文章主要為大家詳細介紹了如何利用Python實現刪除重復文件功能，文中的示例代碼講解詳細，對我們學習Python有一定幫助，需要的可以參考一下
2022-10-10
python re模塊的高級用法詳解
這篇文章較詳細的給大家介紹了python re模塊的高級用法，本文給大家介紹的非常詳細，具有一定的參考借鑒價值，需要的朋友參考下吧
2018-06-06
python?math模塊使用方法介紹
math庫是python的內置數學類函數庫，支持整數和浮點數運算，math模塊下的函數，返回值均為浮點數，除非有說明，math模塊提供類似C語言標準定義的數學函數
2022-08-08
python接口自動化測試數據和代碼分離解析
代碼的可維護性除了代碼冗余之外還有就是數據盡量不要和代碼摻雜在一起，因為閱讀起來會非常的凌亂；數據分離能更好的增加代碼可讀性和可維護性，也能更好的二次修改使用
2021-09-09
用Python從零實現貝葉斯分類器的機器學習的教程
這篇文章主要介紹了用Python從零實現貝葉斯分類器的教程,樸素貝葉斯算法屬于機器學習中的基礎內容、實用而高效，本文詳細展示了用Python語言實現的步驟，需要的朋友可以參考下
2015-03-03