基于selenium-java封裝chrome、firefox、phantomjs實現(xiàn)爬蟲
2017年一直以來在公司負責(zé)爬蟲項目相關(guān)工程,主要業(yè)務(wù)有預(yù)定、庫存、在開發(fā)中也遇到很多問題,隨手記錄一下,后續(xù)會持續(xù)更新。
chrome、firefox、phantomjs插件安裝和版本說明
基于selenium-java封裝chrome、firefox、phantomjs實現(xiàn)爬蟲
maven版本說明
<!-- +++|selenium|+++ -->
<dependency>
<groupId>org.seleniumhq.selenium</groupId>
<artifactId>selenium-java</artifactId>
<version>3.5.1</version>
</dependency>
<!-- +++|phantomjsdriver|+++ -->
<dependency>
<groupId>com.github.detro.ghostdriver</groupId>
<artifactId>phantomjsdriver</artifactId>
<version>1.1.0</version>
</dependency>
chrome插件配置
下載地址:chromedriver下載地址選擇本地系統(tǒng)對應(yīng)的chrome版本安裝,工程下面有一個 對應(yīng)的目錄是:Plugin/chromedriver_win32.zip,對應(yīng)chrmoe版本是Supports Chrome v60-62
直接運行項目中示例
public class ChromeTest {
public static void main(String[] args) {
WebDriver webDriver = null;
try {
webDriver = WebDriverUtil.createChromeWebDriver("D:\\webdrvier\\chromedriver.exe");//修改路徑
webDriver.get("https://www.baidu.com/");
System.out.println(webDriver.getTitle());
} catch (Exception e) {
e.printStackTrace();
} finally {
if (webDriver != null) {
webDriver.close();
}
}
}
}
chrome配置插件是最簡單的,linux上面只需要把插件換成linux版本即可
firefox
下載插件地址:geckodriver下載地址,選擇本地系統(tǒng)對應(yīng)的firefox版本安裝,工程下面有一個 對應(yīng)的目錄是:Plugin/geckodriver-v0.18.0-win64.zip,對應(yīng)firefox版本是Firefox Setup 50.0(64位)、其他版本沒有測試過
firefox下載地址、selenium-java版本和geckodriver版本更新迭代不一致,導(dǎo)致在搭建環(huán)境時很容易出現(xiàn)一系列問題。
直接運行項目中示例
public class FireFoxTest {
public static void main(String[] args) {
WebDriver webDriver = null;
try {
webDriver = WebDriverUtil.createFirefoxWebDriver("D:\\webdrvier\\Firefox\\geckodriver_18.exe");
webDriver.get("https://book.douban.com/tag/");
Set<String> tagSet = new HashSet<>();
//獲取豆瓣標(biāo)簽
List<WebElement> divWebElement = webDriver.findElements(By.cssSelector("#content > div > div.article > div:nth-child(2) > div"));
for (WebElement webElement : divWebElement) {
List<WebElement> aWebElement = webElement.findElements(By.cssSelector("a"));
for (WebElement element : aWebElement) {
tagSet.add(element.getText());
}
}
System.out.println(tagSet);
//點擊小說標(biāo)簽
WebElement webElement = webDriver.findElement(By.cssSelector("#content > div > div.article > div:nth-child(2) > div:nth-child(1) > table > tbody > tr:nth-child(1) > td:nth-child(1) > a"));
webElement.click();
System.out.println(webDriver.getTitle());
} catch (Exception e) {
e.printStackTrace();
} finally {
if (webDriver != null) {
webDriver.quit();
webDriver.close();
}
}
}
}
phantomjs
下載插件地址phantomjs插件地址1、phantomjs插件地址2、下載有些慢。phantomjs是沒有界面的,所以只需要下載插件即可。
直接運行項目中示例
public class PhantomjsTest {
public static void main(String[] args) {
WebDriver webDriver = null;
try {
webDriver = WebDriverUtil.createPhantomjsWebDriver("D:/webdrvier/phantomjs-1.9.8-windows/phantomjs.exe");
webDriver.get("https://www.baidu.com/");
System.out.println(webDriver.getTitle());
} catch (Exception e) {
e.printStackTrace();
} finally {
if (webDriver != null) {
webDriver.close();
}
}
}
}
到此這篇關(guān)于基于selenium-java封裝chrome、firefox、phantomjs實現(xiàn)爬蟲的文章就介紹到這了,更多相關(guān)selenium java封裝爬蟲內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
springboot發(fā)送request請求的方式小結(jié)
在Java中,發(fā)送HTTP請求是常見需求,hutool工具包和RestTemplate類是實現(xiàn)此功能的兩種主流方法,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2024-09-09
IDEA無法識別相關(guān)module模塊問題的解決過程
這篇文章主要給大家介紹了關(guān)于IDEA無法識別相關(guān)module模塊問題的解決過程,文中通過圖文介紹的非常詳細,對大家學(xué)習(xí)或者使用IDEA具有一定的參考借鑒價值,需要的朋友可以參考下2023-07-07
springboot 設(shè)置局域網(wǎng)訪問的實現(xiàn)步驟
Spring Boot是一個開源Java-based框架,用于創(chuàng)建獨立的、生產(chǎn)級別的Spring應(yīng)用,它旨在簡化Spring應(yīng)用的初始搭建及開發(fā)過程,通過提供各種自動配置的starter包,Spring Boot使得項目配置變得簡單快速,感興趣的朋友一起看看吧2024-02-02
完美解決Server?returned?HTTP?response?code:403?for?URL報錯問題
在調(diào)用某個接口的時候,突然就遇到了Server?returned?HTTP?response?code:?403?for?URL報錯這個報錯,導(dǎo)致獲取不到接口的數(shù)據(jù),下面小編給大家分享解決Server?returned?HTTP?response?code:403?for?URL報錯問題,感興趣的朋友一起看看吧2023-03-03
解決一個JSON反序列化問題的辦法(空字符串變?yōu)榭占?
在平時的業(yè)務(wù)開發(fā)中,經(jīng)常會有拿到一串序列化后的字符串要來反序列化,下面這篇文章主要給大家介紹了如何解決一個JSON反序列化問題的相關(guān)資料,空字符串變?yōu)榭占?需要的朋友可以參考下2024-03-03
SpringCloud負載均衡spring-cloud-starter-loadbalancer解讀
這篇文章主要介紹了SpringCloud負載均衡spring-cloud-starter-loadbalancer使用方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2025-03-03
Java?Web應(yīng)用小案例之實現(xiàn)用戶登錄功能全過程
在Java開發(fā)過程中實現(xiàn)用戶的注冊功能是最基本的,這篇文章主要給大家介紹了關(guān)于Java?Web應(yīng)用小案例之實現(xiàn)用戶登錄功能的相關(guān)資料,文中通過圖文介紹的非常詳細,需要的朋友可以參考下2024-01-01

