關(guān)于Python?Selenium自動(dòng)化導(dǎo)出新版WOS(web?of?science)檢索結(jié)果的問題
selenium 介紹
selenium 是一個(gè) web 的自動(dòng)化測試工具,不少學(xué)習(xí)功能自動(dòng)化的同學(xué)開始首選 selenium ,因?yàn)樗啾?QTP 有諸多有點(diǎn):
- 免費(fèi),也不用再為破解 QTP 而大傷腦筋
- 小巧,對于不同的語言它只是一個(gè)包而已,而 QTP 需要下載安裝1個(gè)多 G 的程序。
- 這也是最重要的一點(diǎn),不管你以前更熟悉 C、 java、ruby、python、或都是 C# ,你都可以通過 selenium 完成自動(dòng)化測試,而 QTP 只支持 VBS
- 支持多平臺(tái):windows、linux、MAC ,支持多瀏覽器:ie、ff、safari、opera、chrome
- 支持分布式測試用例的執(zhí)行,可以把測試用例分布到不同的測試機(jī)器的執(zhí)行,相當(dāng)于分發(fā)機(jī)的功能。
官方文檔:
https://selenium-python.readthedocs.io/index.html
https://seleniumhq.github.io/selenium/docs/api/py/api.html
寫在前面
有的時(shí)候需要某個(gè)領(lǐng)域的所有論文數(shù)據(jù),此時(shí)web of science數(shù)據(jù)庫檢索的論文結(jié)果可能動(dòng)輒上萬甚至幾十萬,然而網(wǎng)站限制單次導(dǎo)出條數(shù)為1000(如果需要引文字段則僅500,僅導(dǎo)出為txt可包含引用詳細(xì)信息),需要導(dǎo)出幾十上百次,手動(dòng)做太費(fèi)神,因此寫一個(gè)爬蟲腳本自動(dòng)導(dǎo)出。
2022.1.6舊版web of science正式下線了,這里是對新版網(wǎng)站重新開發(fā)的自動(dòng)化導(dǎo)出代碼。
使用本代碼需要:
- 國內(nèi)大學(xué)學(xué)生賬號(hào)(登錄wos使用)
- 火狐瀏覽器
- geckodriver 0.24.0 (放在爬蟲代碼同一個(gè)文件夾下)
嚴(yán)格來說本代碼屬于半自動(dòng)化導(dǎo)出,考慮到開發(fā)效率等因素,有兩處在首次導(dǎo)出時(shí)需要手動(dòng)操作,后文細(xì)說。
遇到“selenium.common.exceptions.NoSuchElementException: Message: Unable to locate element: …”的報(bào)錯(cuò)首先排查網(wǎng)絡(luò)問題,可以把對應(yīng)代碼行之前的瀏覽器等待時(shí)間加長。
正文
代碼情況:
- 輸入:wos檢索結(jié)果網(wǎng)址、需要導(dǎo)出的條數(shù)、導(dǎo)出結(jié)果存儲(chǔ)路徑
- 輸出:導(dǎo)出文件(格式自選,一般txt/excel)
1、需要導(dǎo)入的包,以及測試入口。
其中url是在完成wos檢索之后的檢索頁面網(wǎng)址。

from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import time
import os
from selenium.webdriver.support.wait import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.by import By
if __name__=='__main__':
'''WOS“檢索結(jié)果”頁面的網(wǎng)址'''
url = 'https://www.webofscience.com/wos/woscc/summary/64c4e5ff-832d-476d-8112-51e908a600b1-1d5405d5/relevance/1'
startdownload(url,80195,'/Users/username/folder',False) # 主要函數(shù)
print('Done')
2、主要函數(shù)
兩次手動(dòng)操作:
- 首次打開wos必須登錄, 在學(xué)校統(tǒng)一身份認(rèn)證處需要手動(dòng)輸入信息并點(diǎn)擊登錄;
- 第一次導(dǎo)出時(shí)需要手動(dòng)修改文件處理方式為"保存文件", 并勾選"以后都采用相同動(dòng)作處理此類文件"
輸入?yún)?shù)見函數(shù)說明。
- 選擇導(dǎo)出格式處給出了excel和txt兩種,默認(rèn)excel,可自選。
def startdownload(url,record_num,SAVE_TO_DIRECTORY,record_format='excel',reverse=False):
'''url -> 檢索結(jié)果網(wǎng)址; \n
record_num -> 需要導(dǎo)出的記錄條數(shù)(檢索結(jié)果數(shù)); \n
SAVE_TO_DIRECTORY -> 記錄導(dǎo)出存儲(chǔ)路徑(文件夾);\n
record_format -> 導(dǎo)出記錄格式, default='excel';\n
reverse -> 是否設(shè)置檢索結(jié)果降序排列, default=False \n
----------------------------------------------------
tip1:首次打開wos必須登錄,在學(xué)校統(tǒng)一身份認(rèn)證處需要手動(dòng)輸入驗(yàn)證碼并點(diǎn)擊登錄;
tip2:第一次導(dǎo)出時(shí)需要手動(dòng)修改文件處理方式為"保存文件",并勾選"以后都采用相同動(dòng)作處理此類文件"
'''
# SAVE_TO_DIRECTORY = '/Users/chenzijing/Desktop/研/畢業(yè)論文/畢設(shè)研/代碼/論文數(shù)據(jù)'#/firefox'
fp = webdriver.FirefoxProfile()
fp.set_preference('browser.download.dir', SAVE_TO_DIRECTORY)
fp.set_preference("browser.download.folderList", 2)
fp.set_preference("browser.download.manager.showWhenStarting", False)
fp.set_preference("browser.helperApps.neverAsk.saveToDisk", "text/plain")
browser = webdriver.Firefox(executable_path=r'geckodriver',firefox_profile=fp)
browser.get(url)
time.sleep(3)
login(browser)
browser.get(url)
time.sleep(5)
'''獲取需要導(dǎo)出的文獻(xiàn)數(shù)量'''
# record_num = int(browser.find_element_by_css_selector('.brand-blue').text)
# 按時(shí)間降序排列
if reverse:
browser.find_element_by_css_selector('.top-toolbar wos-select:nth-child(1) button:nth-child(1) span:nth-child(2)').click()
browser.find_element_by_css_selector("div.wrap-mode:nth-child(2) span:nth-child(1)").click()
time.sleep(3)
# 叉掉彈窗
browser.find_element_by_css_selector('#onetrust-accept-btn-handler').click()
time.sleep(1)
browser.find_element_by_css_selector('#pendo-close-guide-7176fce7').click()
# 開始導(dǎo)出
start = 1 # 起始記錄
i = 0 # 導(dǎo)出記錄的數(shù)字框id隨導(dǎo)出次數(shù)遞增
while start<record_num:
browser.find_element_by_css_selector('button.cdx-but-md:nth-child(2) span:nth-child(1)').click() # 導(dǎo)出
# 選擇導(dǎo)出格式
if record_format=='excel':
browser.find_element_by_css_selector('#exportToExcelButton').click() # 選擇導(dǎo)出格式為excel
else:
browser.find_element_by_css_selector('#exportToFieldTaggedButton').click() # 選擇導(dǎo)出格式為txt
browser.find_element_by_css_selector('#radio3 label:nth-child(1) span:nth-child(1) span:nth-child(1)').click() # 選擇自定義記錄條數(shù)
send_key(browser,'#mat-input-%d'%i,start)#mat-input-2
send_key(browser,'#mat-input-%d'%(i+1),start+999)
browser.find_element_by_css_selector('.margin-top-5 button:nth-child(1)').click() # 更改導(dǎo)出字段
browser.find_element_by_css_selector('div.wrap-mode:nth-child(3) span:nth-child(1)').click() # 選擇所需字段(3完整)(4自定義)
browser.find_element_by_css_selector('div.flex-align:nth-child(3) button:nth-child(1)').click() # 點(diǎn)擊導(dǎo)出
time.sleep(10) # 等待下載完畢
# 導(dǎo)出文件按照包含的記錄編號(hào)重命名
rename_file(SAVE_TO_DIRECTORY,'record-'+str(start)+'-'+str(start+999))
start = start + 1000
i = i + 2
time.sleep(10)
browser.quit()3、主要函數(shù)中調(diào)用的其他函數(shù)
login函數(shù)中“學(xué)校的統(tǒng)一身份驗(yàn)證”部分可以選擇手動(dòng),或者根據(jù)學(xué)校網(wǎng)站自行修改。
其他無需修改。
def login(browser):
'''登錄wos'''
# 通過CHINA CERNET Federation登錄
browser.find_element_by_css_selector('.mat-select-arrow').click()
browser.find_element_by_css_selector('#mat-option-9 span:nth-child(1)').click()
browser.find_element_by_css_selector('button.wui-btn--login:nth-child(4) span:nth-child(1) span:nth-child(1)').click()
time.sleep(3)
login = browser.find_element_by_css_selector('#show')
login.send_keys('xxxx大學(xué)') # 改成你的學(xué)校名
time.sleep(0.5)
browser.find_element_by_css_selector('.dropdown-item strong:nth-child(1)').click()
browser.find_element_by_css_selector('#idpSkipButton').click()
time.sleep(1)
#! 跳轉(zhuǎn)到學(xué)校的統(tǒng)一身份驗(yàn)證(想自動(dòng)輸入賬號(hào)密碼就把下面兩行注釋解除,按照自己學(xué)校的網(wǎng)址修改一下css選擇器路徑)
# browser.find_element_by_css_selector('input#un').send_keys('你的學(xué)號(hào)') # 改成你的學(xué)號(hào)/賬號(hào)
# browser.find_element_by_css_selector('input#pd').send_keys('你的密碼') # 改成你的密碼
time.sleep(20) #! 手動(dòng)輸入賬號(hào)、密碼、驗(yàn)證碼,點(diǎn)登錄
def send_key(browser,path,value):
'''browser -> browser;\n
path -> css選擇器;\n
value -> 填入值
'''
markto=browser.find_element_by_css_selector(path)
markto.clear()
markto.send_keys(value)
def rename_file(SAVE_TO_DIRECTORY,name,record_format='excel'):
'''導(dǎo)出文件重命名 \n
SAVE_TO_DIRECTORY -> 導(dǎo)出記錄存儲(chǔ)位置(文件夾);\n
name -> 重命名為
'''
# files = list(filter(lambda x:'savedrecs' in x and len(x.split('.'))==2,os.listdir(SAVE_TO_DIRECTORY)))
while True:
files = list(filter(lambda x:'savedrecs' in x and len(x.split('.'))==2,os.listdir(SAVE_TO_DIRECTORY)))
if len(files)>0:
break
files = [os.path.join(SAVE_TO_DIRECTORY, f) for f in files] # add path to each file
files.sort(key=lambda x: os.path.getctime(x))
newest_file = files[-1]
# newest_file=os.path.join(SAVE_TO_DIRECTORY,'savedrecs.txt')
if record_format=='excel':
os.rename(newest_file, os.path.join(SAVE_TO_DIRECTORY, name+".xls"))
else:
os.rename(newest_file, os.path.join(SAVE_TO_DIRECTORY, name+".txt"))
4、導(dǎo)出結(jié)果
部分結(jié)果,展示導(dǎo)出形式。

到此這篇關(guān)于Python Selenium自動(dòng)化導(dǎo)出新版WOS(web of science)檢索結(jié)果的文章就介紹到這了,更多相關(guān)Python Selenium自動(dòng)化內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- selenium+python自動(dòng)化測試之使用webdriver操作瀏覽器的方法
- python基于Selenium的web自動(dòng)化框架
- Python結(jié)合Selenium簡單實(shí)現(xiàn)Web自動(dòng)化測試
- docker利用selenium+testng實(shí)現(xiàn)web自動(dòng)化的方法
- python+selenium的web自動(dòng)化上傳操作的實(shí)現(xiàn)
- selenium+unittest實(shí)現(xiàn)web自動(dòng)化的示例代碼
- Web自動(dòng)化之Selenium常用操作方法大全
相關(guān)文章
保姆級官方y(tǒng)olov7訓(xùn)練自己的數(shù)據(jù)集及項(xiàng)目部署詳解
最近使用了YOLOv7訓(xùn)練自己的數(shù)據(jù)集,接下來簡單記錄一下項(xiàng)目的部署,這篇文章主要給大家介紹了關(guān)于保姆級官方y(tǒng)olov7訓(xùn)練自己的數(shù)據(jù)集及項(xiàng)目部署的相關(guān)資料,需要的朋友可以參考下2022-08-08
python中判斷類型函數(shù)isinstance()示例詳解
isinstance()函數(shù)是Python的內(nèi)置函數(shù),用于判斷一個(gè)變量是否是某個(gè)類型或者是該類型的子類的實(shí)例,在Python中,所有類都繼承自object,所以任何實(shí)例都會(huì)是object的實(shí)例,本文給大家介紹python中判斷類型函數(shù)isinstance(),感興趣的朋友一起看看吧2024-10-10
python使用clear方法清除字典內(nèi)全部數(shù)據(jù)實(shí)例
這篇文章主要介紹了python使用clear方法清除字典內(nèi)全部數(shù)據(jù),實(shí)例分析了Python中clear方法清空字典內(nèi)數(shù)據(jù)的相關(guān)技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-07-07
在python中計(jì)算ssim的方法(與Matlab結(jié)果一致)
這篇文章主要介紹了在python中計(jì)算ssim的方法(與Matlab結(jié)果一致),本文通過實(shí)例代碼給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-12-12
python實(shí)戰(zhàn)之PyQt5實(shí)現(xiàn)漫畫臉
本文詳細(xì)講解了python實(shí)戰(zhàn)之PyQt5實(shí)現(xiàn)漫畫臉的方法,文中通過示例代碼介紹的非常詳細(xì)。對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-12-12
Python爬蟲庫BeautifulSoup的介紹與簡單使用實(shí)例
BeautifulSoup是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫,本文為大家介紹下Python爬蟲庫BeautifulSoup的介紹與簡單使用實(shí)例其中包括了,BeautifulSoup解析HTML,BeautifulSoup獲取內(nèi)容,BeautifulSoup節(jié)點(diǎn)操作,BeautifulSoup獲取CSS屬性等實(shí)例2020-01-01

