python爬取網(wǎng)易云音樂(lè)排行榜實(shí)例代碼
網(wǎng)易云音樂(lè)排行榜歌曲及評(píng)論爬取
主要注意問(wèn)題:selenium 模擬登錄、iframe標(biāo)簽定位、頁(yè)面元素提取。
在利用selenium定位元素并取值的過(guò)程中遇到問(wèn)題。比如xpath正確但無(wú)法定位,在進(jìn)行翻頁(yè)提取評(píng)論的過(guò)程中,利用selenium似乎不能提取不同頁(yè)的數(shù)據(jù),比如,明明定位的第三頁(yè)的評(píng)論數(shù)據(jù),而只能返回第一頁(yè)的評(píng)論數(shù)據(jù)。
一、模擬登錄
selenium 定位元素模擬人的操作進(jìn)行登錄,直接上代碼:
//模擬登錄
import pandas as pd
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.chrome.options import Options
from selenium.webdriver import ActionChains
from lxml import etree
import time
from datetime import datetime,timedelta
wyy_url = 'https://music.163.com/'
driver = webdriver.Chrome()
driver.get(wyy_url)
driver.maximize_window() #全屏
time.sleep(2)
driver.find_element_by_xpath("http://a[@class = 'link s-fc3']").click()
time.sleep(2)
driver.find_element_by_xpath("http://a[@class='u-btn2 other']").click() #選擇其他方式登錄
#賬號(hào)、密碼登錄
driver.find_element_by_xpath("http://input[@type='checkbox']").click() #同意條款
time.sleep(0.5)
driver.find_element_by_xpath("http://a[@class='u-btn2 u-btn2-2']").click()
#選擇手機(jī)號(hào)密碼登錄
driver.find_element_by_xpath("http://a[@class='f-fr s-fc3 pwdlogin']").click()
time.sleep(1)
driver.find_element_by_id("p").send_keys('xxx') #這里輸入你的id
driver.find_element_by_id("pw").send_keys('xxx') #這里輸入密碼
time.sleep(1)
#點(diǎn)擊登錄
driver.find_element_by_xpath("http://a[@class='j-primary u-btn2 u-btn2-2']").click()
time.sleep(1)
二、排行榜數(shù)據(jù)爬取
當(dāng)時(shí)嘗試直接用selenium定位標(biāo)簽取值,并沒(méi)有返回有效結(jié)果。在后面爬取評(píng)論時(shí),也遇到此問(wèn)題。于是先獲取頁(yè)面內(nèi)容在進(jìn)行分析。
// 排行榜
base_url = "https://music.163.com/#/discover/toplist?id="
bang_typical = {'飆升榜':19723756,'新歌榜':3779629,'原創(chuàng)榜':2884035,'熱歌榜':3778678}
#選擇榜單
bang = input('請(qǐng)輸入榜單:')
#構(gòu)造榜單對(duì)應(yīng)的鏈接
url = base_url + str(bang_typical[bang])
print('開(kāi)始分析:-%s' %(bang))
#進(jìn)入榜單
driver.get(url)
time.sleep(3)
#iframe標(biāo)簽定位,必要的,否則無(wú)法定位其他標(biāo)簽
_iframe = driver.find_element_by_xpath("http://iframe[@id='g_iframe']") # 找到iframe標(biāo)簽
driver.switch_to.frame(_iframe)
time.sleep(1)
page_text = driver.execute_script("return document.documentElement.outerHTML")
#獲取頁(yè)面
html = etree.HTML(page_text)
trs = html.xpath('//tbody/tr')
rank_list = []
title_list = []
span_list = []
singer_list = []
for tr in trs:
rank = tr.xpath(".//span[@class='num']/text()")[0] #注意xpath獲取到的是列表,需提取其元素
title = tr.xpath(".//b/@title")[0]
span = tr.xpath(".//td[@class=' s-fc3']/span[@class='u-dur ']/text()")[0]
singer = tr.xpath(".//div[@class='text']/span/@title")[0]
rank_list.append(rank)
title_list.append(title)
span_list.append(span)
singer_list.append(singer)
#輸出榜單結(jié)果
df_bang = pd.DataFrame({'排名':rank_list,'歌名':title_list,'時(shí)長(zhǎng)':span_list,'歌手':singer_list})
三、排行榜評(píng)論獲取
主要是評(píng)論日期的格式轉(zhuǎn)換,評(píng)論內(nèi)容的清洗
// 評(píng)論
# 日期清洗函數(shù)
def change_time(time):
now = datetime.now()
day_y = datetime.strftime(now - timedelta(1),'%Y-%m-%d') #計(jì)算昨天
day = now.strftime('%Y-%m-%d')
year = now.strftime('%Y')
if '年' in time: #非今年
new_time = time.replace('年','-').replace('月','-').replace('日','')
elif '昨天' in time:
new_time = time.replace('昨天',day_y+' ')
elif '前' in time: #前天
minut = int(time[:time.index('分')])
new_time = (now + timedelta(minutes=-minut)).strftime('%Y-%m-%d %H:%M')
elif len(time) == 5: #今天
new_time = day + ' ' + time
else: #最近 **月**日 **:**
y = '2021-'
time = time.replace('月','-').replace('日','')
new_time = y + time
return new_time
#評(píng)論清洗
def change_review(r):
if ':' in r:
r_ = r.split(':')[1]
else:
r_ = r
return r_
#評(píng)論點(diǎn)贊
def change_likes(l):
if l != []:
l_ = int(l.split('(')[1].split(')')[0])
else:
l_ = 0
return l_
#拉動(dòng)滾動(dòng)條至翻頁(yè)按鈕處
driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
#獲取頁(yè)面信息
num = input('請(qǐng)輸入需要爬取的頁(yè)面總數(shù):') #想要爬取評(píng)論的頁(yè)數(shù),
#這里的思路是先通過(guò)翻頁(yè)將獲取到的所有頁(yè)面的所有內(nèi)容存至列表,再對(duì)列表遍歷。
#因?yàn)楫?dāng)時(shí)直接用selenium 定位返回結(jié)果不對(duì),當(dāng)然你們也可以用selenium直接試試。
html_list=[]
for i in range(int(num)):
page_text = driver.execute_script("return document.documentElement.outerHTML")
html = etree.HTML(page_text)#獲取頁(yè)面
html_list.append(html)
#翻頁(yè)
driver.find_elements_by_xpath("http://div[contains(@class,'u-page')]/a")[-1].click()
time.sleep(4)
WebDriverWait(driver, 300, 0.1).until(EC.presence_of_element_located((By.XPATH, "http://div[@class='cmmts j-flag']")))
print(f'第{i+1}頁(yè)爬取成功')
rev_list=[] #所有評(píng)論的列表
dat_list=[] #對(duì)應(yīng)日期的列表
for review_page in html_list:
raw_reviews = review_page.xpath("http://div[@class='cmmts j-flag']//div[@class='cnt f-brk']/text()")#提取頁(yè)面所有評(píng)論
raw_reviews_ = [i for i in raw_reviews if ":" in i] #保證長(zhǎng)度一致
rv_date = review_page.xpath("http://div[@class='cmmts j-flag']//div[@class='cntwrap']/div[@class='rp']/div[@class='time s-fc4']/text()")
review_list = [change_review(r) for r in raw_reviews_]
date_list = [change_time(d) for d in rv_date]
rev_list.extend(review_list)
dat_list.extend(date_list)
print('分析完成')
driver.quit()
運(yùn)行結(jié)果:
1、排行榜:

2、評(píng)論:


總結(jié)
哈哈,用了快兩年的csdn, 光顧著白嫖文章。這也是我的第一個(gè)帖子,也沒(méi)啥經(jīng)驗(yàn),有啥問(wèn)題的,還請(qǐng)各位指正!
到此這篇關(guān)于python爬取網(wǎng)易云音樂(lè)排行榜數(shù)據(jù)代碼的文章就介紹到這了,更多相關(guān)python爬取網(wǎng)易云內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
selenium+headless chrome爬蟲(chóng)的實(shí)現(xiàn)示例
這篇文章主要介紹了selenium+headless chrome爬蟲(chóng)的實(shí)現(xiàn)示例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-01-01
PyTorch學(xué)習(xí)筆記之回歸實(shí)戰(zhàn)
這篇文章主要介紹了PyTorch學(xué)習(xí)筆記之回歸實(shí)戰(zhàn),小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2018-05-05
Python實(shí)現(xiàn)基于TCP UDP協(xié)議的IPv4 IPv6模式客戶端和服務(wù)端功能示例
這篇文章主要介紹了Python實(shí)現(xiàn)基于TCP UDP協(xié)議的IPv4 IPv6模式客戶端和服務(wù)端功能,結(jié)合實(shí)例形式分析了Python基于TCP UDP協(xié)議的IPv4 IPv6模式客戶端和服務(wù)端數(shù)據(jù)發(fā)送與接收相關(guān)操作技巧,需要的朋友可以參考下2018-03-03
在Pytorch中簡(jiǎn)單使用tensorboard
今天給大家?guī)?lái)的是關(guān)于Python的相關(guān)知識(shí),文章圍繞著Pytorch使用tensorboard展開(kāi),文中有非常詳細(xì)的介紹及代碼示例,需要的朋友可以參考下2021-06-06
Flask實(shí)現(xiàn)swagger在線文檔與接口測(cè)試流程詳解
Flask是一個(gè)使用Python編寫(xiě)的輕量級(jí)Web應(yīng)用框架。其WSGI工具箱采用 Werkzeug,模板引擎則使用Jinja2。Flask使用 BSD 授權(quán)。Flask也被稱為“microframework”,因?yàn)樗褂煤?jiǎn)單的核心,用 extension 增加其他功能,本篇帶你用Flask實(shí)現(xiàn)swagger在線文檔與接口測(cè)試2022-07-07
利用python3篩選excel中特定的行(行值滿足某個(gè)條件/行值屬于某個(gè)集合)
這篇文章主要給大家介紹了關(guān)于利用python3篩選excel中特定的行(行值滿足某個(gè)條件/行值屬于某個(gè)集合)的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-09-09
CentOS安裝pillow報(bào)錯(cuò)的解決方法
本文給大家分享的是作者在centos下為Python安裝pillow的時(shí)候報(bào)錯(cuò)的解決方法,希望對(duì)大家能夠有所幫助。2016-01-01
Python3使用Matplotlib 繪制精美的數(shù)學(xué)函數(shù)圖形
這篇文章主要介紹了Python3使用Matplotlib 繪制精美的數(shù)學(xué)函數(shù)圖形,非常不錯(cuò),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2019-04-04
Python內(nèi)置函數(shù)—vars的具體使用方法
本篇文章主要介紹了Python內(nèi)置函數(shù)—vars的具體使用方法,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2017-12-12

