Python selenium爬取微博數(shù)據(jù)代碼實例
爬取某人的微博數(shù)據(jù),把某人所有時間段的微博數(shù)據(jù)都爬下來。
具體思路:
創(chuàng)建driver-----get網(wǎng)頁----找到并提取信息-----保存csv----翻頁----get網(wǎng)頁(開始循環(huán))----...----沒有“下一頁”就結(jié)束,
用了while True,沒用自我調(diào)用函數(shù)
嘟大海的微博:https://weibo.com/u/1623915527
辦公室小野的微博:https://weibo.com/bgsxy
代碼如下
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
import csv
import os
import time
#只有這2個參數(shù)設(shè)置,想爬誰的微博數(shù)據(jù)就在這里改地址和目標(biāo)csv名稱就行
weibo_url = 'https://weibo.com/bgsxy?profile_ftype=1&is_all=1#_0'
csv_name = 'bgsxy_allweibo.csv'
def start_chrome():
print('開始創(chuàng)建瀏覽器')
driver = webdriver.Chrome(executable_path='C:/Users/lori/Desktop/python52project/chromedriver_win32/chromedriver.exe')
driver.start_client()
return driver
def get_web(url): #獲取網(wǎng)頁,并下拉到最底部
print('開始打開指定網(wǎng)頁')
driver.get(url)
time.sleep(7)
scoll_down()
time.sleep(5)
def scoll_down(): # 滾輪下拉到最底部
html_page = driver.find_element_by_tag_name('html')
for i in range(7):
print(i)
html_page.send_keys(Keys.END)
time.sleep(1)
def get_data():
print('開始查找并提取數(shù)據(jù)')
card_sel = 'div.WB_cardwrap.WB_feed_type'
time_sel = 'a.S_txt2[node-type="feed_list_item_date"]'
source_sel = 'a.S_txt2[suda-uatrack="key=profile_feed&value=pubfrom_guest"]'
content_sel = 'div.WB_text.W_f14'
interact_sel = 'span.line.S_line1>span>em:nth-child(2)'
cards = driver.find_elements_by_css_selector(card_sel)
info_list = []
for card in cards:
time = card.find_elements_by_css_selector(time_sel)[0].text #雖然有可能在一個card中有2個time元素,我們?nèi)〉谝粋€就對
if card.find_elements_by_css_selector(source_sel):
source = card.find_elements_by_css_selector(source_sel)[0].text
else:
source = ''
content = card.find_elements_by_css_selector(content_sel)[0].text
link = card.find_elements_by_css_selector(time_sel)[0].get_attribute('href')
trans = card.find_elements_by_css_selector(interact_sel)[1].text
comment = card.find_elements_by_css_selector(interact_sel)[2].text
like = card.find_elements_by_css_selector(interact_sel)[3].text
info_list.append([time,source,content,link,trans,comment,like])
return info_list
def save_csv(info_list,csv_name):
csv_path = './' + csv_name
print('開始寫入csv文件')
if os.path.exists(csv_path):
with open(csv_path,'a',newline='',encoding='utf-8-sig') as f: #newline=''避免空行;encoding='utf-8-sig'比utf8牛,保存中文沒問題
writer = csv.writer(f)
writer.writerows(info_list)
else:
with open(csv_path,'w+',newline='',encoding='utf-8-sig') as f:
writer = csv.writer(f)
writer.writerow(['發(fā)布時間','來源','內(nèi)容','鏈接','轉(zhuǎn)發(fā)數(shù)','評論數(shù)','點(diǎn)贊數(shù)'])
writer.writerows(info_list)
time.sleep(5)
def next_page_url():
next_page_sel = 'a.page.next'
next_page_ele = driver.find_elements_by_css_selector(next_page_sel)
if next_page_ele:
return next_page_ele[0].get_attribute('href')
else:
return None
driver = start_chrome()
input('請在chrome中登錄weibo.com') # 暫停程序,手動登錄weibo.com
while True:
get_web(weibo_url)
info_list = get_data()
save_csv(info_list,csv_name)
if next_page_url():
weibo_url = next_page_url()
else:
print('爬取結(jié)束')
break
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
解決Python 使用h5py加載文件,看不到keys()的問題
今天小編就為大家分享一篇解決Python 使用h5py加載文件,看不到keys()的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-02-02
Python如何實現(xiàn)后端自定義認(rèn)證并實現(xiàn)多條件登陸
這篇文章主要介紹了Python如何實現(xiàn)后端自定義認(rèn)證并實現(xiàn)多條件登陸,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-06-06
對python3 sort sorted 函數(shù)的應(yīng)用詳解
今天小編就為大家分享一篇對python3 sort sorted 函數(shù)的應(yīng)用詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-06-06
對Python 3.2 迭代器的next函數(shù)實例講解
今天小編就為大家分享一篇對Python 3.2 迭代器的next函數(shù)實例講解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-10-10
python調(diào)用golang中函數(shù)方法
由于simhash方法有多種實現(xiàn)方式,現(xiàn)python中simhash方法與golang中的不一樣,需要兩者代碼生成結(jié)果保持一致,故采用python中的代碼調(diào)用golang編譯的so文件來實現(xiàn),需要的朋友可以參考下2024-02-02
python實現(xiàn)nao機(jī)器人手臂動作控制
這篇文章主要為大家詳細(xì)介紹了python實現(xiàn)nao機(jī)器人手臂動作控制,具有一定的參考價值,感興趣的小伙伴們可以參考一下2019-04-04

