python爬取”頂點小說網“《純陽劍尊》的示例代碼
更新時間:2020年10月16日 09:29:39 作者:Gg、
這篇文章主要介紹了python爬取”頂點小說網“《純陽劍尊》的示例代碼,幫助大家更好的利用python 爬蟲爬取數據,感興趣的朋友可以了解下
爬取”頂點小說網“《純陽劍尊》
代碼
import requests
from bs4 import BeautifulSoup
# 反爬
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, \
like Gecko) Chrome/70.0.3538.102 Safari/537.36'
}
# 獲得請求
def open_url(url):
response = requests.get(url, headers=headers)
response.encoding = response.apparent_encoding
html = response.text
return html
# 提取標題
def get_title(url):
soup = BeautifulSoup(url, 'lxml')
title_tag = soup.find('dd')
title = '\n' + title_tag.h1.get_text() + '\n'
return title
# 提取文本
def get_texts(url):
soup2 = BeautifulSoup(url, 'lxml')
text_tags = soup2.find_all('dd', id="contents")
return text_tags
# 保存標題
def save_title(filename, title):
with open(filename, 'a+', encoding='utf-8') as file:
file.write(title)
# 保存文本
def save_text(filename, text):
with open(filename, 'a+', encoding='utf-8') as file:
file.write(text)
# 主程序函數
def main():
num = input('《純陽劍尊》你想要下載第幾章?(1-802)')
num = int(num)
number = 8184027 + num
url = 'https://www.23us.so/files/article/html/15/15905/' + str(number) + '.html'
filename = '純陽劍尊.txt'
r = open_url(url)
title = get_title(r)
tags = get_texts(r)
save_title(filename, title)
for text_tag in tags:
text = text_tag.get_text() + '\n'
save_text(filename, text)
print('第{}章已經下載完成!'.format(num))
if __name__ == '__main__':
main()
爬取結果:


以上就是python爬取”頂點小說網“《純陽劍尊》的示例代碼的詳細內容,更多關于python 爬取頂點小說網的資料請關注腳本之家其它相關文章!
相關文章
Python?JMESPath庫輕松操作JSON進行數據查詢方法實例
這篇文章主要為大家介紹了Python?JMESPath庫輕松操作JSON方法實例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2024-01-01
pytorch中的nn.Unfold()函數和fold()函數解讀
這篇文章主要介紹了pytorch中的nn.Unfold()函數和fold()函數用法,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-08-08

