基于Python實現網頁文章轉PDF文檔

更新時間：2022年05月25日 16:02:18 作者：嗨學編程

有時候看到一篇好的文章，想去保存下來，傳統(tǒng)方式一般是收藏書簽、復制粘貼到文檔或者直接復制鏈接保存，但這也太麻煩了。本文將用Python語言實現將網上的文章轉存為PDF文檔，保存電腦上慢慢看

我們有時候看到一篇好的文章，想去保存下來，傳統(tǒng)方式一般是收藏書簽、復制粘貼到文檔或者直接復制鏈接保存，但這樣一次兩次還好，數量多了，比較麻煩不說，還可能不好找~

這個時候，Python的作用就來了，直接抓下來導出為PDF，直接把整個網站的內容都導下來都行~

話不多說，我們直接上代碼！

import requests
import parsel
import pdfkit
import os
import re


html_str = """
<!doctype html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Document</title>
</head>
<body>
{article}
</body>
</html>
"""


def change_title(title):
    """
    替換標題中的特殊字符
    :param title: 傳入文章標題
    :return: 返回一個替換掉特殊字符的標題
    """
    """
    使用re.compile()將正則表達式的字符串形式編譯為一個對象，通過該對象提供的一些列方法對文本
    進行匹配查找
    re.sub() 第一個參數對應的正則表達式，第二個參數為要替換成的字符串， 第三個參數為源字符串
    """
    pattern = re.compile(r"[\/\\\:\*\?\"\<\>\|]")  # '/ \ : * ? " < > |'
    new_title = re.sub(pattern, "_", title)  # 替換為下劃線
    return new_title


for page in range(1, 11):
    """
    發(fā)送請求的url地址，唯一資源定位符
    headers: 請求頭 把python偽裝成瀏覽器對服務器發(fā)送請求， 然后服務器會給我們返回一個響應數據
        請求頭所加的參數都是可以在開發(fā)者工具中的headers里面的request headers中找到的
        比如 user-agent：代表著瀏覽器的信息
            cookies：用戶的信息 常用于檢測是否有登陸賬號
            host：域名
            referer：常說的防盜鏈，告訴服務器是從哪個網頁跳轉過來的
    請求方式：可以通過開發(fā)者工具中headers里面的數據看到是什么樣的請求方式
        get請求： 是可以直接從服務器上面獲取數據
        post請求：需要向服務器發(fā)送一個數據 比如說(搜索/登陸)
    response：響應對象
    狀態(tài)碼： 200表示請求成功 300：重定向 跳轉 400：通常是url網址不對 500 一般是服務器問題
    獲取網頁文本數據 response.text 獲取網頁json字典數據 response.json() 獲取網頁二進制數據 response.content
    """
    url = 'https://****/qdPython/article/list/{page}'
    headers = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36'
    }
    response = requests.get(url=url, headers=headers)
    """
    url里面的****替換為blog.csdn.net即可
    把 html 字符串數據轉換成一個 Selector 對象
    Selector 就具有一系列數據解析的方法  css/xpath/re
    類選擇器 都是使用圓點.開頭
    ID選擇器 是使用#開頭
    屬性選擇器：
        ::text獲取標簽里面的文本數據
        ::attr(xxx) 獲取標簽內某一個屬性的數據
        get() 從 Selector 對象中提取第一個數據, 直接返回字符串數據給我們
        getall() 從 Selector 對象中提取提取所有數據, 返回一個列表
    """
    selector = parsel.Selector(response.text)
    href = selector.css('.article-list div.article-item-box a::attr(href)').getall()
    for link in href:
        response_1 = requests.get(url=link, headers=headers)
        selector_1 = parsel.Selector(response_1.text)
        title = selector_1.css('#articleContentId::text').get()
        content = selector_1.css('#content_views').get()
        new_title = change_title(title)
        # 創(chuàng)建文件保存地址以及保存文件的名字 和格式
        pdf_path = 'pdf\\' + new_title + '.pdf'
        html_path = 'pdf\\' + new_title + '.html'
        # str.format() 字符串格式化方法
        html = html_str.format(article=content)
        """
        with open   打開文件時, 當文件對象引用完畢之后會自動關閉文件
        html_path：文件保存路徑以及名字格式 
        mode：保存方式 w 寫入 如果你不寫mode默認是r 讀
        encoding： 編碼
        as f 重命名 可以自定義
        f = open()
        f.writer()
        f.close()
        """
        with open(html_path, mode='w', encoding='utf-8') as f:
            f.write(html)
            print('正在保存：', title)
        # exe 文件存放的路徑
        config = pdfkit.configuration(wkhtmltopdf='C:\\Program Files\\wkhtmltopdf\\bin\\wkhtmltopdf.exe')
        # 把 html 通過 pdfkit 變成 pdf 文件
        pdfkit.from_file(html_path, pdf_path, configuration=config)
        os.remove(html_path)

兄弟們快去試試吧！

到此這篇關于基于Python實現網頁文章轉PDF文檔的文章就介紹到這了,更多相關Python網頁文章轉PDF內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

Python基于SMTP協議實現發(fā)送郵件功能詳解
這篇文章主要介紹了Python基于SMTP協議實現發(fā)送郵件功能,結合實例形式分析了Python使用SMTP協議實現郵件發(fā)送的相關操作技巧,并總結分析了Python發(fā)送純文本郵件、郵件附件、圖片郵件等相關操作技巧,需要的朋友可以參考下
2018-08-08
python使用 __init__初始化操作簡單示例
這篇文章主要介紹了python使用 __init__初始化操作,結合實例形式分析了Python面向對象程序設計中使用__init__進行初始化操作相關技巧與注意事項,需要的朋友可以參考下
2019-09-09
Django的models模型的具體使用
這篇文章主要介紹了Django的models模型的具體使用，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2019-07-07
Python彈球小游戲的項目代碼
本文主要介紹了Python彈球小游戲的項目代碼，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2019-03-03
Python實現隊列的方法示例小結【數組，鏈表】
這篇文章主要介紹了Python實現隊列的方法,結合實例形式分析了Python基于數組和鏈表實現隊列的相關操作技巧與相關注意事項,需要的朋友可以參考下
2020-02-02
pyspark操作MongoDB的方法步驟
這篇文章主要介紹了pyspark操作MongoDB的方法步驟，小編覺得挺不錯的，現在分享給大家，也給大家做個參考。一起跟隨小編過來看看吧
2019-01-01
教你如何使用Python開發(fā)一個釘釘群應答機器人
在聊天工具大肆侵入我們生活各個方面的今天,各種消息無時無刻不在侵擾我們的每一寸時間,這種情況下,一個聊天的機器人就很有必要了.今天,我們來學習一下使用 Python 開發(fā)一個釘釘的應答機器人,助你「人生苦短，少回消息」,需要的朋友可以參考下
2021-06-06
Python3的正則表達式詳解
這篇文章主要為大家詳細介紹了Python3正則表達式，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下，希望能夠給你帶來幫助
2022-03-03
python關于變量名的基礎知識點
在本篇文章里小編給大家整理的是關于python關于變量名的基礎知識點，需要的朋友們可以參考下。
2020-03-03
詳解Python中字符串前“b”,“r”,“u”,“f”的作用
這篇文章主要介紹了Python中字符串前“b”,“r”,“u”,“f”的作用,感興趣的朋友跟隨小編一起看看吧
2019-12-12