python 采集中文亂碼問題的完美解決方法
近幾日遇到采集某網(wǎng)頁的時候大部分網(wǎng)頁OK,少部分網(wǎng)頁出現(xiàn)亂碼的問題,調試了幾日,終于發(fā)現(xiàn)了是含有一些非法字符造成的..特此記錄
1. 在正常情況下..可以用
import chardet thischarset = chardet.detect(strs)["encoding"]
來獲取該文件或頁面的編碼方式
或直接抓取頁面的charset = xxxx 來獲取
2. 遇到內容中有特殊字符時指定的編碼一樣會造成亂碼..即內容中非法字符造成的,可以采用編碼忽略非法字符的方式來處理.
strs = strs.decode("UTF-8","ignore").encode("UTF-8")
decode的第二個參數(shù)表示遇到非法字符時所采取的方式
該參數(shù)默認為拋出異常.
以上就是小編為大家?guī)淼膒ython 采集中文亂碼問題的完美解決方法的全部內容了,希望對大家有所幫助,多多支持腳本之家~
相關文章
從0編寫區(qū)塊鏈之用python解釋區(qū)塊鏈最基本原理
人工智能和區(qū)塊鏈誕生至今已經有了十幾年,當這些技術出現(xiàn)時,人們都說他們會改變世界,但至今為止,這兩項技術對現(xiàn)實的影響依然有限,接下來通過本文介紹下從0編寫區(qū)塊鏈之用python解釋區(qū)塊鏈最基本原理,需要的朋友可以參考下2022-02-02
python+mediapipe+opencv實現(xiàn)手部關鍵點檢測功能(手勢識別)
這篇文章主要介紹了python+mediapipe+opencv實現(xiàn)手部關鍵點檢測功能(手勢識別),本文僅僅簡單介紹了mediapipe的使用,而mediapipe提供了大量關于圖像識別等的方法,需要的朋友可以參考下2022-01-01
使用Python創(chuàng)建LNK文件選擇器并導出配置文件
在這篇博客中,我將介紹如何使用Python的wxPython庫開發(fā)一個GUI應用程序,該應用程序可以選擇文件夾中的.lnk(快捷方式)文件,并將選中的文件導出為特定格式的buttons.ini配置文件,需要的朋友可以參考下2025-01-01
Django與數(shù)據(jù)庫交互的實現(xiàn)
最近在學習Django,本文主要介紹了Django與數(shù)據(jù)庫交互的實現(xiàn),具有一定的參考價值,感興趣的小伙伴們可以參考一下2021-06-06

