python使用chardet判斷字符串編碼的方法
本文實例講述了python使用chardet判斷字符串編碼的方法。分享給大家供大家參考。具體分析如下:
最近利用python抓取一些網(wǎng)上的數(shù)據(jù),遇到了編碼的問題。非常頭痛,總結(jié)一下用到的解決方案。
linux中vim下查看文件編碼的命令 set fileencoding
python中一個強力的編碼檢測包 chardet ,使用方法非常簡單。linux下利用pip install chardet實現(xiàn)簡單安裝
import chardet
f = open('file','r')
fencoding=chardet.detect(f.read())
print fencoding
fencoding輸出格式 {'confidence': 0.96630842899499614, 'encoding': 'GB2312'} ,只能判斷是否為某種編碼的概率。比較準確的結(jié)果了。輸入?yún)?shù)為str類型。
了解python中str的編碼后可以利用decode和encode來實現(xiàn)編碼的轉(zhuǎn)換。
一般流程是str利用decode方法根據(jù)str的編碼將其解碼為unicode字符串類型,然后利用encode根據(jù)特定的編碼將unicode字符串類型轉(zhuǎn)換為特定的編碼。python中str和unicode屬于兩種不同的類型,如下。
一般情況下window默認編碼gbk,linux默認編碼utf8
python編程中 系統(tǒng)編碼,python編碼,文件編碼 的概念。
系統(tǒng)編碼:默認寫源碼的編輯器的編碼方式。它代表源碼文件內(nèi)的所有內(nèi)容都是根據(jù)詞方式編碼成二進制碼流。存入到磁盤中的。linux下通過locale命令查看。
python編碼:指python內(nèi)設置的解碼方式。如果不設定的話,python默認的是ascii解碼方式。如果python源代碼文件中不出現(xiàn)中文的話,這個地方怎么設定應該不會問題。
設定方法:在源碼文件開頭(一定是第一行):#-*-coding:UTF-8-*-,源碼文件的設置解碼方式是UTF-8 或者
import sys
reload(sys)
sys.setdefaultencoding('UTF-8')
文件編碼:文本的編碼方式,linux下vim利用set fileencoding查看。
一般情況下輸出亂碼的原因就是 沒有按照系統(tǒng)解碼的方式進行編碼。
比如print s, s類型為str,linux系統(tǒng)下系統(tǒng)默認編碼為utf8編碼,s在輸出前就應該編碼為utf8。如果s為gbk編碼就應該這樣輸出。print s.decode('gbk').encode('utf8')才能輸出中文。
window下面情況相同,window默認編碼為gbk編碼,所以s輸出前必須編碼為gbk。
python處理中一般處理unicode類型。這樣輸出前直接編碼即可。
希望本文所述對大家的Python程序設計有所幫助。
相關文章
python實現(xiàn)ssh及sftp功能(實例代碼)
這篇文章主要介紹了python實現(xiàn)ssh及sftp功能 ,本文分步驟通過實例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-03-03
基于Python實現(xiàn)ComicReaper漫畫自動爬取腳本過程解析
這篇文章主要介紹了基于Python實現(xiàn)ComicReaper漫畫自動爬取腳本過程解析,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2019-11-11
基于python代碼實現(xiàn)簡易濾除數(shù)字的方法
今天小編就為大家分享一篇基于python代碼實現(xiàn)簡易濾除數(shù)字的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-07-07
Pytorch中torch.cat()函數(shù)舉例解析
一般torch.cat()是為了把多個tensor進行拼接而存在的,下面這篇文章主要給大家介紹了關于Pytorch中torch.cat()函數(shù)舉例解析的相關資料,文中通過示例代碼介紹的非常詳細,需要的朋友可以參考下2022-12-12
python神經(jīng)網(wǎng)絡tensorflow利用訓練好的模型進行預測
這篇文章主要為大家介紹了python神經(jīng)網(wǎng)絡tensorflow利用訓練好的模型進行預測,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-05-05

