python字符串編碼識別模塊chardet簡單應(yīng)用
python的字符串編碼識別模塊(第三方庫):
官方地址: http://pypi.python.org/pypi/chardet
import chardet
import urllib
# 可根據(jù)需要,選擇不同的數(shù)據(jù)
TestData = urllib.urlopen('http://www.baidu.com/').read()
print chardet.detect(TestData)
# 運(yùn)行結(jié)果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
運(yùn)行結(jié)果表示有99%的概率認(rèn)為這段代碼是GB2312編碼方式。
import urllib
from chardet.universaldetector import UniversalDetector
usock = urllib.urlopen('http://www.baidu.com/')
# 創(chuàng)建一個檢測對象
detector = UniversalDetector()
for line in usock.readlines():
# 分塊進(jìn)行測試,直到達(dá)到閾值
detector.feed(line)
if detector.done: break
# 關(guān)閉檢測對象
detector.close()
usock.close()
# 輸出檢測結(jié)果
print detector.result
# 運(yùn)行結(jié)果:
# {'confidence': 0.99, 'encoding': 'GB2312'}
應(yīng)用背景,如果要對一個大文件進(jìn)行編碼識別,使用這種高級的方法,可以只讀一部,去判別編碼方式從而提高檢測速度。如果希望使用一個檢測對象檢測多個數(shù)據(jù),在每次檢測完,一定要運(yùn)行一下detector.reset()。清除之前的數(shù)據(jù)。
以上所述就是本文的全部內(nèi)容了,希望大家能夠喜歡。
- Python處理文件的方法(mimetypes和chardet)
- Python chardet庫識別編碼原理解析
- Python3 chardet模塊查看編碼格式的例子
- python中判斷文件編碼的chardet(實例講解)
- Python中動態(tài)檢測編碼chardet的使用教程
- Python簡單檢測文本類型的2種方法【基于文件頭及cchardet庫】
- python判斷字符串編碼的簡單實現(xiàn)方法(使用chardet)
- Python使用chardet判斷字符編碼
- python使用chardet判斷字符串編碼的方法
- 使用python的chardet庫獲得文件編碼并修改編碼
- Python爬蟲之必備chardet庫
相關(guān)文章
python使用Paramiko模塊實現(xiàn)遠(yuǎn)程文件拷貝
這篇文章主要為大家詳細(xì)介紹了python使用Paramiko模塊實現(xiàn)遠(yuǎn)程文件拷貝,具有一定的參考價值,感興趣的小伙伴們可以參考一下2019-04-04
Python開發(fā)常用五種循環(huán)方式的場景性能比較
Python是一門高級編程語言,其擁有多種循環(huán)方式,如for循環(huán)、while循環(huán)、do-while循環(huán)等。本文將逐個分析Python所有的循環(huán)執(zhí)行效率和適用場景,需要的可以參考一下2023-04-04
Python程序員鮮為人知但你應(yīng)該知道的17個問題
這篇文章主要介紹了Python程序員代碼編寫時應(yīng)該避免的17個“坑”,也可以說成Python程序員代碼編寫時應(yīng)該避免的17個問題,需要的朋友可以參考下2014-06-06
Python TensorFlow 2.6獲取MNIST數(shù)據(jù)的示例代碼
這篇文章主要介紹了Python TensorFlow 2.6獲取MNIST數(shù)據(jù)的的相關(guān)示例,文中有詳細(xì)的代碼示例供大家參考,對大家的學(xué)習(xí)或工作有一定的幫助,需要的朋友可以參考下2024-04-04

