python讀取中文txt文本的方法

更新時(shí)間：2018年04月12日 15:57:53 作者：jingyi130705008

下面小編就為大家分享一篇python讀取中文txt文本的方法，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧

對于python2.7

字符串在Python2.7內(nèi)部的表示是unicode編碼，因此，在做編碼轉(zhuǎn)換時(shí)，通常需要以unicode作為中間編碼，即先將其他編碼的字符串解碼成unicode，再從unicode編碼成另一種編碼。

先用一些編輯器（如editplus ）看一下你的txt文件保存的是utf-8，還是gb2312或其他的。當(dāng)你讀行時(shí)可以這樣

line = (file1.readline()).decode('utf-8').encode('gb2312')或
line = (file1.readline()).decode('gb2312').encode('utf-8')

注意：txt使用utf8編碼的時(shí)候會(huì)默認(rèn)在文件開頭插入三個(gè)不可見字符。這個(gè)是windows用來判斷txt編碼是否為utf8的。所以如果你直接使用decode('utf-8')的話是得不到正確結(jié)果的。

必須先判斷前三個(gè)字符是否是windows插入的那三個(gè)。這個(gè)python已經(jīng)定義了一個(gè)常量了，可以直接和這個(gè)常量比較，如果一樣就刪除前三個(gè)字符然后再decode。

import codecs 
 data = open("Test.txt").read() 
 if data[:3] == codecs.BOM_UTF8:  
  data = data[3:] 
  print data.decode("utf-8")

延伸：

因?yàn)閐ecode的函數(shù)原型是decode([encoding], [errors='strict'])，可以用第二個(gè)參數(shù)控制錯(cuò)誤處理的策略，默認(rèn)的參數(shù)就是strict，代表遇到非法字符時(shí)拋出異常；

如果設(shè)置為ignore，則會(huì)忽略非法字符；

如果設(shè)置為replace，則會(huì)用?取代非法字符；

如果設(shè)置為xmlcharrefreplace，則使用XML的字符引用。

對于Python3

python3下比較簡單,打開的時(shí)候指定encoding參數(shù)即可：open("txt.txt", encoding="gbk").read()。

以上這篇python讀取中文txt文本的方法就是小編分享給大家的全部內(nèi)容了，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

Python編程快速上手——Excel到CSV的轉(zhuǎn)換程序案例分析
這篇文章主要介紹了Python Excel到CSV的轉(zhuǎn)換程序,結(jié)合具體案例形式分析了Python操作Excel到CSV轉(zhuǎn)換的操作技巧與相關(guān)注意事項(xiàng),需要的朋友可以參考下
2020-02-02
pycharm解決關(guān)閉flask后依舊可以訪問服務(wù)的問題
這篇文章主要介紹了pycharm解決關(guān)閉flask后依舊可以訪問服務(wù)的問題，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-04-04
Python并發(fā)編程之Futures模塊詳解
Python是一門流行且強(qiáng)大的編程語言,具備靈活的異步編程能力,在并發(fā)編程中,Futures模塊是Python提供的一個(gè)強(qiáng)大工具,下面我們就來看看它的概念和用法吧
2023-08-08
解決 jupyter notebook 回車換兩行問題
這篇文章主要介紹了解決 jupyter notebook 回車換兩行問題，具有很好的參考價(jià)值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-04-04
Pandas讀寫CSV文件的方法示例
這篇文章主要介紹了Pandas讀寫CSV文件的方法示例，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2019-03-03
Python urlencode和unquote函數(shù)使用實(shí)例解析
這篇文章主要介紹了Python urlencode和unquote函數(shù)使用實(shí)例解析,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2020-03-03
詳解python中flask_caching庫的用法
這篇文章主要介紹了詳解python中flask_caching庫的用法,可以在一定的時(shí)間內(nèi)直接返回結(jié)果而不是每次都需要計(jì)算或者從數(shù)據(jù)庫中查找。flask_caching插件就是提供這種功能的神器,需要的朋友可以參考下
2023-05-05
用python制作游戲外掛
玩過電腦游戲的同學(xué)對于外掛肯定不陌生，但是你在用外掛的時(shí)候有沒有想過如何做一個(gè)外掛呢?那我們就來看一下如何用python來制作一個(gè)外掛
2018-01-01
Python優(yōu)化代碼的技巧分享
Python?是?一種用著很爽的語言,Python也有著很多特性和技巧,可以幫助我們編寫更高效、更優(yōu)雅、更易維護(hù)的代碼,下面小編為大家整理了一些常用的Python代碼優(yōu)化的簡單小技巧,希望對大家有所幫助
2023-09-09
一文帶你掌握Python自然語言處理庫SpaCy
SpaCy是一個(gè)非常強(qiáng)大的Python自然語言處理庫,它包含了眾多強(qiáng)大功能，如詞性標(biāo)注、命名實(shí)體識(shí)別、依賴關(guān)系解析等等,這篇文章的目標(biāo)是幫助你了解SpaCy的基本功能和如何使用,需要的朋友可以參考下
2023-07-07