Python查找文件中包含中文的行方法
前言
近幾天在做多語言版本的時(shí)候再次發(fā)現(xiàn),區(qū)分各種語言真的是一件比較困難的事情,上一次做中文提取工具的就花了不少時(shí)間,這次決定用python試一試,結(jié)果寫起來發(fā)現(xiàn)真是方便不少,自己整理了一下方便以后查找使用。
代碼
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
# find the line of containing chinese in files
__author__ = 'AlbertS'
import re
def start_find_chinese():
find_count = 0;
with open('ko_untranslated.txt', 'wb') as outfile:
with open('source_ko.txt', 'rb') as infile:
while True:
content = infile.readline()
if re.match(r'(.*[\u4E00-\u9FA5]+)|([\u4E00-\u9FA5]+.*)', content.decode('utf-8')):
outfile.write(content)
find_count += 1;
if not content:
return find_count
# start to find
if __name__ == '__main__':
count = start_find_chinese()
print("find complete! count =", count)
原始文件
source_ko.txt文件內(nèi)容
3 캐릭터 Lv.50 달성 8 캐릭터 Lv.80 달성 10 캐릭터 Lv.90 달성 ... ... 2840 飛黃騰達(dá) 4841 同歸于盡 8848 캐릭터 Lv.50 달
運(yùn)行效果(ko_untranslated.txt文件)
2840 飛黃騰達(dá) 4841 同歸于盡
總結(jié)
1. 其實(shí)這段小小的代碼中包含了兩個(gè)常用的功能,那就是讀寫文件和正則表達(dá)式。
2. 這也是兩個(gè)重要的知識點(diǎn),其中with操作可能防止資源泄漏,操作起來更加方便。
3. 正則表達(dá)式可是一個(gè)文字處理的利器,代碼中的正則可能還不太完善,后續(xù)我會(huì)繼續(xù)補(bǔ)充更新。
以上這篇Python查找文件中包含中文的行方法就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
tensorflow實(shí)現(xiàn)對張量數(shù)據(jù)的切片操作方式
今天小編就為大家分享一篇tensorflow實(shí)現(xiàn)對張量數(shù)據(jù)的切片操作方式,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-01-01
Pandas中把dataframe轉(zhuǎn)成array的方法
下面小編就為大家分享一篇Pandas中把dataframe轉(zhuǎn)成array的方法,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-04-04
OpenCV-PS擴(kuò)散毛玻璃效果的實(shí)現(xiàn)代碼
PS的擴(kuò)散效果可以產(chǎn)生類似毛玻璃質(zhì)感的效果,使畫面有些毛毛的感覺。接下來通過本文給大家分享OpenCV-PS擴(kuò)散毛玻璃效果的實(shí)現(xiàn)代碼,一起看看吧2021-09-09
Python使用logging結(jié)合decorator模式實(shí)現(xiàn)優(yōu)化日志輸出的方法
這篇文章主要介紹了Python使用logging結(jié)合decorator模式實(shí)現(xiàn)優(yōu)化日志輸出的方法,實(shí)例分析了Python使用logging模塊操作日志的相關(guān)技巧,需要的朋友可以參考下2016-04-04
Python大數(shù)據(jù)量文本文件高效解析方案代碼實(shí)現(xiàn)全過程
在數(shù)據(jù)分析中,有時(shí)數(shù)據(jù)源會(huì)是超大的文本文件(幾G,或在幾十G),需要從中提取需要的信息,下面這篇文章主要給大家介紹了關(guān)于Python大數(shù)據(jù)量文本文件高效解析方案代碼實(shí)現(xiàn)的相關(guān)資料,需要的朋友可以參考下2022-12-12
Python應(yīng)用實(shí)現(xiàn)處理excel數(shù)據(jù)過程解析
這篇文章主要介紹了Python應(yīng)用實(shí)現(xiàn)處理excel數(shù)據(jù)過程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-06-06
python小白練習(xí)題之條件控制與循環(huán)控制
Python 中的條件控制和循環(huán)語句都非常簡單,也非常容易理解,與其他編程語言類似,下面這篇文章主要給大家介紹了關(guān)于python小白練習(xí)題之條件控制與循環(huán)控制的相關(guān)資料,需要的朋友可以參考下2021-10-10

