python用正則表達(dá)式提取/匹配中文漢字

更新時(shí)間：2022年07月05日 15:38:37 作者：一位代碼

在使用Python的過程中,由于需求原因,我們經(jīng)常需要在文本或者網(wǎng)頁元素中用Python正則表達(dá)式匹配中文,下面這篇文章主要給大家介紹了關(guān)于python用正則表達(dá)式提取/匹配中文漢字的相關(guān)資料,需要的朋友可以參考下

python用正則表達(dá)式提取中文

Python re正則匹配中文，其實(shí)非常簡(jiǎn)單，把中文的unicode字符串轉(zhuǎn)換成utf-8格式就可以了，然后可以在re中隨意調(diào)用

unicode中中文的編碼為/u4e00-/u9fa5，因此正則表達(dá)式u”[\u4e00-\u9fa5]+”可以表示一個(gè)或者多個(gè)中文字符

>>> import re

>>> s='中文：123456aa哈哈哈bbcc'.decode('utf8')
>>> s
u'\u4e2d\u6587\uff1a123456aa\u54c8\u54c8\u54c8bbcc'
>>> print s
中文：123456aa哈哈哈bbcc

>>> re.match(u"[\u4e00-\u9fa5]+",s)
<_sre.SRE_Match object at 0xb77742c0>

>>> pat='中文'.decode("utf8")
>>> re.search(pat,s)
<_sre.SRE_Match object at 0x16a16df0>

>>> newpat='這里是中文內(nèi)容'.decode("utf8")

>>> news=re.sub(pat,newpat,s)
>>> print news

這里是中文內(nèi)容：123456aa哈哈哈bbcc

python正則如何匹配中文漢字

正則表達(dá)式匹配中文漢字，在實(shí)際應(yīng)用中十分常見。

比如：爬蟲網(wǎng)頁文本提取、驗(yàn)證用戶輸入標(biāo)準(zhǔn)等。

以下面文本字符串為例，匹配出astr這個(gè)字符串中的所有漢字。

import re
astr = '''aaaaa何時(shí)when 杖爾看see南雪snow，我me與梅花plum blossom兩白頭'''

下面介紹兩種方法（本文環(huán)境為python3）

一、使用Unicode編碼來匹配中文

常見的中文Unicode編碼范圍：\u4e00-\u9fa5

實(shí)現(xiàn)匹配代碼：re.findall(’[\u4e00-\u9fa5]’, astr)

import re
astr = '''aaaaa何時(shí)when 杖爾看see南雪snow，我me與梅花plum blossom兩白頭'''
res = re.findall('[\u4e00-\u9fa5]', astr)
print(res)

匹配結(jié)果：

二、直接使用中文漢字實(shí)現(xiàn)中文匹配

沒使用過可能還真不知道，中文匹配還可以這樣

實(shí)現(xiàn)匹配代碼：re.findall(’[一-龥]’, astr)

import re
astr = '''aaaaa何時(shí)when 杖爾看see南雪snow，我me與梅花plum blossom兩白頭'''
res = re.findall('[一-龥]', astr)
print(res)

匹配結(jié)果：

注：其實(shí)這里“一”對(duì)應(yīng)的Unicode編碼就是“\u4e00”,“龥”（yù）對(duì)應(yīng)的Unicode編碼就是“\u9fa5”。

常見非英文字符Unicode編碼范圍：

u4e00-u9fa5 (中文)
u0800-u4e00 (日文)
uac00-ud7ff（韓文）

總結(jié)

到此這篇關(guān)于python用正則表達(dá)式提取/匹配中文漢字的文章就介紹到這了,更多相關(guān)python正則提取匹配中文內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

python用正則表達(dá)式提取/匹配中文漢字

目錄

python用正則表達(dá)式提取中文

python正則如何匹配中文漢字

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

python用正則表達(dá)式提取/匹配中文漢字

目錄

python用正則表達(dá)式提取中文

python正則如何匹配中文漢字

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕