正則基礎(chǔ)之 \b 單詞邊界

更新時間：2023年05月28日 12:03:45 作者：過客

這篇文章主要介紹了正則基礎(chǔ)之 \b 單詞邊界,需要的朋友可以參考下

1 、概述

“\b”匹配單詞邊界，不匹配任何字符。

“\b”匹配的只是一個位置，這個位置的一側(cè)是構(gòu)成單詞的字符，另一側(cè)為非單詞字符、字符串的開始或結(jié)束位置。“\b”是零寬度的。

基本上所有的資料里都會說“\b”是單詞邊界，但是關(guān)于“單詞”的范圍卻是少有提及。通常情況下，正則表達(dá)式中所謂的“單詞”，就是由“\w”所定義的字符所組成的子串。

“\b”表示所在位置的一側(cè)為單詞字符，另一側(cè)為非單詞字符、字符串的開始或結(jié)束位置，也就相當(dāng)于

(?<!\w)(?=\w)|(?<=\w)(?!\w)

思考：以下寫法為什么不等價于“\b”

(?<=\W)(?=\w)|(?<=\w)(?=\W)

2、\w的范圍

即然涉及到“\w”，那就要先考察一下它的范圍。

在支持ASCII碼的語言中，如JavaScript，“\w”等價于[a-zA-Z0-9_] ；

在支持Unicode的語言中，如.NET，默認(rèn)情況下，“\w”除可以匹配[a-zA-Z0-9_]外，還可以匹配一些Unicode字符集，如漢字，全角數(shù)字等等。

幾乎所有常見的語言都遵循這樣一個規(guī)律，只有Java是個例外。在Java中，“\w”的表現(xiàn)是比較奇怪的，Java是支持Unicode的，但Java的正則中的“\w”卻是等價于[a-zA-Z0-9_]的。

先來看一下“\w”在幾種語言中匹配的例子

JavaScript

<script language="javascript">
    var str = "abc_123中文_d3=efg漢字%";
    var reg = /\w+/g;
    var arr = str.match(reg);
    if(arr != null)
    {
        for(var i=0;i<arr.length;i++)
        {
            document.write(arr[i] + "<br />");
        }
    }
</script>

/*-------- JavaScript中輸出--------

abc_123

_d3

Efg

C#

string test = "abc_123中文_d3=efg漢字%";
MatchCollection mc = Regex.Matches(test, @"\w+");
foreach (Match m in mc)
{
     richTextBox2.Text += m.Value + "\n";
}
/*-------- C#中輸出--------
abc_123中文_d3
efg漢字
*/

Java

String test = "abc_123中文_d3=efg漢字%";
String reg = "\\w+";
Matcher m = Pattern.compile(reg).matcher(test);
while(m.find())
{
    System.out.println(m.group());
}
/*-------- Java中輸出--------
abc_123
_d3
Efg
*/

可以看到，“\w”在Java中的輸出和JavaScript中是一樣的，都是只支持ASCII字符。

3、\b的范圍

常見語言中“\w”的范圍確定了，那么是不是可以認(rèn)為“\b”的匹配范圍與“\w”也是一致的呢？

再看下下面的例子：

源字符串：abc_123中文_d3=漢字efg

正則表達(dá)式：.\b.

JavaScript

<script language="javascript">
    var str = "abc_123中文_d3=efg漢字%";
    var reg = /.\b./g;
    var arr = str.match(reg);
    if(arr != null)
    {
        for(var i=0;i<arr.length;i++)
        {
            document.write(arr[i] + "<br />");
        }
    }
</script>
/*-------- JavaScript中輸出--------
3中
文_
3=
g漢
*/

string test = "abc_123中文_d3=efg漢字%";
MatchCollection mc = Regex.Matches(test, @".\b.");
foreach (Match m in mc)
{
     richTextBox2.Text += m.Value + "\n";
}
/*-------- C#中輸出--------
3=
字%
*/

Java

String test = "abc_123中文_d3=efg漢字%";
String reg = ".\\b.";
Matcher m = Pattern.compile(reg).matcher(test);
while(m.find())
{
    System.out.println(m.group());
}
/*-------- Java中輸出--------
3=
字%
*/

可以看到，Java的輸出和.NET是一致的，“\b”在Java中是支持Unicode的。

所以總的來說，Java中的“\w”是很奇怪的，而“\b”是與其它語言表現(xiàn)一致的，在使用時需要注意。

4、\b應(yīng)用場景

4.1 基礎(chǔ)應(yīng)用

“\b”一般應(yīng)用在需要匹配某一單詞字符組成的子串，但這一字符不能包含在同樣由單詞字符組成的更長的子串中。

比如要替換掉一段英文中的單詞“to”，而“today”顯然不在替換的范圍內(nèi)，所以正則可以用“\bto\b”來限定。

用得比較多的場景是在HTML標(biāo)簽的匹配中，用以區(qū)分相互包含的標(biāo)簽，比如要過濾掉<b>、</b>、<p…>、<img…>等標(biāo)簽，但要保留<br />標(biāo)簽，正則可以寫成

“<(/?b|p|img)\b[^>]*>”。

舉例：統(tǒng)計以“,”分割的元素中“3”的個數(shù)

string?test =?"137,1,33,4,3,6,21,3,35,93,2,98";
int?count =?Regex.Matches(test,?@"\b3\b").Count;?//結(jié)果：2

4.2 進(jìn)階應(yīng)用

稍復(fù)雜一些的應(yīng)用通常都是與其它一些正則語法規(guī)則一起使用的，參考一個帖子求一正則表達(dá)式

4.3 特殊情況

“\b”用在正則中，通常情況下都是表示單詞邊界的，只有在字符組中，它表示的是退格鍵，即

[a-z\b]

此處的“\b”表示的是退格鍵，而不是單詞邊界。

到此這篇關(guān)于正則基礎(chǔ)之 \b 單詞邊界的文章就介紹到這了,更多相關(guān)正則單詞邊界內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

正則基礎(chǔ)之 \b 單詞邊界

1 、概述

2、\w的范圍

JavaScript

C#

Java

3、\b的范圍

4、\b應(yīng)用場景

4.1 基礎(chǔ)應(yīng)用

4.2 進(jìn)階應(yīng)用

4.3 特殊情況

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线 免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

正則基礎(chǔ)之 \b 單詞邊界

1 、概述

2、\w的范圍

JavaScript

C#

Java

3、\b的范圍

4、\b應(yīng)用場景

4.1 基礎(chǔ)應(yīng)用

4.2 進(jìn)階應(yīng)用

4.3 特殊情況

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具

国产无遮挡裸体免费直播视频,久久精品国产蜜臀av,动漫在线视频一区二区,欧亚日韩一区二区三区,久艹在线免费视频,国产精品美女网站免费,正在播放 97超级视频在线观看,斗破苍穹年番在线观看免费,51最新乱码中文字幕

1 、概述

2、\w的范圍

3、\b的范圍