Java正則表達(dá)式之分組和替換方式
正則表達(dá)式的子表達(dá)式(分組)不是很好懂,但卻是很強(qiáng)大的文本處理工具。
1 正則表達(dá)式熱身
匹配電話號(hào)碼
// 電話號(hào)碼匹配
// 手機(jī)號(hào)段只有 13xxx 15xxx 18xxxx 17xxx
System.out.println("18304072984".matches("1[3578]\\d{9}")); // true
// 座機(jī)號(hào):010-65784236,0316-3312617,022-12465647,03123312336
String regex = "0\\d{2}-?\\d{8}|0\\d{3}-?\\d{7}";
String telStr = "010-43367458";
System.out.println(telStr.matches(regex)); // true
匹配郵箱
String mail = "i@jiaobuchong.com.cn";
String reg = "[a-zA-Z_0-9]+@[a-zA-Z0-9]+(\\.[a-zA-Z]+){1,2}";
System.out.println(mail.matches(reg)); // true
特殊字符替換
將不是中文的字符替換為空:
String input = "神探狄仁&*%$杰之四大天王@bdfbdbdfdgds23532"; String reg = "[^\\u4e00-\\u9fa5]"; input = input.replaceAll(reg, ""); System.out.println(input); // 神探狄仁杰之四大天王
漢字的Unicode編碼范圍是:\u4e00-\u9fa5
2 分組
組是用括號(hào)劃分的正則表達(dá)式,可以根據(jù)組的編號(hào)來(lái)引用某個(gè)組。組號(hào)為 0 表示整個(gè)表達(dá)式,組號(hào) 1 表示第一對(duì)括號(hào)擴(kuò)起的組,以此類(lèi)推。
看 Java API 中 Pattern 中的描述:
Capturing groups are numbered by counting their opening parentheses from left to right. In the expression ((A)(B(C))), for example, there are four such groups:
1. ((A)(B(C)))
2. (A)
3. (B(C))
4. (C)
再比如 A(B(C))D 有三個(gè)組:組 0 是 ABCD,組 1 是 BC,組 2 是 C,
可以根據(jù)有多少個(gè)左括號(hào)來(lái)來(lái)確定有多少個(gè)分組,括號(hào)里的表達(dá)式都稱(chēng)子表達(dá)式。
Eg1:
Matcher 對(duì)象提供很多方法:
goupCount()返回該正則表達(dá)式模式中的分組數(shù)目,對(duì)應(yīng)于「左括號(hào)」的數(shù)目group(int i)返回對(duì)應(yīng)組的匹配字符,沒(méi)有匹配到則返回 nullstart(int group)返回對(duì)應(yīng)組的匹配字符的起始索引end(int group)返回對(duì)應(yīng)組的匹配字符的最后一個(gè)字符索引加一的值
// 這個(gè)正則表達(dá)式有兩個(gè)組,
// group(0) 是 \\$\\{([^{}]+?)\\}
// group(1) 是 ([^{}]+?)
String regex = "\\$\\{([^{}]+?)\\}";
Pattern pattern = Pattern.compile(regex);
String input = "${name}-babalala-${age}-${address}";
Matcher matcher = pattern.matcher(input);
System.out.println(matcher.groupCount());
// find() 像迭代器那樣向前遍歷輸入字符串
while (matcher.find()) {
System.out.println(matcher.group(0) + ", pos: "
+ matcher.start() + "-" + (matcher.end() - 1));
System.out.println(matcher.group(1) + ", pos: " +
matcher.start(1) + "-" + (matcher.end(1) - 1));
}
輸出:
1
${name}, pos: 0-6
name, pos: 2-5
${age}, pos: 17-22
age, pos: 19-21
${address}, pos: 24-33
address, pos: 26-32
group翻譯成中文就是分組。
group()或group(0)對(duì)應(yīng)于整個(gè)正則表達(dá)式每次匹配到的內(nèi)容,
group(1)表示括號(hào)中(一個(gè)子表達(dá)式分組)匹配到的內(nèi)容。
Eg2:
為了更直觀的看分組,在 Eg1 的正則表達(dá)式上再多加一對(duì)括號(hào):
String regex = "(\\$\\{([^{}]+?)\\})";
Pattern pattern = Pattern.compile(regex);
String input = "${name}-babalala-${age}-${address}";
Matcher matcher = pattern.matcher(input);
// matcher.find() 方法會(huì)對(duì) input 這個(gè)字符串多次進(jìn)行匹配,如果能匹配到,這個(gè)匹配結(jié)果里就會(huì)包含多個(gè)分組,我們可以從分組里提取我們想要的結(jié)果
while (matcher.find()) {
System.out.println(matcher.group(0) + ", pos: " + matcher.start());
System.out.println(matcher.group(1) + ", pos: " + matcher.start(1));
System.out.println(matcher.group(2) + ", pos: " + matcher.start(2));
}
輸出:
${name}, pos: 0
${name}, pos: 0
name, pos: 2
${age}, pos: 17
${age}, pos: 17
age, pos: 19
${address}, pos: 24
${address}, pos: 24
address, pos: 26
由此可得出一對(duì)括號(hào)一個(gè)分組,可以通過(guò)左括號(hào)數(shù)來(lái)確定有多少個(gè)分組。
通過(guò)group()獲取分組中的匹配字串應(yīng)用場(chǎng)景很廣泛,
在筆者的一個(gè)項(xiàng)目中,通過(guò)使用這個(gè)特性實(shí)現(xiàn)了很有意思的通配符替換,感動(dòng)!
Eg3(通過(guò)分組提取想要的數(shù)據(jù)):
// 這個(gè)正則表達(dá)式會(huì)提取字符串中的「數(shù)字」和「字母」
Pattern pattern = Pattern.compile("([0-9]+).*?([a-zA-Z]+)");
String input = "那就20200719這樣吧sunny。。。。。。。122432該拿什么與眼淚抗衡twinkle";
Matcher matcher = pattern.matcher(input);
// 每個(gè)匹配到的子串分組的個(gè)數(shù)
int group = matcher.groupCount();
// 如果輸入串有多個(gè)可被匹配的子串,這里會(huì)多次進(jìn)行匹配
while (matcher.find()) {
System.out.println("匹配到的子串:" + matcher.group()); // 匹配到的子串
for (int i = 1; i <= group; i++) {
System.out.println("分組" + i + ": " + matcher.group(i));
}
}
輸出:
匹配到的子串:20200719這樣吧sunny
分組1: 20200719
分組2: sunny
匹配到的子串:122432該拿什么與眼淚抗衡twinkle
分組1: 122432
分組2: twinkle
3 分組替換
Eg1:
String tel = "18304072984";
// 括號(hào)表示組,被替換的部分$n表示第n組的內(nèi)容
tel = tel.replaceAll("(\\d{3})\\d{4}(\\d{4})", "$1****$2");
System.out.print(tel); // output: 183****2984
replaceAll 是一個(gè)替換字符串的方法,正則表達(dá)式中括號(hào)表示一個(gè)分組,replaceAll 的參數(shù) 2 中可以使用 $n(n 為數(shù)字)來(lái)依次引用子表達(dá)式中匹配到的分組字串,"(\\d{3})\\d{4}(\\d{4})", "$1****$2",分為前(前三個(gè)數(shù)字)中間四個(gè)數(shù)字(最后四個(gè)數(shù)字) 替換為(第一組數(shù)字保持不變 $1)(中間為 * )(第二組數(shù)字保持不變 $2)。
Eg2:
String one = "hello girl hi hot".replaceFirst("(\\w+)\\s+(\\w+)", "$2 $1");
String two = "hello girl hi hot".replaceAll("(\\w+)\\s+(\\w+)", "$2 $1");
System.out.println(one); // girl hello hi hot
System.out.println(two); // girl hello hot hi
理解了Eg1,這個(gè)例子也自然就理解了。
Eg3:
來(lái)一個(gè)實(shí)用的例子,重復(fù)標(biāo)點(diǎn)符號(hào)替換:
String input = "假如生活欺騙了你,,,相信吧,,,快樂(lè)的日子將會(huì)來(lái)臨?。?!…………"; // 重復(fù)標(biāo)點(diǎn)符號(hào)替換 String duplicateSymbolReg = "([。?!?!,]|\\.\\.\\.|……)+"; input = input.replaceAll(duplicateSymbolReg, "$1"); System.out.println(input);
輸出:
假如生活欺騙了你,相信吧,快樂(lè)的日子將會(huì)來(lái)臨!……
正則表達(dá)式:([。?!?!,]|\\.\\.\\.|……)+,括號(hào)中是一個(gè)分組:表示一個(gè)標(biāo)點(diǎn)符號(hào),+表示這個(gè)分組出現(xiàn)一次或多次,$1分組的內(nèi)容(一個(gè)標(biāo)點(diǎn)符號(hào))。replaceAll 就使用$1去對(duì)字符串進(jìn)行替換了。
Eg4:
IP地址排序
String ip = "192.68.1.254 102.49.23.013 10.10.10.10 2.2.2.2 8.109.90.30";
ip = ip.replaceAll("(\\d+)", "00$1");
System.out.println(ip);
ip = ip.replaceAll("0*(\\d{3})", "$1");
System.out.println(ip);
String[] strs = ip.split(" ");
Arrays.sort(strs);
for (String str : strs) {
str = str.replaceAll("0*(\\d+)", "$1");
System.out.println(str);
}
輸出:
00192.0068.001.00254 00102.0049.0023.00013 0010.0010.0010.0010 002.002.002.002 008.00109.0090.0030
192.068.001.254 102.049.023.013 010.010.010.010 002.002.002.002 008.109.090.030
2.2.2.2
8.109.90.30
10.10.10.10
102.49.23.13
192.68.1.254
- 讓IP地址的每一段都是3位,替換之后有4位的情況
- 保證IP地址每一段都是3位
- 排序之
寫(xiě)到這里,筆者不禁感嘆,真的很強(qiáng)大!
4 反向引用
使用小括號(hào)指定一個(gè)子表達(dá)式分組后,匹配這個(gè)子表達(dá)式的文本可以在表達(dá)式或其它程序中作進(jìn)一步的處理。默認(rèn)情況下,每個(gè)分組會(huì)自動(dòng)擁有一個(gè)組號(hào),規(guī)則是:以分組的左括號(hào)為標(biāo)志,從左向右,第一個(gè)分組的組號(hào)為1,第二個(gè)為2,以此類(lèi)推。
Eg:
/* 這個(gè)正則表達(dá)式表示 安安靜靜 這樣的疊詞 */
String regex = "(.)\\1(.)\\2";
System.out.println("安安靜靜".matches(regex)); // true
System.out.println("安靜安靜".matches(regex)); // false
上面 (.) 表示一個(gè)分組,里面 . 表示任意字符,每一個(gè)字符都是一個(gè)分組,
\\1表示組1(安)又出現(xiàn)了一次,\\2表示組2(靜)又出現(xiàn)了一次。
那匹配 安靜安靜,怎么寫(xiě)正則表達(dá)式?根據(jù)上面的例子,將安靜分成一個(gè)組,然后這個(gè)組又出現(xiàn)了一次就是安靜安靜:
String regex = "(..)\\1";
System.out.println("安靜安靜".matches(regex)); // true
System.out.println("安安靜靜".matches(regex)); // false
5 反向引用替換
Eg1:
String str = "我我...我我...我要..要要...要要...找找找一個(gè)....女女女女...朋朋朋朋朋朋...友友友友友..友.友...友...友友?。。?;
/*將 . 去掉*/
str = str.replaceAll("\\.+", "");
System.out.println(str);
str = str.replaceAll("(.)\\1+", "$1");
System.out.println(str);
輸出:
我我我我我要要要要要找找找一個(gè)女女女女朋朋朋朋朋朋友友友友友友友友友友?。?!
我要找一個(gè)女朋友!
(.)表示任意一個(gè)字符都會(huì)成為一個(gè)分組;\\1+ 引用分組(一個(gè)字符),表示出現(xiàn)1次或多次這個(gè)分組。 $1引用分組(.)將多個(gè)重復(fù)字符替換成一個(gè)字符。
Eg2:
替換重復(fù)出現(xiàn)的兩位數(shù)之間的內(nèi)容:
"xx12abdd12345".replaceAll("(\\d{2}).+?\\1", ""); //結(jié)果為 xx345
是不是覺(jué)得很神奇!
使用replace系列的方法要注意的一個(gè)異常: Java replaceAll()方法報(bào)錯(cuò)Illegal group reference
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Java消息摘要算法MAC實(shí)現(xiàn)與應(yīng)用完整示例
這篇文章主要介紹了Java消息摘要算法MAC實(shí)現(xiàn)與應(yīng)用,結(jié)合完整實(shí)例形式分析了java消息摘要算法MAC的概念、原理、實(shí)現(xiàn)方法及相關(guān)操作注意事項(xiàng),需要的朋友可以參考下2019-09-09
Java棧和基礎(chǔ)隊(duì)列的實(shí)現(xiàn)詳解
這篇文章主要介紹了Java數(shù)據(jù)結(jié)構(gòu)中的棧與隊(duì)列,在Java的時(shí)候,對(duì)于棧與隊(duì)列的應(yīng)用需要熟練的掌握,這樣才能夠確保Java學(xué)習(xí)時(shí)候能夠有扎實(shí)的基礎(chǔ)能力。本文小編就來(lái)詳細(xì)說(shuō)說(shuō)Java中的棧與隊(duì)列,需要的朋友可以參考一下2022-02-02
詳解Java中的增強(qiáng) for 循環(huán) foreach
foreach 是 Java 中的一種語(yǔ)法糖,幾乎每一種語(yǔ)言都有一些這樣的語(yǔ)法糖來(lái)方便程序員進(jìn)行開(kāi)發(fā),編譯期間以特定的字節(jié)碼或特定的方式來(lái)對(duì)這些語(yǔ)法進(jìn)行處理。能夠提高性能,并減少代碼出錯(cuò)的幾率。2017-05-05
Java Socket編程(五) 簡(jiǎn)單的WEB服務(wù)器
Java Socket編程(五) 簡(jiǎn)單的WEB服務(wù)器...2006-12-12
SpringBoot?AnnotationUtils工具類(lèi)的使用實(shí)例詳解
這篇文章主要介紹了SpringBoot?AnnotationUtils工具類(lèi)的使用,使用自定義注解標(biāo)記業(yè)務(wù)方法,原生Java獲取注解及AnnotationUtils工具類(lèi)獲取方法,本文通過(guò)實(shí)例代碼給大家介紹的非常詳細(xì),需要的朋友可以參考下2022-09-09
Nacos服務(wù)注冊(cè)客戶(hù)端服務(wù)端原理分析
這篇文章主要為大家介紹了Nacos服務(wù)注冊(cè)客戶(hù)端服務(wù)端原理分析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-02-02

