SpringBoot使用前綴樹過濾敏感詞的方法實例
一、前綴樹
一般設(shè)計網(wǎng)站的時候,會有問題發(fā)布或者是內(nèi)容發(fā)布的功能,這些功能的有一個很重要的點在于如何實現(xiàn)敏感詞過濾,要不然可能會有不良信息的發(fā)布,或者發(fā)布的內(nèi)容中有夾雜可能會有惡意功能的代碼片段,敏感詞過濾的基本的算法是前綴樹算法,前綴樹也就是字典樹,通過前綴樹匹配可以加快敏感詞匹配的速度。
前綴樹又稱為Trie、字典樹、查找樹。主要特點是:查找效率高,但內(nèi)存消耗大;主要應(yīng)用于字符串檢索、詞頻統(tǒng)計、字符串排序等。
到底什么是前綴樹?前綴樹的功能是如何實現(xiàn)的?
舉一個具體的例子:若有一個字符串"xwabfabcff",敏感詞為"abc"、"bf"、"be",檢測字符串,若有敏感詞,則將敏感詞替換為"*",實現(xiàn)一個算法。
前綴樹的特點:
1. 跟結(jié)點為空結(jié)點,沒有任何字符。
2. 除了根節(jié)點以外,每個結(jié)點只有一個字符。
3. 每個結(jié)點包含的子節(jié)點不相同。 例如,root的子節(jié)點本來有兩個b,但我們只保留一個
4. 在每個敏感詞的末尾結(jié)點做一個標(biāo)記,表示從根節(jié)點到此節(jié)點組合成的字符串是一個敏感詞,中間未被標(biāo)記的結(jié)點和根節(jié)點中間的字符串不構(gòu)成一個敏感詞。

前綴樹的算法邏輯:
1. 準(zhǔn)備:我們需要三個指針,①指針指向前綴樹,默認(rèn)指向根節(jié)點; ②、③指針指向要檢測的字符串(同向尺距法,②從頭到尾走一遍,標(biāo)記敏感詞的開頭,③隨著②而動,標(biāo)記敏感詞的結(jié)尾),默認(rèn)指向字符串的第一個字符。我們還需要一個存放檢測結(jié)果的字符串(StringBuilder)。
2. ①訪問樹的第一層,發(fā)現(xiàn)沒有'x',則②、③向下走一步,并將'x'存入StringBuilder字符串里。'w' 同理。

3. 此時②、③指向'a',①訪問樹的第一層,發(fā)現(xiàn)有'a',但'a'未被標(biāo)記,所以不是敏感詞,則把'a'存入StringBuilder字符串。然后②不動,①、③繼續(xù)向下走,直至走到被標(biāo)記的結(jié)點或者不匹配時,①歸位,②向下走一步,③回到此時②指向的地方。重復(fù)以上步驟。
4. 若檢測到敏感詞,則在StringBuilder中存儲"***",并使②跳過此敏感詞,②、③共同指向原來③的下一個位置。

5. ②、③走到字符串的末尾時,檢測完成。最終結(jié)果為"xwa******ff"。
二、敏感詞過濾器
我們再開發(fā)項目時,需要開發(fā)出一個可復(fù)用的過濾敏感詞的工具,成為敏感詞過濾器,以便在項目中可以復(fù)用。
開發(fā)敏感詞過濾器主要有以下三個步驟:
1. 定義前綴樹
2. 根據(jù)敏感詞,初始化前綴樹
3. 編寫過濾敏感詞的方法
代碼實現(xiàn)如下:
import org.apache.commons.lang3.CharUtils;
import org.apache.commons.lang3.StringUtils;
import org.slf4j.Logger;
import org.slf4j.LoggerFactory;
import org.springframework.stereotype.Component;
import javax.annotation.PostConstruct;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.util.HashMap;
import java.util.Map;
@Component
public class SensitiveFilter {
// 記錄日志
private static final Logger logger = LoggerFactory.getLogger(SensitiveFilter.class);
// 替換符
private static final String REPLACEMENT = "***";
// 初始化根節(jié)點
private TrieNode rootNode = new TrieNode();
/**
* 2. 根據(jù)敏感詞,初始化前綴樹
*/
@PostConstruct// 當(dāng)容器在服務(wù)器啟動時實例化此Bean,調(diào)用Bean的構(gòu)造方法后,該方法就會被自動調(diào)用
public void init() {
try (
// 加載敏感詞文件 sensitive-words.txt是自建的存放敏感詞的文件
InputStream is = this.getClass().getClassLoader().getResourceAsStream("sensitive-words.txt");
// 字節(jié)流 --> 字符流 --> 字符緩沖流
BufferedReader reader = new BufferedReader(new InputStreamReader(is));
) {
String keyword;
while((keyword = reader.readLine()) != null){
// 添加到前綴樹,addKeyword為自定義的方法,將一個敏感詞添加到前綴樹中去
this.addKeyword(keyword);
}
} catch (IOException e) {
logger.error("加載敏感詞文件失敗:" + e.getMessage());
}
}
// 封裝方法:將一個敏感詞添加到前綴樹中去
private void addKeyword(String keyword){
TrieNode tempNode = rootNode;
for (int i = 0; i < keyword.length(); i++) {
char c = keyword.charAt(i);
TrieNode subNode = tempNode.getSubNode(c);
if(subNode == null){
// 如果子節(jié)點中沒有該字符,則以此字符初始化子節(jié)點,并裝配到樹中
subNode = new TrieNode();
tempNode.addSubNode(c,subNode);
}
// 指向字節(jié)點,進入下一層循環(huán)
tempNode = subNode;
// 設(shè)置結(jié)束標(biāo)識
if(i == keyword.length() -1){
tempNode.setKeywordEnd(true);
}
}
}
/**
* 3. 檢索并過濾敏感詞
* @param text 待過濾的文本
* @return 過濾后的文本
*/
public String filter(String text){
if(StringUtils.isBlank(text)){
return null;
}
// 指針①
TrieNode tempNode = rootNode;
// 指針②
int begin = 0;
// 指針③
int position = 0;
// 存放結(jié)果
StringBuilder sb = new StringBuilder();
while(position < text.length()){
char c = text.charAt(position);
// 跳過符號
if(isSymbol(c)){
// 若指針①處于根節(jié)點,將此符號計入結(jié)果,讓指針②向下走一步
if(tempNode == rootNode){
sb.append(c);
begin++;
}
// 無論符號在未檢測時出現(xiàn)還是正在檢測時出現(xiàn),指針③總是向下走一步
// (未檢測時和指針②一起向下走一步,檢測時指針②不動,指針③向下走一步)
position++;
continue;
}
// 檢查下級節(jié)點
tempNode = tempNode.getSubNode(c);
if(tempNode == null){
// 以begin開頭的字符串不是敏感詞
sb.append(text.charAt(begin));
// 進入下一個位置
begin++;
position = begin;
// 指針①歸位,重新指向根節(jié)點
tempNode = rootNode;
}else if (tempNode.isKeywordEnd()){
// 發(fā)現(xiàn)敏感詞,將begin~position字符串替換掉
sb.append(REPLACEMENT);
// 進入下一個位置
position++;
begin = position;
// 指針①歸位,重新指向跟接待你
tempNode = rootNode;
}else {
// 檢查下一個字符
position++;
}
}
// 將最后一批字符計入結(jié)果:指針③比指針②先到中終點,且兩者之間的字符串不是敏感詞
sb.append(text.substring(begin));
return sb.toString();
}
// 封裝方法:判斷是否為特殊符號
private boolean isSymbol(Character c){
// 0x2E80~0x9FFF 是東亞文字范圍,不予當(dāng)作特殊符號看待
return !CharUtils.isAsciiAlphanumeric(c) && (c < 0x2E80 || c > 0x9FFF);
}
/**
* 1. 定義前綴樹
*/
private class TrieNode {
// 敏感詞(關(guān)鍵詞)結(jié)束標(biāo)識
private boolean isKeywordEnd = false;
// 子節(jié)點(key是下級字符,value是下級節(jié)點)
private Map<Character, TrieNode> subNodes = new HashMap<>();
public boolean isKeywordEnd() {
return isKeywordEnd;
}
public void setKeywordEnd(boolean keywordEnd) {
isKeywordEnd = keywordEnd;
}
// 添加子節(jié)點
public void addSubNode(Character c, TrieNode node) {
subNodes.put(c, node);
}
// 獲取子節(jié)點
public TrieNode getSubNode(Character c) {
return subNodes.get(c);
}
}
}總結(jié)
到此這篇關(guān)于SpringBoot使用前綴樹過濾敏感詞的文章就介紹到這了,更多相關(guān)SpringBoot用前綴樹過濾敏感詞內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
java使用mysql預(yù)編譯語句查詢優(yōu)勢及示例詳解
這篇文章主要為大家介紹了java使用mysql預(yù)編譯語句的優(yōu)勢特點及示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2023-06-06
Spring Boot 會員管理系統(tǒng)之處理文件上傳功能
Spring Boot會員管理系統(tǒng)的中,需要涉及到Spring框架,SpringMVC框架,Hibernate框架,thymeleaf模板引擎。這篇文章主要介紹了Spring Boot會員管理系統(tǒng)之處理文件上傳功能,需要的朋友可以參考下2018-03-03
SpringBoot+Quartz實現(xiàn)定時任務(wù)的代碼模版分享
quartz?是一款開源且豐富特性的Java?任務(wù)調(diào)度庫,用于實現(xiàn)任務(wù)調(diào)度和定時任務(wù),本文主要和大家分享一個SpringBoot整合Quartz實現(xiàn)定時任務(wù)的代碼模版,需要的可以參考一下2023-06-06
用SpringBoot框架來接收multipart/form-data文件方式
這篇文章主要介紹了用SpringBoot框架來接收multipart/form-data文件方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2023-02-02
關(guān)于SpringBoot整合RabbitMQ實現(xiàn)死信隊列
這篇文章主要介紹了關(guān)于SpringBoot整合RabbitMQ實現(xiàn)死信隊列,死信隊列實際上就是一個普通的隊列,只是這個隊列跟死信交換機進行了綁定,用來存放死信而已,需要的朋友可以參考下2023-05-05
IntelliJ IDEA 2020.1 EAP4 發(fā)布,重命名/更改簽名新功能一覽
這篇文章主要介紹了IntelliJ IDEA 2020.1 EAP4 發(fā)布,重命名/更改簽名新功能,本文給大家介紹的非常詳細,對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-04-04
SpringBoot整合RabbitMQ的5種模式實戰(zhàn)
本文主要介紹了SpringBoot整合RabbitMQ的5種模式實戰(zhàn),文中通過示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下2021-08-08
java如何通過modbus4j實現(xiàn)modbus?TCP通訊
Modbus協(xié)議包含RTU、ASCII、TCP三種類型,定義四個存儲區(qū)(輸出線圈、輸入線圈、輸出寄存器、輸入寄存器)及其地址范圍,支持讀寫功能,通過功能碼01-04操作,仿真軟件可模擬從站ID2025-07-07
Java通過Freemarker模板實現(xiàn)生成Word文件
FreeMarker是一款模板引擎: 即一種基于模板和要改變的數(shù)據(jù), 并用來生成輸出文本的通用工具。本文將根據(jù)Freemarker模板實現(xiàn)生成Word文件,需要的可以參考一下2022-09-09

