java中文分詞之正向最大匹配法實(shí)例代碼
前言
基于詞典的正向最大匹配算法(最長詞優(yōu)先匹配),算法會根據(jù)詞典文件自動調(diào)整最大長度,分詞的好壞完全取決于詞典。
所謂詞典正向最大匹配就是將一段字符串進(jìn)行分隔,其中分隔 的長度有限制,然后將分隔的子字符串與字典中的詞進(jìn)行匹配,如果匹配成功則進(jìn)行下一輪匹配,直到所有字符串處理完畢,否則將子字符串從末尾去除一個(gè)字,再進(jìn)行匹配,如此反復(fù)。
算法流程圖如下:

下面給大家主要講一下中文分詞里面算法的簡單實(shí)現(xiàn),廢話不多說了,現(xiàn)在先上代碼
示例代碼
package com;
import java.util.ArrayList;
import java.util.List;
public class Segmentation1 {
private List<String> dictionary = new ArrayList<String>();
private String request = "北京大學(xué)生前來應(yīng)聘";
public void setDictionary() {
dictionary.add("北京");
dictionary.add("北京大學(xué)");
dictionary.add("大學(xué)");
dictionary.add("大學(xué)生");
dictionary.add("生前");
dictionary.add("前來");
dictionary.add("應(yīng)聘");
}
public String leftMax() {
String response = "";
String s = "";
for(int i=0; i<request.length(); i++) {
s += request.charAt(i);
if(isIn(s, dictionary) && aheadCount(s, dictionary)==1) {
response += (s + "/");
s = "";
} else if(aheadCount(s, dictionary) > 0) {
} else {
response += (s + "/");
s = "";
}
}
return response;
}
private boolean isIn(String s, List<String> list) {
for(int i=0; i<list.size(); i++) {
if(s.equals(list.get(i))) return true;
}
return false;
}
private int aheadCount(String s, List<String> list) {
int count = 0;
for(int i=0; i<list.size(); i++) {
if((s.length()<=list.get(i).length()) && (s.equals(list.get(i).substring(0, s.length())))) count ++;
}
return count;
}
public static void main(String[] args) {
Segmentation1 seg = new Segmentation1();
seg.setDictionary();
String response1 = seg.leftMax();
System.out.println(response1);
}
}
可以看到運(yùn)行結(jié)果是:北京大學(xué)/生前/來/應(yīng)聘/
算法的核心就是從前往后搜索,然后找到最長的字典分詞。
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。
相關(guān)文章
Java均攤復(fù)雜度和防止復(fù)雜度的震蕩原理分析
這篇文章主要介紹了Java均攤復(fù)雜度和防止復(fù)雜度的震蕩,結(jié)合實(shí)例形式分析了Java均攤復(fù)雜度和防止復(fù)雜度的震蕩相關(guān)概念、原理、實(shí)現(xiàn)方法與注意事項(xiàng),需要的朋友可以參考下2020-03-03
java.lang.NoClassDefFoundError錯誤的原因及解決方法
這篇文章主要給大家介紹了關(guān)于java.lang.NoClassDefFoundError錯誤的原因及解決的相關(guān)資料,java.lang.NoClassDefFoundError是Java虛擬機(jī)在運(yùn)行時(shí)無法找到特定類的錯誤,需要的朋友可以參考下2023-10-10
Java設(shè)計(jì)模式之外觀模式的實(shí)現(xiàn)方式
這篇文章主要介紹了Java設(shè)計(jì)模式之外觀模式的實(shí)現(xiàn)方式,外觀模式隱藏系統(tǒng)的復(fù)雜性,并向客戶端提供了一個(gè)客戶端可以訪問系統(tǒng)的接口,這種類型的設(shè)計(jì)模式屬于結(jié)構(gòu)型模式,它向現(xiàn)有的系統(tǒng)添加一個(gè)接口,來隱藏系統(tǒng)的復(fù)雜性,需要的朋友可以參考下2023-11-11
Springboot的ThreadPoolTaskScheduler線程池輕松搞定15分鐘不操作自動取消訂單
這篇文章主要介紹了Springboot的ThreadPoolTaskScheduler線程池輕松搞定15分鐘不操作自動取消訂單,本文給大家介紹的非常詳細(xì),需要的朋友可以參考下2025-01-01
Java中Scanner的常用方法總結(jié)(一次學(xué)懂)
這篇文章主要給大家介紹了關(guān)于Java中Scanner常用方法的相關(guān)資料,Java中的Scanner是一個(gè)用于讀取用戶輸入的類,它可以讀取各種類型的數(shù)據(jù),包括整數(shù)、浮點(diǎn)數(shù)、字符串等等,需要的朋友可以參考下2023-11-11

