Solr通過特殊字符分詞實現(xiàn)自定義分詞器詳解
前言
我們在對英文句子分詞的時候,一般采用采用的分詞器是WhiteSpaceTokenizerFactory,有一次因業(yè)務(wù)要求,需要根據(jù)某一個特殊字符(以逗號分詞,以豎線分詞)分詞。感覺這種需求可能與WhiteSpaceTokenizerFactory相像,于是自己根據(jù)Solr源碼自定義了分詞策略。
業(yè)務(wù)場景
有一次,我拿到的數(shù)據(jù)都是以豎線“|”分隔,分詞的時候,需要以豎線為分詞單元。比如下面的這一堆數(shù)據(jù):

有可能你拿到的是這樣的數(shù)據(jù),典型的例子就是來自csv文件的數(shù)據(jù),格式和下面這種類似:

分詞思路
在Solr的schema.xml文件中,有這樣的配置
<fieldType name="text_ws" class="solr.TextField" positionIncrementGap="100"> <analyzer> <tokenizer class="solr.WhitespaceTokenizerFactory"/> </analyzer> </fieldType>
對于字段類型text_ws,指定了一個分詞器工廠WhitespaceTokenizerFactory,根據(jù)這個類,可以實現(xiàn)通過空格來分詞,那么我通過豎線分詞的代碼應(yīng)該與之類似。
修改源碼
在Java工程中引入如下jar包:
<dependency> <groupId>org.apache.solr</groupId> <artifactId>solr-core</artifactId> <version>6.0.0</version> </dependency>
參照WhitespaceTokenizerFactory的源碼,寫一個自己的MyVerticalLineTokenizerFactory,內(nèi)容基本不變:
package com.trainning.project.custom;
import java.util.Arrays;
import java.util.Collection;
import java.util.Map;
import org.apache.lucene.analysis.Tokenizer;
import org.apache.lucene.analysis.core.UnicodeWhitespaceTokenizer;
import org.apache.lucene.analysis.util.TokenizerFactory;
import org.apache.lucene.util.AttributeFactory;
/**
* @author JiangChao
* @date 2017年4月2日下午3:41:13
*/
public class MyVerticalLineTokenizerFactory extends TokenizerFactory{
public static final String RULE_JAVA = "java";
public static final String RULE_UNICODE = "unicode";
private static final Collection<String> RULE_NAMES = Arrays.asList(RULE_JAVA, RULE_UNICODE);
private final String rule;
/** Creates a new MyVerticalLineTokenizerFactory */
public MyVerticalLineTokenizerFactory(Map<String,String> args) {
super(args);
rule = get(args, "rule", RULE_NAMES, RULE_JAVA);
if (!args.isEmpty()) {
throw new IllegalArgumentException("Unknown parameters: " + args);
}
}
@Override
public Tokenizer create(AttributeFactory factory) {
switch (rule) {
case RULE_JAVA:
return new MyVerticalLineTokenizer(factory);
case RULE_UNICODE:
return new UnicodeWhitespaceTokenizer(factory);
default:
throw new AssertionError();
}
}
}
具體做分詞的MyVerticalLineTokenizer代碼如下
package com.trainning.project.custom;
import org.apache.lucene.analysis.util.CharTokenizer;
import org.apache.lucene.util.AttributeFactory;
/**
* @author JiangChao
* @date 2017年4月2日下午9:46:18
*/
public class MyVerticalLineTokenizer extends CharTokenizer {
public MyVerticalLineTokenizer() {
}
public MyVerticalLineTokenizer(AttributeFactory factory) {
super(factory);
}
/** Collects only characters which do not satisfy
* 參數(shù)c指的是term的ASCII值,豎線的值為 124
*/
@Override
protected boolean isTokenChar(int c) {
return !(c == 124);
}
}
這里最主要的方法就是isTokenChar,它控制了分詞的字符,如果需要使用逗號分詞的話,字需要將這個方法修改成下面這樣:
/** Collects only characters which do not satisfy
* 參數(shù)c指的是term的ASCII值,逗號的值為 44
*/
@Override
protected boolean isTokenChar(int c) {
return !(c == 44);
}
整合
代碼寫好了,怎么使用呢?首先,需要把剛才的java文件打成jar包。我使用的是Eclipse,直接選中兩個類文件,右鍵 -> Export -> JAR File -> Select the export destination: ->選擇輸出路徑,填一個jar名字:MyVerticalLineTokenizerFactory -> Finish
得到的MyVerticalLineTokenizerFactory.jar文件大約3KB,將改文件放置到.\solr_home\lib下,在shcema.xml中定義自己的field
<fieldType name="vertical_text" class="solr.TextField"> <analyzer> <tokenizer class="com.trainning.project.custom.MyVerticalLineTokenizerFactory"/> </analyzer> </fieldType> <field name="custom" type="vertical_text" indexed="true" stored="false"/>
注意這里的class是剛才自己寫的分詞器的完整類名。
打開Solr主頁,在Analysis頁面測試一下,是否實現(xiàn)了預(yù)期?
源碼下載:
GitHub:下載地址
本地下載:鏈接地址
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作能帶來一定的幫助,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。
相關(guān)文章
Spring解讀@Component和@Configuration的區(qū)別以及源碼分析
通過實例分析@Component和@Configuration注解的區(qū)別,核心在于@Configuration會通過CGLIB代理確保Bean的單例,而@Component不會,在Spring容器中,使用@Configuration注解的類會被CGLIB增強,保證了即使在同一個類中多次調(diào)用@Bean方法2024-10-10
Spring的refresh()方法相關(guān)異常解析
這篇文章主要介紹了Spring的refresh()方法相關(guān)異常解析,具有一定參考價值,需要的朋友可以了解下。2017-11-11

