solr中文分词的种类-白红宇

solr中文分词的种类

阅读量：4186 次

发布时间：2019-05-26

本文共 1310 字，大约阅读时间需要 4 分钟。

上一篇讲了使用solr4.3自带的smartcn进行中文分词，这一篇说一下，怎么使用IK进行分词，

在这之前先对中文分词的种类介绍一下，目前的中文分词主要有两种
1，基于中科院ICTCLAS的隐式马尔科夫hhmm算法的中文分词器，例如smartcn等。（不支持自定义扩展词库）
2，基于正向迭代最细粒度切分算法（正向最大匹配并且最细分词）例如IK，庖丁等（支持自定义扩展词库）
安装分词前，可以去下载IK的分词包

Java代码

ikanalyzer-4.3.1-SNAPSHOT.jar

ikanalyzer-4.3.1-SNAPSHOT.jar

下载完毕后，将此包放进solr的\WEB-INF\lib下面

Java代码

F:\eclipse10tomcat\webapps\solr\WEB-INF\lib

F:\eclipse10tomcat\webapps\solr\WEB-INF\lib

下面需要在solr的schemal.xml进行分词器注册,给出代码如下

Java代码

<fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">

<analyzer type="index">

<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>

</analyzer>

<analyzer type="query">

<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>

</analyzer>

</fieldType>

最后还得配置一个引用字段就OK了

Java代码

<field name="ik" type="text_ik" indexed="true" stored="true" multiValued="true"/>

然后访问UI管理器页面，可以使用Analysis进行中文切词分析测试，个人感觉IK的词库要比smartcn的词库大，不过两者各有优缺点，可以视具体业务情况而定，选择自己项目最合适的分词器。

转载地址：http://tajoi.baihongyu.com/

你可能感兴趣的文章