上一篇讲了使用solr4.3自带的smartcn进行中文分词,这一篇说一下,怎么使用IK进行分词, 在这之前先对中文分词的种类介绍一下,目前的中文分词主要有两种 1,基于中科院ICTCLAS的隐式马尔科夫hhmm算法的中文分词器,例如smartcn等。(不支持自定义扩展词库) 2,基于正向迭代最细粒度切分算法(正向最大匹配并且最细分词)例如IK,庖丁等(支持自定义扩展词库) 安装分词前,可以去下载IK的分词包
- ikanalyzer-4.3.1-SNAPSHOT.jar
ikanalyzer-4.3.1-SNAPSHOT.jar下载完毕后,将此包放进solr的\WEB-INF\lib下面
- F:\eclipse10tomcat\webapps\solr\WEB-INF\lib
F:\eclipse10tomcat\webapps\solr\WEB-INF\lib下面需要在solr的schemal.xml进行分词器注册,给出代码如下
- <!-- 配置IK分词器 -->
- <fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">
- <analyzer type="index">
- <!-- 分词-->
- <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>
- <!-- 禁用词过滤根据情况使用-->
- <!-- <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory"/> -->
- </analyzer>
- <analyzer type="query">
- <!-- 分词-->
- <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>
- <!-- 禁用词过滤根据情况使用-->
- <!-- <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory"/>-->
- </analyzer>
- </fieldType>
最后还得配置一个引用字段就OK了
- <field name="ik" type="text_ik" indexed="true" stored="true" multiValued="true"/>
然后访问UI管理器页面,可以使用Analysis进行中文切词分析测试,个人感觉IK的词库要比smartcn的词库大,不过两者各有优缺点,可以视具体业务情况而定,选择自己项目最合适的分词器。