博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
solr中文分词的种类
阅读量:4186 次
发布时间:2019-05-26

本文共 1310 字,大约阅读时间需要 4 分钟。

上一篇讲了使用solr4.3自带的smartcn进行中文分词,这一篇说一下,怎么使用IK进行分词,

在这之前先对中文分词的种类介绍一下,目前的中文分词主要有两种
1,基于中科院ICTCLAS的隐式马尔科夫hhmm算法的中文分词器,例如smartcn等。(不支持自定义扩展词库)
2,基于正向迭代最细粒度切分算法(正向最大匹配并且最细分词)例如IK,庖丁等(支持自定义扩展词库)
安装分词前,可以去
下载IK的分词包

Java代码  
  1. ikanalyzer-4.3.1-SNAPSHOT.jar  
ikanalyzer-4.3.1-SNAPSHOT.jar

下载完毕后,将此包放进solr的\WEB-INF\lib下面

Java代码  
  1. F:\eclipse10tomcat\webapps\solr\WEB-INF\lib  
F:\eclipse10tomcat\webapps\solr\WEB-INF\lib

下面需要在solr的schemal.xml进行分词器注册,给出代码如下

Java代码  
  1. <!--  配置IK分词器 -->  
  2.     <fieldType name="text_ik" class="solr.TextField" positionIncrementGap="100">  
  3.       <analyzer type="index">  
  4.       <!--  分词-->  
  5.         <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>  
  6.          <!--   禁用词过滤根据情况使用-->  
  7.         <!-- <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory"/> -->  
  8.       </analyzer>  
  9.       <analyzer type="query">  
  10.        <!--  分词-->  
  11.         <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>  
  12.         <!--   禁用词过滤根据情况使用-->  
  13.         <!-- <filter class="org.wltea.analyzer.lucene.IKStopFilterFactory"/>-->  
  14.       </analyzer>  
  15.     </fieldType>  

最后还得配置一个引用字段就OK了

Java代码  
  1. <field name="ik" type="text_ik" indexed="true" stored="true" multiValued="true"/>  

然后访问UI管理器页面,可以使用Analysis进行中文切词分析测试,个人感觉IK的词库要比smartcn的词库大,不过两者各有优缺点,可以视具体业务情况而定,选择自己项目最合适的分词器。

转载地址:http://tajoi.baihongyu.com/

你可能感兴趣的文章
领域]在实践中展望。。。(写给DDD注释版)
查看>>
[个人]回归
查看>>
[瞭望]RoR 在国内难以建立大型应用
查看>>
[啃书]身体使用手册 --《You:The owner's manual》
查看>>
[数据库]Oracle的培训讲师是个东北人
查看>>
[个人]分享ubuntu
查看>>
[豆趣]世界上仅存5只恐龙
查看>>
[豆趣]成长日记
查看>>
[个人] 确立了新的研究方向
查看>>
[领域]Javascript Hacking Guide part 1
查看>>
[领域] JavaScript Hacking Guide part2
查看>>
[个人]加入了ruby hacking guide的中文翻译团队
查看>>
[豆趣]去火
查看>>
[领域]javascript hacking guide 第3部分
查看>>
[领域]javascript hacking guide part 4
查看>>
[领域]javascript hacking guide 第5部分
查看>>
[领域]javascript hacking guide part 6
查看>>
[领域]javascript hacking guide 第7部分
查看>>
[个人]排错记
查看>>
[个人] 感受冬去春来
查看>>