阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

Solr 6.6.0 配置IKAnalyzer中文分词

97次阅读
没有评论

共计 1905 个字符,预计需要花费 5 分钟才能阅读完成。

IKAnalyzer 是一个开源的,基于 Java 语言开发的轻量级的中文分词工具包。从 2006 年 12 月推出 1.0 版开始,IKAnalyzer 已经推出了 3 个大版本。最初,它是以开源项目 Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。新版本的 IKAnalyzer3.0 则发展为面向 Java 的公用分词组件,独立于 Lucene 项目,同时提供了对 Lucene 的默认优化实现。GitHub 的地址是 https://github.com/wks/ik-analyzer,Google 的地址是 https://code.google.com/archive/p/ik-analyzer/。官方好久没更新了。

1. 下载ikanalyzer-solr6.5.zippinyin.zip(,见本文下面,这里这两个文件已经配置好了);

2. 解压 ikanalyzer-solr6.5.zip

ext.dicIKAnalyzer.cfg.xmlstopword.dic 复制到 Tomcat \webapps\solr\WEB-INF\classes 中,把ik-analyzer-solr5-5.x.jarsolr-analyzer-ik-5.1.0.jar 复制到 Tomcat \webapps\solr\WEB-INF\lib 中;
3. 打开 webapps\solr\solrhome{{core_name}}\conf 下的 managed-schema 文件,在</schema> 前加入配置:

 <!-- IK 分词 -->
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="false"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.apache.lucene.analysis.ik.IKTokenizerFactory" useSmart="true"/>
</analyzer>
</fieldType>

这里说下 useSmart,我试过,当设置为 true 时,分词粒度比较小,支取权重比较高的分词,当设置为 false 时,分词粒度比较小,能匹配多个词;

到这里,IKAnalyzer 就算配置完毕,可以直接在后台调试分词了。

—————————————— 分割线 ——————————————

ikanalyzer-solr6.5.zippinyin.zip 可以到 Linux 公社 1 号 FTP 服务器下载

FTP 地址:ftp://ftp1.linuxidc.com

用户名:ftp1.linuxidc.com

密码:www.linuxidc.com

在 2017 年 LinuxIDC.com//12 月 /Solr 6.6.0 配置 IKAnalyzer 中文分词 /

下载方法见 http://www.linuxidc.com/Linux/2013-10/91140.htm

—————————————— 分割线 —————————————— 

更多 Solr 相关教程见以下内容

CentOS7 下搭建 Solr 6.6 全文检索服务器及 IK 分词器配置  http://www.linuxidc.com/Linux/2017-12/149897.htm

Apache Solr: 安装和运行 http://www.linuxidc.com/Linux/2016-12/138527.htm

Solr 实现 Low Level 查询解析(QParser)http://www.linuxidc.com/Linux/2012-05/59755.htm

Solr6.0.0 + Tomcat8 配置问题 http://www.linuxidc.com/Linux/2016-05/131845.htm

CentOS 6.7 下单机部署 Solr 7.1.0  http://www.linuxidc.com/Linux/2017-12/149889.htm

Solr 的详细介绍:请点这里
Solr 的下载地址:请点这里

本文永久更新链接地址:http://www.linuxidc.com/Linux/2017-12/149900.htm

正文完
星哥说事-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-21发表,共计1905字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中