阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

全文检索引擎Solr系列——入门篇

414次阅读
没有评论

共计 4147 个字符,预计需要花费 11 分钟才能阅读完成。

Solr 采用 Lucene 搜索库为核心,提供全文索引和搜索开源企业平台,提供 REST 的 HTTP/XML 和 JSON 的 API,如果你是 Solr 新手,那么就和我一起来入门吧!本教程以 solr4.8 作为测试环境,jdk 版本需要 1.7 及以上版本。

准备

本文假设你对 Java 有初中级以上水平,因此不再介绍 Java 相关环境的配置。下载解压缩 solr,在 example 目录有 start.jar 文件,启动:

1
java -jar start.jar

浏览器访问:http://localhost:8983/solr/,你看到的就是 solr 的管理界面

索引数据

服务启动后,目前你看到的界面没有任何数据,你可以通过 POSTing 命令向 Solr 中添加(更新)文档,删除文档,在 exampledocs 目录包含一些示例文件,运行命令:

1
java -jar post.jar solr.xml monitor.xml

上面的命令是向 solr 添加了两份文档,打开这两个文件看看里面是什么内容,solr.xml 里面的内容是:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
<add>
<doc>
  <field name="id">SOLR1000</field>
  <field name="name">Solr, the Enterprise Search Server</field>
  <field name="manu">Apache Software Foundation</field>
  <field name="cat">software</field>
  <field name="cat">search</field>
  <field name="features">Advanced Full-Text Search Capabilities using Lucene</field>
  <field name="features">Optimized for High Volume Web Traffic</field>
  <field name="features">Standards Based Open Interfaces - XML and HTTP</field>
  <field name="features">Comprehensive HTML Administration Interfaces</field>
  <field name="features">Scalability - Efficient Replication to other Solr Search Servers</field>
  <field name="features">Flexible and Adaptable with XML configuration and Schema</field>
  <field name="features">Good unicode support: h&#xE9;llo (hello with an accent over the e)</field>
  <field name="price">0</field>
  <field name="popularity">10</field>
  <field name="inStock">true</field>
  <field name="incubationdate_dt">2006-01-17T00:00:00.000Z</field>
</doc>
</add>

表示向索引中添加一个文档,文档就是用来搜索的数据源,现在就可以通过管理界面搜索关键字”solr”,具体步骤是:
全文检索引擎 Solr 系列——入门篇

点击页面下的 Execute Query 按钮后右侧就会显示查询结果,这个结果就是刚才导入进去的 solr.xml 的 json 格式的展示结果。solr 支持丰富的查询语法,比如:现在想搜索字段 name 里面的关键字”Search”就可以用语法 name:search,当然如果你搜索name:xxx 就没有返回结果了,因为文档中没有这样的内容。

数据导入

导入数据到 Solr 的方式也是多种多样的:

  • 可以使用 DIH(DataImportHandler)从数据库导入数据
  • 支持 CSV 文件导入,因此 Excel 数据也能轻松导入
  • 支持 JSON 格式文档
  • 二进制文档比如:Word、PDF
  • 还能以编程的方式来自定义导入

更新数据

如果同一份文档 solr.xml 重复导入会出现什么情况呢?实际上 solr 会根据文档的字段 id 来唯一标识文档,如果导入的文档的 id 已经存在 solr 中,那么这份文档就被最新导入的同 id 的文档自动替换。你可以自己尝试试验一下,观察替换前后管理界面的几个参数:Num DocsMax DocDeleted Docs的变化。

  • numDocs:当前系统中的文档数量,它有可能大于 xml 文件个数,因为一个 xml 文件可能有多个 <doc> 标签。
  • maxDoc:maxDoc 有可能比 numDocs 的值要大,比如重复 post 同一份文件后,maxDoc 值就增大了。
  • deletedDocs:重复 post 的文件会替换掉老的文档,同时 deltedDocs 的值也会加 1,不过这只是逻辑上的删除,并没有真正从索引中移除掉

删除数据

通过 id 删除指定的文档,或者通过一个查询来删除匹配的文档

1
2
java -Ddata=args -jar post.jar "<delete><id>SOLR1000</id></delete>"
java -Ddata=args -jar post.jar "<delete><query>name:DDR</query></delete>"

此时 solr.xml 文档从索引中删除了,再次搜”solr”时不再返回结果。当然 solr 也有数据库中的事务,执行删除命令的时候事务自动提交了,文档就会立即从索引中删除。你也可以把 commit 设置为 false,手动提交事务。

1
java -Ddata=args  -Dcommit=false -jar post.jar "<delete><id>3007WFP</id></delete>"

执行完上面的命令时文档并没有真正删除,还是可以继续搜索相关结果,最后可以通过命令:

1
java -jar post.jar -

提交事务,文档就彻底删除了。现在把刚刚删除的文件重新导入 Solr 中来,继续我们的学习。

删除所有数据:

1
http://localhost:8983/solr/collection1/update?stream.body=<delete><query>*:*</query></delete>&commit=true

删除指定数据

1
http://localhost:8983/solr/collection1/update?stream.body=<delete><query>title:abc</query></delete>&commit=true

多条件删除

1
http://localhost:8983/solr/collection1/update?stream.body=<delete><query>title:abc AND name:zhang</query></delete>&commit=true

查询数据

查询数据都是通过 HTTP 的 GET 请求获取的,搜索关键字用参数 q 指定,另外还可以指定很多可选的参数来控制信息的返回,例如:用 fl 指定返回的字段,比如f1=name,那么返回的数据就只包括 name 字段的内容

1
http://localhost:8983/solr/collection1/select?q=solr&fl=name&wt=json&indent=true
  • 排序

    Solr 提供排序的功能,通过参数 sort 来指定,它支持正序、倒序,或者多个字段排序

    • q=video&sort=price desc
    • q=video&sort=price asc
    • q=video&sort=inStock asc, price desc
      默认条件下,Solr 根据socre 倒序排列,socre 是一条搜索记录根据相关度计算出来的一个分数。
  • 高亮

    网页搜索中,为了突出搜索结果,可能会对匹配的关键字高亮出来,Solr 提供了很好的支持,只要指定参数:

    • hl=true #开启高亮功能
    • hl.fl=name #指定需要高亮的字段
1
http://localhost:8983/solr/collection1/select?q=Search&wt=json&indent=true&hl=true&hl.fl=features
    返回的内容中包含:
1
2
3
4
5
"highlighting":{
       "SOLR1000":{
           "features":["Advanced Full-Text <em>Search</em> Capabilities using Lucene"]
       }
}

文本分析

文本字段通过把文本分割成单词以及运用各种转换方法(如:小写转换、复数移除、词干提取)后被索引,schema.xml 文件中定义了字段在索引中,这些字段将作用于其中.
默认情况下搜索”power-shot”是不能匹配”powershot”的,通过修改 schema.xml 文件(solr/example/solr/collection1/conf 目录),把 features 和 text 字段替换成”text_en_splitting”类型,就能索引到了。

1
2
3
<field name="features" type="text_en_splitting" indexed="true" stored="true" multiValued="true"/>
...
<field name="text" type="text_en_splitting" indexed="true" stored="false" multiValued="true"/>

修改完后重启 solr,然后重新导入文档

1
java -jar post.jar *.xml

现在就可以匹配了

  • power-shot—>Powershot
  • features:recharing—>Rechargeable
  • 1 gigabyte –> 1G

总结

作为入门文章,本文没有引入太多概念。安装到部署,文档更新,对 solr 有了初步感性的认识,下一篇将介绍全文检索的基本原理。

正文完
星哥玩云-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-20发表,共计4147字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中

星哥玩云

星哥玩云
星哥玩云
分享互联网知识
用户数
4
文章数
19351
评论数
4
阅读量
7982252
文章搜索
热门文章
星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛NAS-6:抖音视频同步工具,视频下载自动下载保存

星哥带你玩飞牛 NAS-6:抖音视频同步工具,视频下载自动下载保存 前言 各位玩 NAS 的朋友好,我是星哥!...
星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛NAS-3:安装飞牛NAS后的很有必要的操作

星哥带你玩飞牛 NAS-3:安装飞牛 NAS 后的很有必要的操作 前言 如果你已经有了飞牛 NAS 系统,之前...
我把用了20年的360安全卫士卸载了

我把用了20年的360安全卫士卸载了

我把用了 20 年的 360 安全卫士卸载了 是的,正如标题你看到的。 原因 偷摸安装自家的软件 莫名其妙安装...
再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见zabbix!轻量级自建服务器监控神器在Linux 的完整部署指南

再见 zabbix!轻量级自建服务器监控神器在 Linux 的完整部署指南 在日常运维中,服务器监控是绕不开的...
飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛NAS中安装Navidrome音乐文件中文标签乱码问题解决、安装FntermX终端

飞牛 NAS 中安装 Navidrome 音乐文件中文标签乱码问题解决、安装 FntermX 终端 问题背景 ...
阿里云CDN
阿里云CDN-提高用户访问的响应速度和成功率
随机文章
安装并使用谷歌AI编程工具Antigravity(亲测有效)

安装并使用谷歌AI编程工具Antigravity(亲测有效)

  安装并使用谷歌 AI 编程工具 Antigravity(亲测有效) 引言 Antigravity...
12.2K Star 爆火!开源免费的 FileConverter:右键一键搞定音视频 / 图片 / 文档转换,告别多工具切换

12.2K Star 爆火!开源免费的 FileConverter:右键一键搞定音视频 / 图片 / 文档转换,告别多工具切换

12.2K Star 爆火!开源免费的 FileConverter:右键一键搞定音视频 / 图片 / 文档转换...
CSDN,你是老太太喝粥——无齿下流!

CSDN,你是老太太喝粥——无齿下流!

CSDN,你是老太太喝粥——无齿下流! 大家好,我是星哥,今天才思枯竭,不写技术文章了!来吐槽一下 CSDN。...
开源MoneyPrinterTurbo 利用AI大模型,一键生成高清短视频!

开源MoneyPrinterTurbo 利用AI大模型,一键生成高清短视频!

  开源 MoneyPrinterTurbo 利用 AI 大模型,一键生成高清短视频! 在短视频内容...
我用AI做了一个1978年至2019年中国大陆企业注册的查询网站

我用AI做了一个1978年至2019年中国大陆企业注册的查询网站

我用 AI 做了一个 1978 年至 2019 年中国大陆企业注册的查询网站 最近星哥在 GitHub 上偶然...

免费图片视频管理工具让灵感库告别混乱

一言一句话
-「
手气不错
星哥带你玩飞牛NAS硬件 01:捡垃圾的最爱双盘,暴风二期矿渣为何成不老神话?

星哥带你玩飞牛NAS硬件 01:捡垃圾的最爱双盘,暴风二期矿渣为何成不老神话?

星哥带你玩飞牛 NAS 硬件 01:捡垃圾的最爱双盘,暴风二期矿渣为何成不老神话? 前言 在选择 NAS 用预...
开源MoneyPrinterTurbo 利用AI大模型,一键生成高清短视频!

开源MoneyPrinterTurbo 利用AI大模型,一键生成高清短视频!

  开源 MoneyPrinterTurbo 利用 AI 大模型,一键生成高清短视频! 在短视频内容...
240 元左右!五盘位 NAS主机,7 代U硬解4K稳如狗,拓展性碾压同价位

240 元左右!五盘位 NAS主机,7 代U硬解4K稳如狗,拓展性碾压同价位

  240 元左右!五盘位 NAS 主机,7 代 U 硬解 4K 稳如狗,拓展性碾压同价位 在 NA...
国产开源公众号AI知识库 Agent:突破未认证号限制,一键搞定自动回复,重构运营效率

国产开源公众号AI知识库 Agent:突破未认证号限制,一键搞定自动回复,重构运营效率

国产开源公众号 AI 知识库 Agent:突破未认证号限制,一键搞定自动回复,重构运营效率 大家好,我是星哥,...
颠覆 AI 开发效率!开源工具一站式管控 30+大模型ApiKey,秘钥付费+负载均衡全搞定

颠覆 AI 开发效率!开源工具一站式管控 30+大模型ApiKey,秘钥付费+负载均衡全搞定

  颠覆 AI 开发效率!开源工具一站式管控 30+ 大模型 ApiKey,秘钥付费 + 负载均衡全...