阿里云-云小站(无限量代金券发放中)
【腾讯云】云服务器、云数据库、COS、CDN、短信等热卖云产品特惠抢购

使用Lucene对预处理后的文档进行创建索引(可运行)

189次阅读
没有评论

共计 2729 个字符,预计需要花费 7 分钟才能阅读完成。

对于文档的预处理后,就要开始使用 Lucene 来处理相关的内容了。

这里使用的 Lucene 的步骤如下:

首先要为处理对象机那里索引

二是构建查询对象

三是在索引中查找

这里的代码是处理创建索引的部分

代码:

package ch2.lucenedemo.process;

import java.io.BufferedReader;
import java.io.File;
import java.io.FileReader;
import java.io.IOException;

import jeasy.analysis.MMAnalyzer;

import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.Field.Index;
import org.apache.lucene.index.IndexWriter;
public class IndexProcessor {
// 成员变量,存储创建的索引文件存放的位置
private String INDEX_STORE_PATH = “E:\\Lucene 项目 \\ 索引目录 ”;

// 创建索引
public void createIndex(String inputDir){
try
{
System.out.println(“ 程序开始运行,正在创建索引 ->->->->->”);
IndexWriter writer = new IndexWriter(INDEX_STORE_PATH, new MMAnalyzer(), true);

File filesDir = new File(inputDir);

// 取得所有需要建立索引的文件数组
File[] files = filesDir.listFiles();

// 遍历数组
for(int i = 0; i < files.length; i++){

// 获取文件名
String fileName = files[i].getName();

// 判断文件是否为 txt 类型的文件
if(fileName.substring(fileName.lastIndexOf(“.”)).equals(“.txt”)){

// 创建一个新的 Document
Document doc = new Document();
System.out.println(“ 正在为文件名创建索引 ->->->->”);
// 为文件名创建一个 Field
Field field = new Field(“filename”, files[i].getName(), Field.Store.YES, Field.Index.TOKENIZED);
doc.add(field);
System.out.println(“ 正在为文件内容创建索引 ->->->->”);
// 为文件内容创建一个 Field
field = new Field(“content”, loadFileToString(files[i]), Field.Store.NO, Field.Index.TOKENIZED);
doc.add(field);

// 把 Document 加入到 IndexWriter
writer.addDocument(doc);

}

}
writer.close();
System.out.println(“ 程序创建结束 ->->->->”);
}catch(Exception e){
e.printStackTrace();
}

}

/*
* 从文件中把内容读取出来,所有的内容就放在一个 String 中返回
* */
public String loadFileToString(File file){
try{
BufferedReader br = new BufferedReader(new FileReader(file));
StringBuffer sb = new StringBuffer();
String line= br.readLine();
while(line != null){
sb.append(line);
line = br.readLine();
}
br.close();
return sb.toString();
}catch(IOException e){
e.printStackTrace();
return null;
}
}

public static void main(String[] args){
IndexProcessor ip = new IndexProcessor();
ip.createIndex(“E:\\Lucene 项目 \\ 目标文件 ”);

}

}

————————————– 分割线 ————————————–

基于 Lucene 多索引进行索引和搜索 http://www.linuxidc.com/Linux/2012-05/59757.htm

Lucene 实战 (第 2 版) 中文版 配套源代码 http://www.linuxidc.com/Linux/2013-10/91055.htm

Lucene 实战 (第 2 版) PDF 高清中文版 http://www.linuxidc.com/Linux/2013-10/91052.htm

使用 Lucene-Spatial 实现集成地理位置的全文检索 http://www.linuxidc.com/Linux/2012-02/53117.htm

Lucene + Hadoop 分布式搜索运行框架 Nut 1.0a9 http://www.linuxidc.com/Linux/2012-02/53113.htm

Lucene + Hadoop 分布式搜索运行框架 Nut 1.0a8 http://www.linuxidc.com/Linux/2012-02/53111.htm

Lucene + Hadoop 分布式搜索运行框架 Nut 1.0a7 http://www.linuxidc.com/Linux/2012-02/53110.htm

Project 2-1: 配置 Lucene, 建立 WEB 查询系统 [Ubuntu 10.10] http://www.linuxidc.com/Linux/2010-11/30103.htm

————————————– 分割线 ————————————–

Lucene 的详细介绍 :请点这里
Lucene 的下载地址 :请点这里

本文永久更新链接地址 :http://www.linuxidc.com/Linux/2015-03/115263.htm

正文完
星哥说事-微信公众号
post-qrcode
 0
星锅
版权声明:本站原创文章,由 星锅 于2022-01-20发表,共计2729字。
转载说明:除特殊说明外本站文章皆由CC-4.0协议发布,转载请注明出处。
【腾讯云】推广者专属福利,新客户无门槛领取总价值高达2860元代金券,每种代金券限量500张,先到先得。
阿里云-最新活动爆款每日限量供应
评论(没有评论)
验证码
【腾讯云】云服务器、云数据库、COS、CDN、短信等云产品特惠热卖中