参考文档
一:什么是全文检索
数据分类
结构化数据:有固定的格式和有限的长度,比如Oracle和mysql数据库中的数据,可以利用sql语句查询,如果查询的数据量大时,可以在数据库中创建索引,但是此时不支持模糊查询
非结构化数据:没有固定的的格式和长度,比如磁盘上的文件如txt,pdf等,)顺序扫描法(Serial Scanning),全文检索(Full-text Search)
对数据源创建索引,在索引库中搜索
二:如何实现全文检索
使用Lucene
三:什么是Lucene
Lucene是apache软件基金会4 jakarta项目组的一个子项目,是一个开放源代码的全文检索引擎工具包
四:Lucene实现流程
获得文档对象:
应用场景:站内搜索,通过IO流
构建文档对象:
获取原始内容的目的是为了索引,在索引前需要将原始内容创建成文档(Document),文档中包括一个一个的域(Field),域中存储内容。
这里我们可以将磁盘上的一个文件当成一个document,Document中包括一些Field(file_name文件名称、file_path文件路径、file_size文件大小、file_content文件内容),如下图:
注意: (1)每个Document可以有多个Field
(2)不同的Document可以有不同的Field
(3)同一个Document可以有相同的Field(域名和域值都相同)
(4)每个文档都有一个唯一的编号,就是文档id。
分析文档:
将原始内容创建为包含域(Field)的文档(document),需要再对域中的内容进行分析,分析的过程是经过对原始文档提取单词、将字母转为小写、去除标点符号、去除停用词等过程生成最终的语汇单元,可以将语汇单元理解为一个一个的单词。
比如下边的文档经过分析如下:
原文档内容:
Lucene is a Java full-text search engine.
分析后得到的语汇单元:
lucene、java、full、search、engine
每个单词叫做一个Term,不同的域中拆分出来的相同的单词是不同的term。term中包含两部分一部分是文档的域名,另一部分是单词的内容。
例如:文件名中包含apache和文件内容中包含的apache是不同的term。
创建索引:
根据不同的term找到对应的Document
注意: (1)创建索引是对语汇单元索引,通过词语找文档,这种索引的结构叫倒排索引结构。
(2)传统方法是根据文件找到该文件的内容,在文件内容中匹配搜索关键字,这种方法是顺序扫描方法,数据量大、搜索慢。
用户查询接口:
搜索框输入关键字
五:入门案例
导入相关jar包
IndexWriterTest.java
1 package com.it.lucene;
2
3 import java.io.File;
4 import java.io.IOException;
5
6 import org.apache.commons.io.FileUtils;
7 import org.apache.lucene.analysis.Analyzer;
8 import org.apache.lucene.analysis.standard.StandardAnalyzer;
9 import org.apache.lucene.document.Document;
10 import org.apache.lucene.document.Field;
11 import org.apache.lucene.document.Field.Store;
12 import org.apache.lucene.document.TextField;
13 import org.apache.lucene.index.IndexWriter;
14 import org.apache.lucene.index.IndexWriterConfig;
15 import org.apache.lucene.store.Directory;
16 import org.apache.lucene.store.FSDirectory;
17
18 public class lucene_first {
19 public static void main(String[] args) throws Exception {
20 //1,指定索引库位置
21 Directory directory =FSDirectory.open(new File("D:\\BaiduNetdiskDownload\\lucene\\indexDatebase").toPath());
22 //指定分词器
23 Analyzer analyzer=new StandardAnalyzer();
24 IndexWriterConfig config=new IndexWriterConfig(analyzer);
25
26 //2,创建写入索引的对象
27 IndexWriter indexWriter=new IndexWriter(directory, config);
28
29 //3获取原文档
30 File scrFile=new File("D:\\BaiduNetdiskDownload\\lucene\\searchSource");
31 //遍历
32 File[] listFiles = scrFile.listFiles();
33 for (File file : listFiles) {
34 Document doc=new Document();
35 //将域写入到文档中
36 //1),文件名称
37 String name = file.getName();
38 Field fileName=new TextField("name",name, Store.YES);
39 doc.add(fileName);
40 //2),文件大小
41 long size = FileUtils.sizeOf(file);
42 Field fileSize=new TextField("size",size+"", Store.YES);
43 doc.add(fileSize);
44 //3),文件路径
45 String path = file.getPath();
46 Field filePath=new TextField("path",path+"", Store.YES);
47 doc.add(filePath);
48 //4),文件内容
49 String content = FileUtils.readFileToString(file);
50 Field fileContent=new TextField("content",content, Store.YES);
51 doc.add(fileContent);
52
53 //4,将文档写入索引库
54 indexWriter.addDocument(doc);
55 }
56 //5关闭资源
57 indexWriter.close();
58 }
59 }
运行程序后,在索引库中可以查看到索引文件,通过luke可视化工具查看到
IndexReaderTest.java
1 package com.it.lucene;
2
3 import java.io.File;
4 import java.io.IOException;
5
6 import org.apache.commons.io.FileUtils;
7 import org.apache.lucene.analysis.Analyzer;
8 import org.apache.lucene.analysis.standard.StandardAnalyzer;
9 import org.apache.lucene.document.Document;
10 import org.apache.lucene.document.Field;
11 import org.apache.lucene.document.Field.Store;
12 import org.apache.lucene.document.TextField;
13 import org.apache.lucene.index.DirectoryReader;
14 import org.apache.lucene.index.IndexReader;
15 import org.apache.lucene.index.IndexWriter;
16 import org.apache.lucene.index.IndexWriterConfig;
17 import org.apache.lucene.index.Term;
18 import org.apache.lucene.search.IndexSearcher;
19 import org.apache.lucene.search.Query;
20 import org.apache.lucene.search.ScoreDoc;
21 import org.apache.lucene.search.TermQuery;
22 import org.apache.lucene.search.TopDocs;
23 import org.apache.lucene.store.Directory;
24 import org.apache.lucene.store.FSDirectory;
25
26 public class IndexReaderTest {
27 public static void main(String[] args) throws Exception {
28 //1,指定索引库位置
29 Directory directory =FSDirectory.open(new File("D:\\BaiduNetdiskDownload\\lucene\\indexDatebase").toPath());
30 //2,创建索引读取对象
31 IndexReader indexReader=DirectoryReader.open(directory);
32 //3,创建索引查询对象
33 IndexSearcher indexSearcher=new IndexSearcher(indexReader);
34 //4,查询条件
35 Query query=new TermQuery(new Term("content","spring"));
36 //5,返回查询结果
37 TopDocs result = indexSearcher.search(query, 100);//100指最多返回100个Document
38 System.out.println("总记录数:"+result.totalHits);
39 ScoreDoc[] scoreDocs = result.scoreDocs;
40 for (ScoreDoc scoreDoc : scoreDocs) {
41 int docId = scoreDoc.doc;
42 //获取文件
43 Document doc = indexSearcher.doc(docId);
44 System.out.println("文件名"+doc.get("name"));
45 System.out.println("文件路径"+doc.get("path"));
46 }
47 //6,关闭资源
48 indexReader.close();
49 }
50 }
六:分词器(Aanlyzer)
每个分词器都有tokenStream()方法
中文一般使用第三方分词器IK-Aanlyzer(需要导入相应的包)
下载地址: https://pan.baidu.com/s/1BAujr36FozHuwt6JyVFpHQ 提取码: m3mt
注意:搜索使用的分析器要和索引使用的分析器一致,不然搜索出来结果可能会错乱。
七:Field域的属性概述
是否分析:即是否分词
是否索引:即是否添加到索引库中用来检索
是否存储:即是否用来展示出来
如下图:
Field类
数据类型
Analyzed
是否分析
Indexed
是否索引
Stored
是否存储
说明
StringField(FieldName, FieldValue,Store.YES))
字符串
N
Y
Y或N
这个Field用来构建一个字符串Field,但是不会进行分析,会将整个串存储在索引中,比如(订单号,姓名等)
是否存储在文档中用Store.YES或Store.NO决定
LongField(FieldName, FieldValue,Store.YES)
Long型
Y
Y
Y或N
这个Field用来构建一个Long数字型Field,进行分析和索引,比如(价格)
是否存储在文档中用Store.YES或Store.NO决定
StoredField(FieldName, FieldValue)
重载方法,支持多种类型
N
N
Y
这个Field用来构建不同类型Field
不分析,不索引,但要Field存储在文档中
TextField(FieldName, FieldValue, Store.NO)
或
TextField(FieldName, reader)
字符串
或
流
Y
Y
Y或N
如果是一个Reader, lucene猜测内容比较多,会采用Unstored的策略.
八:索引查询
1,MatchAllDocsQuery(查询索引库中的全部Document)
2,TermQuery(精准查询)
3,NumericRangeQuery(根据数值范围查询)
示例代码:
1 //数值范围查询
2 @Test
3 public void testNumericRangeQuery() throws Exception {
4 //创建一个Directory对象,指定索引库存放的路径
5 Directory directory = FSDirectory.open(new File("E:\\programme\\test"));
6 //创建IndexReader对象,需要指定Directory对象
7 IndexReader indexReader = DirectoryReader.open(directory);
8 //创建Indexsearcher对象,需要指定IndexReader对象
9 IndexSearcher indexSearcher = new IndexSearcher(indexReader);
10
11 //创建查询
12 //参数:
13 //1.域名
14 //2.最小值
15 //3.最大值
16 //4.是否包含最小值
17 //5.是否包含最大值
18 Query query = NumericRangeQuery.newLongRange("fileSize", 41L, 2055L, true, true);
19 //执行查询
20
21 //第一个参数是查询对象,第二个参数是查询结果返回的最大值
22 TopDocs topDocs = indexSearcher.search(query, 10);
23
24 //查询结果的总条数
25 System.out.println("查询结果的总条数:"+ topDocs.totalHits);
26 //遍历查询结果
27 //topDocs.scoreDocs存储了document对象的id
28 //ScoreDoc[] scoreDocs = topDocs.scoreDocs;
29 for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
30 //scoreDoc.doc属性就是document对象的id
31 //int doc = scoreDoc.doc;
32 //根据document的id找到document对象
33 Document document = indexSearcher.doc(scoreDoc.doc);
34 //文件名称
35 System.out.println(document.get("fileName"));
36 //文件内容
37 System.out.println(document.get("fileContent"));
38 //文件大小
39 System.out.println(document.get("fileSize"));
40 //文件路径
41 System.out.println(document.get("filePath"));
42 System.out.println("----------------------------------");
43 }
44 //关闭indexreader对象
45 indexReader.close();
46 }
4,BooleanQuery(组合条件查询)
示例代码:
1 //组合条件查询
2 2 @Test
3 3 public void testBooleanQuery() throws Exception {
4 4 //创建一个Directory对象,指定索引库存放的路径
5 5 Directory directory = FSDirectory.open(new File("E:\\programme\\test"));
6 6 //创建IndexReader对象,需要指定Directory对象
7 7 IndexReader indexReader = DirectoryReader.open(directory);
8 8 //创建Indexsearcher对象,需要指定IndexReader对象
9 9 IndexSearcher indexSearcher = new IndexSearcher(indexReader);
10 10
11 11 //创建一个布尔查询对象
12 12 BooleanQuery query = new BooleanQuery();
13 13 //创建第一个查询条件
14 14 Query query1 = new TermQuery(new Term("fileName", "apache"));
15 15 Query query2 = new TermQuery(new Term("fileName", "lucene"));
16 16 //组合查询条件
17 17 /*
18 18 Occur.MUST:必须满足此条件,相当于and
19 19
20 20 Occur.SHOULD:应该满足,但是不满足也可以,相当于or
21 21
22 22 Occur.MUST_NOT:必须不满足。相当于not*/
23 23
24 17 query.add(query1, Occur.MUST);
25 18 query.add(query2, Occur.MUST);
26 19 //执行查询
27 20
28 21 //第一个参数是查询对象,第二个参数是查询结果返回的最大值
29 22 TopDocs topDocs = indexSearcher.search(query, 10);
30 23
31 24 //查询结果的总条数
32 25 System.out.println("查询结果的总条数:"+ topDocs.totalHits);
33 26 //遍历查询结果
34 27 //topDocs.scoreDocs存储了document对象的id
35 28 //ScoreDoc[] scoreDocs = topDocs.scoreDocs;
36 29 for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
37 30 //scoreDoc.doc属性就是document对象的id
38 31 //int doc = scoreDoc.doc;
39 32 //根据document的id找到document对象
40 33 Document document = indexSearcher.doc(scoreDoc.doc);
41 34 //文件名称
42 35 System.out.println(document.get("fileName"));
43 36 //文件内容
44 37 System.out.println(document.get("fileContent"));
45 38 //文件大小
46 39 System.out.println(document.get("fileSize"));
47 40 //文件路径
48 41 System.out.println(document.get("filePath"));
49 42 System.out.println("----------------------------------");
50 43 }
51 44 //关闭indexreader对象
52 45 indexReader.close();
53 46 }
5,queryparser(更具查询语法查询)
查询语法
1、基础的查询语法,关键词查询:
域名+“:”+搜索的关键字
例如:content:java
2、范围查询
域名+“:”+[最小值 TO 最大值]
例如:size:[1 TO 1000]
范围查询在lucene中支持数值类型,不支持字符串类型。在solr中支持字符串类型。
3、组合条件查询
1)+条件1 +条件2:两个条件之间是并且的关系and
例如:+filename:apache +content:apache
2)+条件1 条件2:必须满足第一个条件,应该满足第二个条件
例如:+filename:apache content:apache
3)条件1 条件2:两个条件满足其一即可。
例如:filename:apache content:apache
4)-条件1 条件2:必须不满足条件1,要满足条件2
例如:-filename:apache content:apache
示例代码:
1 @Test
2 public void testQueryParser() throws Exception {
3 //创建一个Directory对象,指定索引库存放的路径
4 Directory directory = FSDirectory.open(new File("E:\\programme\\test"));
5 //创建IndexReader对象,需要指定Directory对象
6 IndexReader indexReader = DirectoryReader.open(directory);
7 //创建Indexsearcher对象,需要指定IndexReader对象
8 IndexSearcher indexSearcher = new IndexSearcher(indexReader);
9
10 //创建queryparser对象
11 //第一个参数默认搜索的域
12 //第二个参数就是分析器对象
13 QueryParser queryParser = new QueryParser("fileName", new IKAnalyzer());
14 //使用默认的域,这里用的是语法,下面会详细讲解一下
15 Query query = queryParser.parse("apache");
16 //不使用默认的域,可以自己指定域
17 //Query query = queryParser.parse("fileContent:apache");
18 //执行查询
19
20
21 //第一个参数是查询对象,第二个参数是查询结果返回的最大值
22 TopDocs topDocs = indexSearcher.search(query, 10);
23
24 //查询结果的总条数
25 System.out.println("查询结果的总条数:"+ topDocs.totalHits);
26 //遍历查询结果
27 //topDocs.scoreDocs存储了document对象的id
28 //ScoreDoc[] scoreDocs = topDocs.scoreDocs;
29 for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
30 //scoreDoc.doc属性就是document对象的id
31 //int doc = scoreDoc.doc;
32 //根据document的id找到document对象
33 Document document = indexSearcher.doc(scoreDoc.doc);
34 //文件名称
35 System.out.println(document.get("fileName"));
36 //文件内容
37 System.out.println(document.get("fileContent"));
38 //文件大小
39 System.out.println(document.get("fileSize"));
40 //文件路径
41 System.out.println(document.get("filePath"));
42 System.out.println("----------------------------------");
43 }
44 //关闭indexreader对象
45 indexReader.close();
46 }
6,MultiFieldQueryParser(指定多个默认域)
示例代码:
1 @Test
2 public void testMultiFiledQueryParser() throws Exception {
3 //创建一个Directory对象,指定索引库存放的路径
4 Directory directory = FSDirectory.open(new File("E:\\programme\\test"));
5 //创建IndexReader对象,需要指定Directory对象
6 IndexReader indexReader = DirectoryReader.open(directory);
7 //创建Indexsearcher对象,需要指定IndexReader对象
8 IndexSearcher indexSearcher = new IndexSearcher(indexReader);
9
10 //可以指定默认搜索的域是多个
11 String[] fields = {"fileName", "fileContent"};
12 //创建一个MulitFiledQueryParser对象
13 MultiFieldQueryParser queryParser = new MultiFieldQueryParser(fields, new IKAnalyzer());
14 Query query = queryParser.parse("apache");
15 System.out.println(query);
16 //执行查询
17
18
19 //第一个参数是查询对象,第二个参数是查询结果返回的最大值
20 TopDocs topDocs = indexSearcher.search(query, 10);
21
22 //查询结果的总条数
23 System.out.println("查询结果的总条数:"+ topDocs.totalHits);
24 //遍历查询结果
25 //topDocs.scoreDocs存储了document对象的id
26 //ScoreDoc[] scoreDocs = topDocs.scoreDocs;
27 for (ScoreDoc scoreDoc : topDocs.scoreDocs) {
28 //scoreDoc.doc属性就是document对象的id
29 //int doc = scoreDoc.doc;
30 //根据document的id找到document对象
31 Document document = indexSearcher.doc(scoreDoc.doc);
32 //文件名称
33 System.out.println(document.get("fileName"));
34 //文件内容
35 System.out.println(document.get("fileContent"));
36 //文件大小
37 System.out.println(document.get("fileSize"));
38 //文件路径
39 System.out.println(document.get("filePath"));
40 System.out.println("----------------------------------");
41 }
42 //关闭indexreader对象
43 indexReader.close();
44 }
7:IndexSearcher.search()查询方法
方法
说明
indexSearcher.search(query, n)
根据Query搜索,返回评分最高的n条记录
indexSearcher.search(query, filter, n)
根据Query搜索,添加过滤策略,返回评分最高的n条记录
indexSearcher.search(query, n, sort)
根据Query搜索,添加排序策略,返回评分最高的n条记录
indexSearcher.search(booleanQuery, filter, n, sort)
根据Query搜索,添加过滤策略,添加排序策略,返回评分最高的n条记录
8:TopDocs(返回的查询结果)
TopDocs topDocs.totalHits 查询到的总 条数
TopDocs topDocs.scoreDocs 匹配度较高的Document 集合数组
九:索引库的修改
1,删除全部索引(不建议使用)
1 //删除全部索引
2 @Test
3 public void testDeleteAllIndex() throws Exception {
4 Directory directory = FSDirectory.open(new File("E:\\programme\\test"));
5 Analyzer analyzer = new IKAnalyzer();
6 IndexWriterConfig config = new IndexWriterConfig(Version.LATEST, analyzer);
7 IndexWriter indexWriter = new IndexWriter(directory, config);
8 //删除全部索引
9 indexWriter.deleteAll();
10 //关闭indexwriter
11 indexWriter.close();
12 }
2,根据条件删除索引
1 //根据查询条件删除索引
2 @Test
3 public void deleteIndexByQuery() throws Exception {
4 Directory directory = FSDirectory.open(new File("E:\\programme\\test"));
5 Analyzer analyzer = new IKAnalyzer();
6 IndexWriterConfig config = new IndexWriterConfig(Version.LATEST, analyzer);
7 IndexWriter indexWriter = new IndexWriter(directory, config);
8 //创建一个查询条件
9 Query query = new TermQuery(new Term("fileContent", "apache"));
10 //根据查询条件删除
11 indexWriter.deleteDocuments(query);
12 //关闭indexwriter
13 indexWriter.close();
14 }
3,update索引
1 //修改索引库
2 @Test
3 public void updateIndex() throws Exception {
4 Directory directory = FSDirectory.open(new File("E:\\programme\\test"));
5 Analyzer analyzer = new IKAnalyzer();
6 IndexWriterConfig config = new IndexWriterConfig(Version.LATEST, analyzer);
7 IndexWriter indexWriter = new IndexWriter(directory, config);
8 //创建一个Document对象
9 Document document = new Document();
10 //向document对象中添加域。
11 //不同的document可以有不同的域,同一个document可以有相同的域。
12 document.add(new TextField("fileXXX", "要更新的文档", Store.YES));
13 document.add(new TextField("contentYYY", "简介 Lucene 是一个基于 Java 的全文信息检索工具包。", Store.YES));
14 indexWriter.updateDocument(new Term("fileName", "apache"), document);
15 //关闭indexWriter
16 indexWriter.close();
17 }
十:相关排序
对域进行打分设置,分数越高,排名越靠前(默认分数是1)
1 Field fileName=new TextField("name","这是该域的内容", Store.YES);
2 fileName.setBoost(10);//设置为10,将提高排名
十一:什么是Solr
Solr是基于Lucene开发的一个项目