ElasticSearch6.5.0 【安装IK分词器】

Stella981
• 阅读 684

不得不夸奖一下ES的周边资源,比如这个IK分词器,紧跟ES的版本,卢本伟牛逼!另外ES更新太快了吧,几乎不到半个月一个小版本就发布了!!目前已经发了6.5.2,估计我还没怎么玩就到7.0了。

下载

分词器:GitHub

点击release,下载对应的版本,他这个跟ES是一一对应的。

ElasticSearch6.5.0 【安装IK分词器】

安装

他这个安装非常容易!业界良心啊!!

第一步:在elasticsearch-6.5.0主目录下的plugins目录新建一个ik文件夹

ElasticSearch6.5.0 【安装IK分词器】

第二步:把从GitHub下载下来的压缩包解压到这个文件夹

ElasticSearch6.5.0 【安装IK分词器】

启动

 进入ES主目录

[E:\elasticsearch-6.5.0]$ .\bin\elasticsearch.bat

准备数据

依赖:

<dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-core</artifactId>
            <version>2.11.1</version>
        </dependency>
        <dependency>
            <groupId>org.apache.logging.log4j</groupId>
            <artifactId>log4j-to-slf4j</artifactId>
            <version>2.11.1</version>
        </dependency>
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-api</artifactId>
            <version>1.7.25</version>
        </dependency>

        <dependency>
            <groupId>org.elasticsearch.client</groupId>
            <artifactId>elasticsearch-rest-client</artifactId>
            <version>6.5.0</version>
        </dependency>
        <dependency>
            <groupId>org.elasticsearch.client</groupId>
            <artifactId>elasticsearch-rest-high-level-client</artifactId>
            <version>6.5.0</version>
        </dependency>

连接:

package com.demo.dao;

import org.apache.http.HttpHost;
import org.elasticsearch.client.RestClient;
import org.elasticsearch.client.RestHighLevelClient;

/**
 * Java高级REST客户机在Java低级REST客户机之上工作。它的主要目标是公开特定于API的方法,这些方法接受请求对象作为参数并返回响应对象
 * 可以同步或异步调用每个API。同步方法返回一个响应对象,而异步方法(其名称以async后缀结尾)需要一个侦听器参数
 * 一旦接收到响应或错误,侦听器参数(在低层客户机管理的线程池上)将被通知。
 * Java高级REST客户机依赖于Elasticsearch核心项目。它接受与TransportClient相同的请求参数,并返回相同的响应对象。
 * Java高级REST客户机需要Java 1.8
 * 客户机版本与开发客户机的Elasticsearch版本相同
 * 6.0客户端能够与任意6.X节点通信,6.1客户端能够与6.1、6.2和任意6.X通信
 */
public class RestClientFactory {

    private RestClientFactory(){}

    private static class Inner{
        private static final RestClientFactory instance = new RestClientFactory();
    }

    public static RestClientFactory getInstance(){
        return Inner.instance;
    }

    public RestHighLevelClient getClient(){
        RestHighLevelClient client = new RestHighLevelClient(
                RestClient.builder(
                        //new HttpHost("localhost", 9201, "http"),
                        new HttpHost("localhost", 9200, "http")
                )
        );
        return client;
    }

}

代码:

/**
     * 创建索引
     * @return
     * @throws IOException
     */
    public static RestHighLevelClient createIndexForIk() throws IOException {
        RestHighLevelClient client = RestClientFactory.getInstance().getClient();
        CreateIndexRequest request = new CreateIndexRequest("test_ik_index");
        request.settings(Settings.builder()
                .put("index.number_of_shards", 1)
                .put("index.number_of_replicas", 1))
                // 设置mapping
                .mapping("social", "content1","type=text", "content2", "type=text,analyzer=ik_smart","content3", "type=text,analyzer=ik_max_word")
                // 创建超时
                .timeout(TimeValue.timeValueMinutes(2))
                // 连接到主节点超时时间
                .masterNodeTimeout(TimeValue.timeValueMinutes(1));
        CreateIndexResponse indexResponse = client.indices().create(request, RequestOptions.DEFAULT);
        boolean acknowledged = indexResponse.isAcknowledged();
        boolean shardsAcknowledged = indexResponse.isShardsAcknowledged();
        System.out.println(acknowledged + "," + shardsAcknowledged);
        return client;
    }

    /**
     * 准备数据
     * @return
     * @throws IOException
     */
    public static RestHighLevelClient bulkAddForIk() throws IOException {
        RestHighLevelClient client = RestClientFactory.getInstance().getClient();
        BulkRequest request = new BulkRequest();
        request.add(new IndexRequest("test_ik_index", "social", "1")
                .source(XContentType.JSON,"content1", "富强、民主、文明、和谐,自由、平等、公正、法治,爱国、敬业、诚信、友善",
                        "content2", "“富强、民主、文明、和谐”,是我国社会主义现代化国家的建设目标,也是从价值目标层面对社会主义核心价值观基本理念的凝练,在社会主义核心价值观中居于最高层次,对其他层次的价值理念具有统领作用",
                        "content3", "富强、民主、文明、和谐,自由、平等、公正、法治,爱国、敬业、诚信、友善"));
        request.add(new IndexRequest("test_ik_index", "social", "2")
                .source(XContentType.JSON,"content1", "以热爱祖国为荣,以危害祖国为耻",
                        "content2", "1978年12月,党的十一届三中全会重新恢复和确立了实事求是的思想路线,坚持把马克思主义与改革开放和我国社会主义建设伟大实践相结合,科学继承了***思想,创立了邓小平理论、“三个代表”重要思想、科学发展观等马克思主义中国化最新成果,马克思主义在意识形态领域的指导地位不断巩固",
                        "content3", "“自由、平等、公正、法治”,是对美好社会的生动表述,也是从社会层面对社会主义核心价值观基本理念的凝练"));
        request.add(new IndexRequest("test_ik_index", "social", "3")
                .source(XContentType.JSON,"content1", "以服务人民为荣,以背离人民为耻",
                        "content2", "新中国的建立,确立了以社会主义基本政治制度、基本经济制度的确立和以马克思主义为指导思想的社会主义意识形态,为社会主义核心价值体系建设奠定了政治前提、物质基础和文化条件",
                        "content3", "“爱国、敬业、诚信、友善”,是公民基本道德规范,是从个人行为层面对社会主义核心价值观基本理念的凝练"));
        BulkResponse bulk = client.bulk(request, RequestOptions.DEFAULT);
        System.out.println("Status:" + bulk.status().name() + ",hasFailures:" + bulk.hasFailures());
        MultiGetRequest multiGetRequest = new MultiGetRequest()
                .add(new MultiGetRequest.Item("test_ik_index", "social", "1"))
                .add(new MultiGetRequest.Item("test_ik_index", "social", "2"))
                .add(new MultiGetRequest.Item("test_ik_index", "social", "3"));
        MultiGetResponse response = client.mget(multiGetRequest, RequestOptions.DEFAULT);
        MultiGetItemResponse[] itemResponses = response.getResponses();
        for(MultiGetItemResponse r : itemResponses){
            System.out.println(r.getResponse().getSourceAsString());
        }
        return client;
    }

执行

public static void main(String[] args) throws IOException, ExecutionException, InterruptedException {
        createIndexForIk().close();
        bulkAddForIk().close();
    }

我有三个字段:content1--用的默认分词器;content2:用的ik_smart;content3:用的ik_max_word

测试(在Kibana控制台里)

 第一个查询:(可见默认的没有正确分词,看highlight字段

GET /test_ik_index/_search
{
    "query" : {
        "match": { "content1": "中国" }
    },
    "highlight" : {
        "pre_tags" : ["<tag1>"],
        "post_tags" : ["</tag1>"],
        "fields" : {
            "content1": {}
        }
    }
}

-------------------------------
{
  "took" : 3,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 2,
    "max_score" : 0.68320733,
    "hits" : [
      {
        "_index" : "test_ik_index",
        "_type" : "social",
        "_id" : "2",
        "_score" : 0.68320733,
        "_source" : {
          "content1" : "以热爱祖国为荣,以危害祖国为耻",
          "content2" : "1978年12月,党的十一届三中全会重新恢复和确立了实事求是的思想路线,坚持把马克思主义与改革开放和我国社会主义建设伟大实践相结合,科学继承了***思想,创立了邓小平理论、“三个代表”重要思想、科学发展观等马克思主义中国化最新成果,马克思主义在意识形态领域的指导地位不断巩固",
          "content3" : "“自由、平等、公正、法治”,是对美好社会的生动表述,也是从社会层面对社会主义核心价值观基本理念的凝练"
        },
        "highlight" : {
          "content1" : [
            "以热爱祖<tag1>国</tag1>为荣,以危害祖<tag1>国</tag1>为耻"
          ]
        }
      },
      {
        "_index" : "test_ik_index",
        "_type" : "social",
        "_id" : "1",
        "_score" : 0.40610588,
        "_source" : {
          "content1" : "富强、民主、文明、和谐,自由、平等、公正、法治,爱国、敬业、诚信、友善",
          "content2" : "“富强、民主、文明、和谐”,是我国社会主义现代化国家的建设目标,也是从价值目标层面对社会主义核心价值观基本理念的凝练,在社会主义核心价值观中居于最高层次,对其他层次的价值理念具有统领作用",
          "content3" : "富强、民主、文明、和谐,自由、平等、公正、法治,爱国、敬业、诚信、友善"
        },
        "highlight" : {
          "content1" : [
            "富强、民主、文明、和谐,自由、平等、公正、法治,爱<tag1>国</tag1>、敬业、诚信、友善"
          ]
        }
      }
    ]
  }
}

第二个:(ok)

GET /test_ik_index/_search
{
    "query" : {
        "match": { "content2": "马克思主义" }
    },
    "highlight" : {
        "pre_tags" : ["<tag1>"],
        "post_tags" : ["</tag1>"],
        "fields" : {
            "content2": {}
        }
    }
}

-------------------------------
{
  "took" : 6,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 2,
    "max_score" : 0.71390307,
    "hits" : [
      {
        "_index" : "test_ik_index",
        "_type" : "social",
        "_id" : "2",
        "_score" : 0.71390307,
        "_source" : {
          "content1" : "以热爱祖国为荣,以危害祖国为耻",
          "content2" : "1978年12月,党的十一届三中全会重新恢复和确立了实事求是的思想路线,坚持把马克思主义与改革开放和我国社会主义建设伟大实践相结合,科学继承了***思想,创立了邓小平理论、“三个代表”重要思想、科学发展观等马克思主义中国化最新成果,马克思主义在意识形态领域的指导地位不断巩固",
          "content3" : "“自由、平等、公正、法治”,是对美好社会的生动表述,也是从社会层面对社会主义核心价值观基本理念的凝练"
        },
        "highlight" : {
          "content2" : [
            "1978年12月,党的十一届三中全会重新恢复和确立了实事求是的思想路线,坚持把<tag1>马克思主义</tag1>与改革开放和我国社会主义建设伟大实践相结合,科学继承了***思想,创立了邓小平理论、“三个代表”重要思想、科学发展观等<tag1>马克思主义</tag1>中国化最新成果",
            ",<tag1>马克思主义</tag1>在意识形态领域的指导地位不断巩固"
          ]
        }
      },
      {
        "_index" : "test_ik_index",
        "_type" : "social",
        "_id" : "3",
        "_score" : 0.50678647,
        "_source" : {
          "content1" : "以服务人民为荣,以背离人民为耻",
          "content2" : "新中国的建立,确立了以社会主义基本政治制度、基本经济制度的确立和以马克思主义为指导思想的社会主义意识形态,为社会主义核心价值体系建设奠定了政治前提、物质基础和文化条件",
          "content3" : "“爱国、敬业、诚信、友善”,是公民基本道德规范,是从个人行为层面对社会主义核心价值观基本理念的凝练"
        },
        "highlight" : {
          "content2" : [
            "新中国的建立,确立了以社会主义基本政治制度、基本经济制度的确立和以<tag1>马克思主义</tag1>为指导思想的社会主义意识形态,为社会主义核心价值体系建设奠定了政治前提、物质基础和文化条件"
          ]
        }
      }
    ]
  }
}

第三个:(ok)

GET /test_ik_index/_search
{
    "query" : {
        "match": { "content3": "富强" }
    },
    "highlight" : {
        "pre_tags" : ["<tag1>"],
        "post_tags" : ["</tag1>"],
        "fields" : {
            "content3" : {}
        }
    }
}

-----------------------------------
{
  "took" : 2,
  "timed_out" : false,
  "_shards" : {
    "total" : 1,
    "successful" : 1,
    "skipped" : 0,
    "failed" : 0
  },
  "hits" : {
    "total" : 1,
    "max_score" : 1.2146692,
    "hits" : [
      {
        "_index" : "test_ik_index",
        "_type" : "social",
        "_id" : "1",
        "_score" : 1.2146692,
        "_source" : {
          "content1" : "富强、民主、文明、和谐,自由、平等、公正、法治,爱国、敬业、诚信、友善",
          "content2" : "“富强、民主、文明、和谐”,是我国社会主义现代化国家的建设目标,也是从价值目标层面对社会主义核心价值观基本理念的凝练,在社会主义核心价值观中居于最高层次,对其他层次的价值理念具有统领作用",
          "content3" : "富强、民主、文明、和谐,自由、平等、公正、法治,爱国、敬业、诚信、友善"
        },
        "highlight" : {
          "content3" : [
            "<tag1>富强</tag1>、民主、文明、和谐,自由、平等、公正、法治,爱国、敬业、诚信、友善"
          ]
        }
      }
    ]
  }
}

 你也可以单独验证分词器

GET test_ik_index/_analyze 
{
  "analyzer": "ik_max_word", 
  "text":  "中央高度重视培育和践行社会主义核心价值观"
}

-----------------------
{
  "tokens" : [
    {
      "token" : "中央",
      "start_offset" : 0,
      "end_offset" : 2,
      "type" : "CN_WORD",
      "position" : 0
    },
    {
      "token" : "高度重视",
      "start_offset" : 2,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 1
    },
    {
      "token" : "高度",
      "start_offset" : 2,
      "end_offset" : 4,
      "type" : "CN_WORD",
      "position" : 2
    },
    {
      "token" : "重视",
      "start_offset" : 4,
      "end_offset" : 6,
      "type" : "CN_WORD",
      "position" : 3
    },
    {
      "token" : "培育",
      "start_offset" : 6,
      "end_offset" : 8,
      "type" : "CN_WORD",
      "position" : 4
    },
    {
      "token" : "和",
      "start_offset" : 8,
      "end_offset" : 9,
      "type" : "CN_CHAR",
      "position" : 5
    },
    {
      "token" : "践行",
      "start_offset" : 9,
      "end_offset" : 11,
      "type" : "CN_WORD",
      "position" : 6
    },
    {
      "token" : "行社",
      "start_offset" : 10,
      "end_offset" : 12,
      "type" : "CN_WORD",
      "position" : 7
    },
    {
      "token" : "社会主义",
      "start_offset" : 11,
      "end_offset" : 15,
      "type" : "CN_WORD",
      "position" : 8
    },
    {
      "token" : "社会",
      "start_offset" : 11,
      "end_offset" : 13,
      "type" : "CN_WORD",
      "position" : 9
    },
    {
      "token" : "主义",
      "start_offset" : 13,
      "end_offset" : 15,
      "type" : "CN_WORD",
      "position" : 10
    },
    {
      "token" : "核心",
      "start_offset" : 15,
      "end_offset" : 17,
      "type" : "CN_WORD",
      "position" : 11
    },
    {
      "token" : "价值观",
      "start_offset" : 17,
      "end_offset" : 20,
      "type" : "CN_WORD",
      "position" : 12
    },
    {
      "token" : "价值",
      "start_offset" : 17,
      "end_offset" : 19,
      "type" : "CN_WORD",
      "position" : 13
    },
    {
      "token" : "观",
      "start_offset" : 19,
      "end_offset" : 20,
      "type" : "CN_CHAR",
      "position" : 14
    }
  ]
}

 还可以通过Java API

public static RestHighLevelClient analyze() throws IOException {
        RestHighLevelClient client = RestClientFactory.getInstance().getClient();
        AnalyzeRequest request = new AnalyzeRequest();
        request.text("高通指控苹果侵犯其两项专利", "高通再次将苹果告上法庭,起诉苹果拖欠专利费 70 亿美元");
        request.analyzer("ik_smart");
        AnalyzeResponse response = client.indices().analyze(request, RequestOptions.DEFAULT);
        List<AnalyzeResponse.AnalyzeToken> tokens = response.getTokens();
        
        for(AnalyzeResponse.AnalyzeToken t : tokens){
            int endOffset = t.getEndOffset();
            int position = t.getPosition();
            int positionLength = t.getPositionLength();
            int startOffset = t.getStartOffset();
            String term = t.getTerm();
            String type = t.getType();
            System.out.println("Start:" + startOffset + ",End:" + endOffset + ",Position:" + position + ",Length:" + positionLength +
                    ",Term:" + term + ",Type:" + type);
        }
        return client;
    }

结果:

Start:0,End:1,Position:0,Length:1,Term:高,Type:CN_CHAR
Start:1,End:2,Position:1,Length:1,Term:通,Type:CN_CHAR
Start:2,End:4,Position:2,Length:1,Term:指控,Type:CN_WORD
Start:4,End:6,Position:3,Length:1,Term:苹果,Type:CN_WORD
Start:6,End:8,Position:4,Length:1,Term:侵犯,Type:CN_WORD
Start:8,End:9,Position:5,Length:1,Term:其,Type:CN_CHAR
Start:9,End:11,Position:6,Length:1,Term:两项,Type:CN_WORD
Start:11,End:13,Position:7,Length:1,Term:专利,Type:CN_WORD
Start:14,End:15,Position:8,Length:1,Term:高,Type:CN_CHAR
Start:15,End:16,Position:9,Length:1,Term:通,Type:CN_CHAR
Start:16,End:18,Position:10,Length:1,Term:再次,Type:CN_WORD
Start:18,End:19,Position:11,Length:1,Term:将,Type:CN_CHAR
Start:19,End:21,Position:12,Length:1,Term:苹果,Type:CN_WORD
Start:21,End:22,Position:13,Length:1,Term:告,Type:CN_CHAR
Start:22,End:23,Position:14,Length:1,Term:上,Type:CN_CHAR
Start:23,End:25,Position:15,Length:1,Term:法庭,Type:CN_WORD
Start:26,End:28,Position:16,Length:1,Term:起诉,Type:CN_WORD
Start:28,End:30,Position:17,Length:1,Term:苹果,Type:CN_WORD
Start:30,End:32,Position:18,Length:1,Term:拖欠,Type:CN_WORD
Start:32,End:35,Position:19,Length:1,Term:专利费,Type:CN_WORD
Start:36,End:38,Position:20,Length:1,Term:70,Type:ARABIC
Start:39,End:40,Position:21,Length:1,Term:亿,Type:TYPE_CNUM
Start:40,End:42,Position:22,Length:1,Term:美元,Type:CN_WORD

 到此为止,分词器安装完毕

 小插曲:文本有***不让发布。。。。

ElasticSearch6.5.0 【安装IK分词器】

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
待兔 待兔
3个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
Java获得今日零时零分零秒的时间(Date型)
publicDatezeroTime()throwsParseException{    DatetimenewDate();    SimpleDateFormatsimpnewSimpleDateFormat("yyyyMMdd00:00:00");    SimpleDateFormatsimp2newS
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
9个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这