Wesley13 Wesley13
3年前
java B2B2C多用户商城系统
需求分析:在javashop电商系统中,商品数据是存在elasticsearch中,使用ik分词器分词,ik分词器的词库内置了2万多个。但在实际运维过程中,因为商品的个性化,词库不一定可以满足,为了搜索引擎分词(关键词)更加准确,要求可对分词词库进行手工维护。思路:IK自定义词库是支持远程热加载的。先看下官方的说明:
Wesley13 Wesley13
3年前
jcseg歧义句子分词测试
今天在晚上看到一些网友测试分词器常用的起义语句,我拿jcseg去试了下: 1\.结婚的和尚未结婚的jcseg分词:结婚的和尚未结婚的Done,total:10,split:6,cost:0.00026sec2. 他说的确实在理jcseg分词:他说的确实在理Done,total:7,sp
Stella981 Stella981
3年前
Elasticsearch Mapping parameters(主要参数一览)
Elasticsearch在创建类型映射时可以指定映射参数,下面将一一进行介绍。analyzer指定分词器。elasticsearch是一款支持全文检索的分布式存储系统,对于text类型的字段,首先会使用分词器进行分词,然后将分词后的词根一个一个存储在倒排索引中,后续查询主要是针对词根的搜索。analyzer该参数可以在查询、字段、索引级
Stella981 Stella981
3年前
HanLP分词工具中的ViterbiSegment分词流程
本篇文章将重点讲解HanLP的ViterbiSegment分词器类,而不涉及感知机和条件随机场分词器,也不涉及基于字的分词器。因为这些分词器都不是我们在实践中常用的,而且ViterbiSegment也是作者直接封装到HanLP类中的分词器,作者也推荐使用该分词器,同时文本分类包以及其他一些自然语言处理任务包中的分词器也都间接使用了ViterbiSegment
Wesley13 Wesley13
3年前
InnoDB全文索引:N
InnoDB默认的全文索引parser非常合适于Latin,因为Latin是通过空格来分词的。但对于像中文,日文和韩文来说,没有这样的分隔符。一个词可以由多个字来组成,所以我们需要用不同的方式来处理。在MySQL5.7.6(https://www.oschina.net/action/GoToLink?urlhttp%3A%2F%2Fdev.mysq
Stella981 Stella981
3年前
Elasticsearch入门之从零开始安装ik分词器
!(https://oscimg.oschina.net/oscnet/0197ba2bf7a6cba3bb1366fe28c985c0cba.jpg)起因需要在ES中使用聚合进行统计分析,但是聚合字段值为中文,ES的默认分词器对于中文支持非常不友好:会把完整的中文词语拆分为一系列独立的汉字进行聚合,显然这并不是我的初衷。我们来看个实例:
Wesley13 Wesley13
3年前
NLP 中的基础总结
1.词中文中,常规的词一般直接由分词工具切割开,如工具包结巴分词,组成短语,一些情况下也可以用单个字表示。英文中的词比较常见的是单个词,也有些情况会使用英文词组1.1词的预处理一般情况下,对于英文文本,首先需要转换时态,三单这种词语的变换,首部大写字母转换小写,有时还需要对单词进行拼写检查。1.2停用词对于中英文文本都存在停用词现象
Stella981 Stella981
3年前
ElasticSearch 5.5 离线环境的完整安装及配置详情,附kibana、ik插件配置及安装包下载路径
此文针对局域网环境(非公网环境),提供ElasticSearch5.5.2的完整安装及配置教程,包括ES的kibana插件、IK中文分词插件安装及配置。另外,文章提供安装配置环境涉及到的所有安装包下
Stella981 Stella981
3年前
ElasticSearch(六):IK分词器的安装与使用IK分词器创建索引
之前我们创建索引,查询数据,都是使用的默认的分词器,分词效果不太理想,会把text的字段分成一个一个汉字,然后搜索的时候也会把搜索的句子进行分词,所以这里就需要更加智能的分词器IK分词器了。1\.ik分词器的下载和安装,测试第一:下载地址:https://github.com/medcl/elasticsearchanalysisi
Stella981 Stella981
3年前
Elasticsearch学习笔记——分词
1.测试Elasticsearch的分词Elasticsearch有多种分词器(参考:https://www.jianshu.com/p/d57935ba514b)Settheshapetosemitransparentbycallingset\_trans(5)(1)standardanalyzer:标准分词器(默认是