分词技术所有文章-最新分词技术相关文章汇总-第3页-HelloWorld开发者社区

•

4年前

前言大家好，我是黄伟。上周我们分享了词云，，这次我们来看看分词。我们从之前学习过的wordcloud可以得知它只能进行英文分词，中文暂不支持，这也正是它美中不足的地方，但是有个模块正好弥补了这一点，它就是jieba，中文名结巴，没错，你没听错也没看错，就是结巴。一、jieba的使用1.安装jieba的安装不管在哪个地方安装都是一个老大难的问题，这也真是让小

京东云开发者

•

2年前

【NLP系列】Bert词向量的空间分布

我们知道Bert预训练模型针对分词、ner、文本分类等下游任务取得了很好的效果，但在语义相似度任务上，表现相较于Word2Vec、Glove等并没有明显的提升

Wesley13

•

4年前

NLP（十二）依存句法分析的可视化及图分析

依存句法分析的效果虽然没有像分词、NER的效果来的好，但也有其使用价值，在日常的工作中，我们免不了要和其打交道。笔者这几天一直在想如何分析依存句法分析的结果，一个重要的方面便是其可视化和它的图分析。我们使用的NLP工具为jieba和LTP，其中jieba用于分词，LTP用于词性标注和句法分析，需要事件下载pos.model和parser.mo

Stella981

•

4年前

IK Analyzer分词及词频统计Java简单实现

IKAnalyzer基于HadoopMapReducer框架Java实现：1、新建一个ChineseWordCount类2、在该类中再建一个私有静态类CWCMapper继承Mapper类，并复写Mapper类中map方法。PS：Mapper的4个泛型分别为：输入key类型，通常为LongWritable，为偏移量；输入value类型；输出ke

Stella981

•

4年前

ElasticSearch插件集

ElasticSearch的很多功能都是官方或第三方基于ElasticSearch的AbstractPlugin类实现的插件来提供的，所以，在里里记录下一些常用的及实用的插件地址，以备不时之需分词插件ComboAnalysisPlugin(https://www.oschina.net/action/GoToLink?url

Wesley13

•

4年前

NLP 中的基础总结

1．词中文中，常规的词一般直接由分词工具切割开，如工具包结巴分词，组成短语，一些情况下也可以用单个字表示。英文中的词比较常见的是单个词，也有些情况会使用英文词组1.1词的预处理一般情况下，对于英文文本，首先需要转换时态，三单这种词语的变换，首部大写字母转换小写，有时还需要对单词进行拼写检查。1.2停用词对于中英文文本都存在停用词现象

Stella981

•

4年前

Es学习第七课， term、terms、match等基本查询语法

term、terms查询termquery会去倒排索引中寻找确切的term，它并不知道分词器的存在，这种查询适合keyword、numeric、date等明确值的term：查询某个字段里含有某个关键词的文档GET/customer/doc/_search/{"query":{

Stella981

•

4年前

ElasticSearch 5.5 离线环境的完整安装及配置详情，附kibana、ik插件配置及安装包下载路径

此文针对局域网环境（非公网环境），提供ElasticSearch5.5.2的完整安装及配置教程，包括ES的kibana插件、IK中文分词插件安装及配置。另外，文章提供安装配置环境涉及到的所有安装包下

Stella981

•

4年前

Net Core使用Lucene.Net和盘古分词器实现全文检索

Lucene.netLucene.net是Lucene的.net移植版本，是一个开源的全文检索引擎开发包，即它不是一个完整的全文检索引擎，而是一个全文检索引擎的架构，提供了完整的查询引擎和索引引擎，是一个高性能、可伸缩的文本搜索引擎库。它的功能就是负责将文本数据按照某种分词算法进行切词，分词后的结果存储在索引库中，从索引库检索数据的

飞速低代码平台

•

8个月前

在知识库中，文本分割（分词）技术难点及解决方案

在通过飞速灵燕智能体平台构建智能知识库的过程中，文本分割作为知识处理的基础环节，其精度直接影响后续检索、问答及知识图谱构建的质量。传统基于固定长度的分割方法在面对复杂文档时，常面临语义断裂与处理效率的双重挑战，而结合结构化信息与智能模型的优化方案，正成为突