jcseg歧义句子分词测试

Wesley13
• 阅读 740

今天在晚上看到一些网友测试分词器常用的起义语句, 我拿jcseg去试了下: 

1. 结婚的和尚未结婚的
jcseg分词: 结婚 的 和 尚未 结婚 的
Done, total:10, split:6, cost: 0.00026sec

2. 他说的确实在理
jcseg分词:
他 说 的 确实 在理
Done, total:7, split:5, cost: 0.00052sec

3. 把手抬起来
jcseg分词:
把手 抬起 来
Done, total:5, split:3, cost: 0.00000sec

4. 邓颖超生前使用过的物品 
jcseg分词:
邓颖超 生前 使用 过 的 物品
Done, total:11, split:6, cost: 0.00000sec

5. 阿拉斯加遭强暴风雪袭击致xx人死亡
jcseg分词:
阿拉斯加 遭 强暴 风雪 袭击 致 xx 人 死亡
Done, total:17, split:9, cost: 0.00052sec

6. 今后三年中将翻两番
jcseg分词:
今后 三年 中将 翻两番
Done, total:9, split:4, cost: 0.00000sec

7. 乒乓球拍卖完了
jcseg分词:
乒乓球 拍卖 完了
Done, total:7, split:3, cost: 0.00000sec

8. 粮食不卖给八路军
jcseg分词:
粮食 不 卖给 八路军
Done, total:8, split:4, cost: 0.00105sec

9. 费孝通向人大常委会提交书面报告
jcseg分词:
费孝通 向 人大常委会 提交 书面报告
Done, total:15, split:5, cost: 0.00105sec

10. 梁启超生前住在这里
jcseg分词:
梁启超 生前 住在 这里
Done, total:9, split:4, cost: 0.00000sec

11. 吴江西陵印刷厂
jcseg分词:
吴江 西陵 印刷厂
Done, total:7, split:3, cost: 0.00000sec

12. 叔叔亲了我妈妈也亲了我
jcseg分词:
叔叔 亲了 我 妈妈 也 亲了 我

Done, total:11, split:7, cost: 0.00000sec

机械匹配方法, 上面有些句子似乎很难得到正确的切分.

这些都是其他分词器切分结果不是很好的句子, jcseg的切分效果确实有些优势.

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Easter79 Easter79
3年前
swap空间的增减方法
(1)增大swap空间去激活swap交换区:swapoff v /dev/vg00/lvswap扩展交换lv:lvextend L 10G /dev/vg00/lvswap重新生成swap交换区:mkswap /dev/vg00/lvswap激活新生成的交换区:swapon v /dev/vg00/lvswap
待兔 待兔
4个月前
手写Java HashMap源码
HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程HashMap的使用教程22
Stella981 Stella981
3年前
KVM调整cpu和内存
一.修改kvm虚拟机的配置1、virsheditcentos7找到“memory”和“vcpu”标签,将<namecentos7</name<uuid2220a6d1a36a4fbb8523e078b3dfe795</uuid
Easter79 Easter79
3年前
Twitter的分布式自增ID算法snowflake (Java版)
概述分布式系统中,有一些需要使用全局唯一ID的场景,这种时候为了防止ID冲突可以使用36位的UUID,但是UUID有一些缺点,首先他相对比较长,另外UUID一般是无序的。有些时候我们希望能使用一种简单一些的ID,并且希望ID能够按照时间有序生成。而twitter的snowflake解决了这种需求,最初Twitter把存储系统从MySQL迁移
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
ElasticSearch(六):IK分词器的安装与使用IK分词器创建索引
之前我们创建索引,查询数据,都是使用的默认的分词器,分词效果不太理想,会把text的字段分成一个一个汉字,然后搜索的时候也会把搜索的句子进行分词,所以这里就需要更加智能的分词器IK分词器了。1\.ik分词器的下载和安装,测试第一:下载地址:https://github.com/medcl/elasticsearchanalysisi
Stella981 Stella981
3年前
Elasticsearch学习笔记——分词
1.测试Elasticsearch的分词Elasticsearch有多种分词器(参考:https://www.jianshu.com/p/d57935ba514b)Settheshapetosemitransparentbycallingset\_trans(5)(1)standardanalyzer:标准分词器(默认是
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
10个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这