Jieba分词Python简单实现

Stella981
• 阅读 738

上一章分享了IK Analyzer中文分词及词频统计基于Hadoop的MapReducer框架Java实现。这次将与大家分享Jieba中文分词Python简单实现,由于Jieba分词是基于词频最大切分组合,所以不用做词频统计,可以直接得到其关键字。

1、安装jieba

安装方式可以查看博主的中文分词工具(http://my.oschina.net/eager/blog/673013),此处不再赘述。

2、简单实例实现:

#导入jieba
import jieba

# ---------jieba简单使用方式------------
seg_list = jieba.cut("我来到北京清华大学", cut_all=True)
print("Full Mode: " + "/ ".join(seg_list))  # 全模式
 
seg_list = jieba.cut("我来到北京清华大学", cut_all=False)
print("Default Mode: " + "/ ".join(seg_list))  # 精确模式
 
seg_list = jieba.cut("他来到了网易杭研大厦")  
print(", ".join(seg_list))  # 默认是精确模式
 
seg_list = jieba.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  
print(", ".join(seg_list))  # 搜索引擎模式

3、采用精确模式对hong.txt做分词并写入文件hong2.txt

# coding:UTF8
'''
@author: ZD
'''
import sys
#修改编码之前,Python2.7系统默认编码是ascii
print(sys.getdefaultencoding())
#修改编码为utf-8
reload(sys)
sys.setdefaultencoding('utf-8')
print(sys.getdefaultencoding())

import jieba, codecs

fpr = codecs.open("hong.txt","r")
lines = fpr.readlines()
resultStr=""
for line in lines:
    resultStr += line

#精确模式分词,但没有统计结果并排序     
seg_list = jieba.cut(resultStr, cut_all=False)
fpr.close()

print("开始写文件")
fpw = codecs.open("hong2.txt", "w")
result=""
for segStr in seg_list:
    result=segStr+" \\ "
    fpw.write(result)
fpw.close()
print("写文件结束")

一部分结果展示:

 \ 上卷 \   \ 第一回 \   \   \ 甄士隐 \ 梦幻 \ 识通灵 \   \ 贾雨村 \ 风尘 \ 怀 \ 闺秀 \ 
 \ 
 \   \   \ 此 \ 开卷 \ 第一回 \ 也 \ . \ 作者 \ 自云 \ : \ 因曾 \ 历过 \ 一番 \ 梦幻 \ 之后 \ , \ 故 \ 将 \ 真事 \ 隐去 \ , \ 而 \ 借 \ " \ 通灵 \ " \ 之 \ 说 \ , \ 撰此 \ 《 \ 石头记 \ 》 \ 一书 \ 也 \ . \ 故曰 \ " \ 甄士隐 \ " \ 云云 \ . \ 但书中 \ 所记 \ 何事 \ 何人 \ ? \ 自又云 \ : \ “ \ 今 \ 风尘碌碌 \ , \ 一事无成 \ , \ 忽 \ 念及 \ 当日 \ 所有 \ 之 \ 女子 \ , \ 一一 \ 细考 \ 较 \ 去 \ , \ 觉其 \ 行止 \ 见识 \ , \ 皆 \ 出于 \ 我 \ 之上 \ . \ 何 \ 我 \ 堂堂 \ 须眉 \ , \ 诚不若 \ 彼 \ 裙钗 \ 哉 \ ? \ 实愧 \ 则 \ 有余 \ , \ 悔 \ 又 \ 无益 \ 之大 \ 无可如何 \ 之日 \ 也 \ ! \ 当 \ 此 \ , \ 则 \ 自欲 \ 将 \ 已往 \ 所赖 \ 天恩祖 \ 德 \ , \ 锦衣 \ 纨绔 \ 之 \ 时 \ , \ 饫甘餍肥 \ 之 \ 日 \ , \ 背 \ 父兄 \ 教育 \ 之恩 \ , \ 负 \ 师友 \ 规谈 \ 之德 \ , \ 以至 \ 今日 \ 一技无成 \ , \ 半生 \ 潦倒 \ 之罪 \ , \ 编述 \ 一集 \ , \ 以告 \ 天下人 \ : \ 我 \ 之 \ 罪固 \ 不免 \ , \ 然 \ 闺阁 \ 中本 \ 自 \ 历历 \ 有人 \ , \ 万 \ 不可 \ 因 \ 我 \ 之 \ 不肖 \ , \ 自护己 \ 短 \ , \ 一并 \ 使 \ 其 \ 泯灭 \ 也 \ . \ 虽 \ 今日 \ 之茅 \ 椽蓬 \ 牖 \ , \ 瓦灶 \ 绳床 \ , \ 其 \ 晨夕 \ 风露 \ , \ 阶柳庭花 \ , \ 亦 \ 未有 \ 妨 \ 我 \ 之 \ 襟怀 \ 笔墨 \ 者 \ . \ 虽 \ 我 \ 未学 \ , \ 下笔 \ 无文 \ , \ 又 \ 何妨 \ 用 \ 假语 \ 村言 \ , \ 敷 \ 演出 \ 一段 \ 故事 \ 来 \ , \ 亦可 \ 使 \ 闺阁 \ 昭传 \ , \ 复可悦 \ 世之目 \ , \ 破人 \ 愁闷 \ , \ 不 \ 亦 \ 宜乎 \ ? \ " \ 故曰 \ " \ 贾雨村 \ " \ 云云 \ . \ 

5、如果想得到出现频率最高的词语,则可以用 jieba.analyse.extract_tags(sentence, topK) 方法

PS:其中sentence为待提取的文本,topK为返回几个TF/IDF权重最大的关键词,默认值为20

# coding:UTF8
'''
@author: ZD
'''
import sys
#修改编码之前,Python2.7系统默认编码是ascii
print(sys.getdefaultencoding())
#修改编码为utf-8
reload(sys)
sys.setdefaultencoding('utf-8')
print(sys.getdefaultencoding())

import jieba, codecs

fpr = codecs.open("hong.txt","r")
lines = fpr.readlines()
resultStr=""
for line in lines:
    resultStr += line

#精确模式分词,但没有统计结果并排序     
seg_list = jieba.cut(resultStr, cut_all=False)
fpr.close()

print("开始写文件")
fpw = codecs.open("hong2.txt", "w")
result=""
for segStr in seg_list:
    result=segStr+" \\ "
    fpw.write(result)
fpw.close()
print("写文件结束")

部分结果展示

宝玉
贾母
凤姐
王夫人
老太太
奶奶
那里
什么
贾琏
太太
姑娘
众人
平儿
说道
如今
一面
你们
袭人
宝钗
只见
黛玉
这里
我们
一个
听见
出来
凤姐儿
薛姨妈

分享踩过的坑

问题:UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)

原因:python2.7是基于ascii去处理字符流,当字符流不属于ascii范围内,就会抛出异常(ordinal not in range(128))。

解决方案1:

import sys
reload(sys)
sys.setdefaultencoding('utf-8')

如果eclipse报错为undefined variable from import:setdefaultencoding,是因为eclipse的pydev插件原因,可以不管此错误,照样运行。

解决方案2:http://blog.csdn.net/lgy807720302/article/details/7515743

在Python安装目录下的Lib/site-packages目录中,新建一个sitecustomize.py文件

import sys
reload(sys)
sys.setdefaultencoding('utf-8')
try:
    import apport_python_hook
except ImportError:
    pass
else:
    apport_python_hook.install()

然后在eclipse中可以查看到改变已经生效

import sys
print(sys.getdefaultencoding())

写在最后:本人初学Python,也初次接触jieba分词工具,如有错误,望指出纠正。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Irene181 Irene181
3年前
手把手教会你使用Python进行jieba分词
前言大家好,我是黄伟。上周我们分享了词云,,这次我们来看看分词。我们从之前学习过的wordcloud可以得知它只能进行英文分词,中文暂不支持,这也正是它美中不足的地方,但是有个模块正好弥补了这一点,它就是jieba,中文名结巴,没错,你没听错也没看错,就是结巴。一、jieba的使用1.安装jieba的安装不管在哪个地方安装都是一个老大难的问题,这也真是让小
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
1年前
麻烦看下这个表格宏命令如何修复?
大家好,我是皮皮。一、前言前几天在Python最强王者交流群【🏖Vivi許】问了一个Python操作Excel表格的问题,一起来看看吧。二、实现过程这里【哎呦喂是豆子~】、【巭孬🕷】给了一个思路,jieba分词强大的Python中文分词。原来是分类。。
Python进阶者 Python进阶者
11个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这