周杰伦难得出新歌 ,最近终于推出了单曲《说好不哭》,然后直接把QQ音乐服务器干崩了,天王的实力可见一斑,QQ音乐还把这个当作 今天过年
看我公众号头像就知道是杰伦粉了 ,高中的时候开始喜欢上了他的歌,一晃都这么多年了,我整理了他所有的歌曲和部分电影/演唱会视频,可以在公众号回复 周杰伦
获取,2个多小时的2004 无与伦比演唱会看了n遍。
下面开始用词云来分析杰伦这首歌都写的什么内容。
词云
词云,又称文字云,由词汇组成类似云的彩色图形,用于展示大量文本数据,就是对网络文本中出现频率较高的“关键词”予以视觉上的突出,形成“关键词云层”,从而过滤掉大量的文本信息,使浏览者只要一眼扫过文本就可以领略文本的主旨。
歌词
先看看这首歌的歌词,在QQ 音乐上可以找到https://y.qq.com/n/yqq/song/001qvvgF38HVc4.html
先把歌词保存到文件 no_cry.txt ,然后用Python的wordcloud来分析 。
wordcloud
wordcloud 是Python的一个扩展包,直接使用pip install wordcloud来安装。https://github.com/amueller/word\_cloud
from PIL import Image
保存到本地的文件 no_cry.jpg图片效果:
改变下尺寸效果
接着看看这首歌的主要关键词
s = SnowNLP(mytext)
关键词如下:
['我都是听别人说', '不习惯一个人生活', '不习惯一个人生活', '说好不哭让我走', '说好不哭让我走', '都这个
然后加个白色背景
def handle(textfile, stopword):
效果图
wordcloud_cli
如果你不想写代码 ,可以直接用命令行工具wordcloud_cli , https://amueller.github.io/word\_cloud/cli.html 可以看看命令行参数
直接执行 wordcloud_cli --text no_cry.txt --imagefile no_cry.jpg --mask ye.jpg --fontfile c:\windos\fonts\simhei.ttf
,生成图片效果
下面再以周杰伦于2003年发行的专辑《叶惠美》为例,共收录了11首歌曲
百科地址https://baike.baidu.com/item/%E5%8F%B6%E6%83%A0%E7%BE%8E/893 近600行歌词,保存到文件 jay.txt
效果图:
这张专辑的主要关键词
['微笑 东风破 乒乓 弹奏 我们 骄傲 睫毛 不想 一曲 好难 得到 走过 琵琶 一天 天空 多强 画面 嘴角 到底 一直
如果你不会代码怎么生成词云呢,有许多对应的网站。
wordart
一个在线生成词云的网站 https://wordart.com/create 将文字导入进去
然后上传中文字体,否则乱码,效果如图:
公众号词云
这是新榜针对公众号文章的词云分析工具,可以免费使用https://data.newrank.cn/wordCloud.html ,比如我的公众号文章词云图
推荐阅读:
公众号:苏生不惑
扫描二维码关注
本文分享自微信公众号 - 苏生不惑(susheng_buhuo)。
如有侵权,请联系 support@oschina.cn 删除。
本文参与“OSC源创计划”,欢迎正在阅读的你也加入,一起分享。