大家好,我是小五🐶
昨天「凹凸数据」发了一篇张同学投稿的文章《用Python爬取王冰冰vlog弹幕并制作词云》。发现评论区有一些关于词云的建议,小五决定再安排一下~
爬取弹幕
本来想找张同学要一下弹幕数据,后来一看时间太晚了,干脆自己爬一下算了。
直接利用bilibili_api这个现成的轮子:
爬虫代码
上图代码可爬取到2000条实时的弹幕,至于评论区所问的历史弹幕怎么爬?实际上bilibili_api这个库也提供了参数可以实现,这次就不展示了,如果大家特别感兴趣,可以给本文一键三连,后面单独出一篇介绍本模块。
解决办法:
关于历史弹幕的参数
词云 01
成功获取了2000条弹幕后,先用我最近一年特别喜欢的——stylecloud
模块来制作:
def ciyun(data):
df = pd.read_csv(data, header=0,encoding='utf-8').astype(str)
df['text'] = df['text'].apply(filter_str)
text1 = get_cut_words(df.text)
name = data.strip('.csv')
print(name)
stylecloud.gen_stylecloud(text=' '.join(text1), collocations=False,
font_path=r'C:\Windows\Fonts\msyh.ttc',
icon_name='fas fa-square',
size=600,
output_name='冰冰.png')
还阔以嘛
不过今天的目的是实现冰冰被词云包围,那就还需要修改一下蒙版!
词云 02
首先,按照建议,我反向抠出了背景图片。为了能均匀填充词云,小五又将其背景颜色全部改为黑色。
利用Python生成词云,这里做过太多次了,省略过程直接看词云成品。
效果很理想
最后,再用PS简单叠加一下图层就ok啦!
那么,被词云包围的冰冰变得更好看了吗?
看在冰冰的面子上,给个三连吧~
后台回复暗号「**进群**」,即刻加入读者交流群~
本文转转自微信公众号凹凸数据原创https://mp.weixin.qq.com/s/wDtNpaYxj3pn5-3q-ii76w,可扫描二维码进行关注: 如有侵权,请联系删除。