Python爬取4000条猫眼评论,带你围观2021最烂院线电影

Aidan075
• 阅读 1434

大家好,我是小五🐶

之前对挺多典型影视作品做过数据解读,有好片也有烂片。

烂片能烂的让人记住的其实也不多,比如《富春山居图》、《上海堡垒》、《爵迹》之类。它们往往头顶着豆瓣2~3的评分,然后引发各种争议讨论,但其目标人群(明星粉丝)还是愿意掏腰包支持的。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

大概一年前,我曾经写的【看韩国人如何评价韩国电影《寄生虫》?】一文中,就提到了一个观点。

这与国内的情况也是相似的,同一部电影猫眼淘票票的分数普遍比豆瓣上要高。

毕竟真金白银去看电影的人,肯定会认为它是一部好片子才去看。

只要不像被《爱情公墓》一样诈骗,基本观众的分数不会太低。

3年后,《爱情公寓》大电影终于后继有人。一部打着开心麻花团队旗号的电影,玩起了诈骗式营销,喜获猫眼评分3.2

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

在我的印象里,大部分电影在豆瓣可能6分左右,在猫眼上8分多。

那猫眼3.2分,究竟是什么概念呢?

这么说吧,毕志飞导演的神作——《逐梦演艺圈》即使在豆瓣上逼近2分!

但猫眼评分还有6.8分呢。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

今天小五就带大家扒一扒这部2021最烂院线电影——《日不落酒店》。

爬虫大法好

这次爬虫目标选取了猫眼,原因有二:一是目前豆瓣只能获取500条评论,二是这次最大的争议竟然出现在猫眼评论区

首先,我们来爬取猫眼电影上的评论数据,但网页版只能看到猫眼上的几条评论,所以我们要借助别人抓取的app接口来爬取,我发现小二之前做过类似的爬虫,就参考了一番。

接口格式如下:

http://m.maoyan.com/mmdb/comments/movie/movieid.json?_v_=yes&offset=15&startTime=xxx  

两个参数说明如下:[1]

  • movieid:网站中每部影片的唯一 id

  • startTime:当前页面中第一条评论的时间,每页共有 15 条评论

经过一番爬虫,成功获取了将近4000条猫眼电影评论。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

不得不说,跟其他院线电影动辄几万、几十万条评论相比,《日不落酒店》显得寒碜多了。不得不服现在的观众们,避坑能力越来越强了。

毕竟当初《爱情公寓》当初还有个“情怀加成”。《日不落酒店》差评成这样还接着去看图啥呢?为了看沈腾的纸片人吗?

诈骗式营销

让我们看看观众们是怎么评价的?

先是看评分:远超一半的观众给出了一星的评价,但仍有10%的观众给出了高分的评价,标准烂片评分分布。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

其中在猫眼上给出评分的男性观众比例远高于女性观众。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

其实我们还获取了评论时间以及地域等数据信息,但其实意义不大,本文就不再展开讲述。

下面将利用python制作一个词云图,看看各位观众老爷们都表达了哪些看法?

# 绘制词云图  
def gen_stylecloud(text, file_name):  
    stylecloud.gen_stylecloud(text=' '.join(text), max_words=300,  
                              collocations=False,  
                              font_path=r'‪C:\Windows\Fonts\msyh.ttc',  
                              icon_name="fas fa-thumbs-down",  
                              size=800,  
                              output_name=f'{file_name}.png'  
                             )  

gen_stylecloud(text=text1, file_name='词云图')   
Image(filename="词云图.png")  

轻松制作词云图

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

扑面而来的就是各种差评字句,还有人用到了李诚儒老师的名言来形容自己的观后感:如坐针毡、如芒刺背、如鲠在喉

词云图中提到最多的就是沈腾,这也是猫眼大规模差评的导火索。

小五这里截图一张《日不落酒店》的海报,你们看看这个人物比例,真·重新定义特别出演。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

很多观众也在评论中透露,自己是因为有沈腾才去看的这部电影,谁能知道他在电影中只是一个人形立牌,也就是“纸片人”,并且只出现了不到3分钟。

被消耗的沈腾

细数开心麻花团队的电影作品,《夏洛特烦恼》上映于2015年,也是当年影院中最大的一匹黑马,让沈腾成为日后的“票房保障”。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

之后连续推出了《羞羞的铁拳》《西虹市首富》,所获得的成绩也相当不错。接下来的《李茶的姑妈》成了开心麻花的“滑铁卢”,豆瓣只有4.7分。

而且它的主演与《日不落酒店》的一样,都是黄才伦

不知道有没有影响,原本2019年春节档上映的《日不落酒店》,四次改档,直到今年的3.19日才上映。也许是自己极度不自信,才在宣传物料上各种“碰瓷”开心麻花和沈腾。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

而后,《日不落酒店》的导演发了一篇长道歉信,澄清了几件事,其一,电影《日不落酒店》和开心麻花没关系;其二,沈腾就是客串,但出品方和宣传团队非要强行宣传“主演”;其三,我们这拍的不是喜剧片。

目前沈腾已成为中国影史票房第一的演员,累计票房突破200亿元。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

现在他也经常被笑称为喜剧片的“票房保障”,网友甚至会说影片的“含腾量”如何如何。

但观众的信任感也是有限的,如果一而再、再而三地被拿来充当抢救票房的“烂片万金油”,声誉和路人缘也会总会被挥霍耗尽,失去其本应有的含金量。[2]

剧情好到哪里了吗

其实一开始制作的评论词云图中,还有一个关键词——“剧情”很突出!

那抛开被“纸片人”欺骗的感受,单论剧情有没有好一些呢。

重新使用python筛选并截取涉及剧情的评论,具体方法如下所示

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

然后重新制作评论剧情相关的词云图。

Python爬取4000条猫眼评论,带你围观2021最烂院线电影

大家把上图中的各种用词与“剧情”拼接起来,大概也就明白了单论剧情,仍然是一片骂声。

剧情无聊、剧情尴尬、剧情乱七八糟、剧情太烂、剧情垃圾、剧情难看、剧情无厘头等等,这就很离谱。

但客观的说,确实有好评中提到了剧情搞笑等正向词汇。

注:在计算中,关键词“不搞笑”和“搞笑”是区分开统计的,所以并非由于“不搞笑”的评论而导致“搞笑”词云占比大。

写在最后

上个月我说《唐探三》是电影票房榜上的烂片!更多是想说它的影片质量配不上它的票房。

但这次则是另一种烂,拼个散装剧本,然后找个开心麻花的演员当主演,最后搞个沈腾参演当噱头。

这种套壳营销方法,前有《爱情公寓》后有《日不落酒店》。

但最终观众们都用差评表达了自己的心声!

参考资料

[1]

Python小二,用 Python 爬取猫眼评论区看看电影《我和我的家乡》

[2]

《日不落酒店》被骂诈骗营销,沈腾成烂片万金油?

本文转转自微信公众号凹凸数据原创https://mp.weixin.qq.com/s/uTLV-BEybR2ljrzCpy4Hgg,可扫描二维码进行关注: Python爬取4000条猫眼评论,带你围观2021最烂院线电影 如有侵权,请联系删除。

点赞
收藏
评论区
推荐文章
Aidan075 Aidan075
3年前
不好意思,它就是电影票房榜上的烂片!
(https://imghelloworld.osscnbeijing.aliyuncs.com/c56ab048680b8a1d6fe506220a3742df.png)大家好,我是小五继春节档首日票房超17亿元刷新纪录后,2021年中国电影票房再创新高,突破100亿元!这其中我也贡献了好几张票,今天就跟大家聊聊春节档
Aidan075 Aidan075
3年前
太酷炫了!我用Python画出了北上广深的地铁路线动态图
大家好,我是小五🐶今天教大家用python制作地铁线路动态图,这可能是全网最全最详细的教程了。坐标点的采集小五之前做过类似的地理可视化,不过都是使用网络上收集到的json数据。但很多数据其实是过时的,甚至是错误/不全的。所以我们最好还是要自己动手,丰衣足食(爬虫大法好)。打开高德地图的地铁网页,http://map.amap.com/subway/ind
Aidan075 Aidan075
3年前
用python爬取3万多条评论,看韩国人如何评价韩国电影《寄生虫》?
↑关注星标  有趣的不像个技术号每晚九点,我们准时相约  大家好,我是朱小五今天给大家带来一个关于电影的数据分析文章。别走啊,这次不是豆瓣,也不是猫眼真的今天分析的电影是韩国电影《寄生虫》。它是由韩国导演奉俊昊自编自导的影片,一举拿下最佳影片、最佳导演、最佳原创剧本和最佳国际电影四座奥斯卡奖杯,创造历史成为奥斯卡史上首部
Karen110 Karen110
3年前
斩获猫眼9.5分,《中国医生》展现大国的医生担当!
恰逢建党百年大庆,一部以抗击新冠疫情真实事件改编的《中国医生》登录影院,与广大的影迷见面。这部由著名的刘伟强导演执导,集结了众多实力派的演员,比如张涵予、袁泉、朱亚文、易烊千玺等一线明星的电影。其中有我比较喜欢实力派硬汉演员张涵予,从风声到湄公河行动,再到中国机长,我就被圈粉了。这部大片刚上映获得了猫眼9.5分的高分评价,在豆瓣上也取得了6.9分的成绩。
Aidan075 Aidan075
3年前
破解大众点评的字体加密,这一篇就够了。
咕咕咕,我回来啦。放了好久的鸽子,说好的写猫眼票房榜推了将近一个月,轻点打我写猫眼需要先解决字体动态加密,所以先写一篇如何破解简单一点的XX点评字体加密。下面正文开始:大家爬取分析XX点评数据,最常见的无非两种:1、分析所有店铺的各类评分和推荐菜等2、获得店铺里的评论数据
Aidan075 Aidan075
3年前
破解大众点评的字体加密,这一篇就够了。
咕咕咕,我回来啦。放了好久的鸽子,说好的写猫眼票房榜推了将近一个月,轻点打我写猫眼需要先解决字体动态加密,所以先写一篇如何破解简单一点的XX点评字体加密。下面正文开始:大家爬取分析XX点评数据,最常见的无非两种:1、分析所有店铺的各类评分和推荐菜等2、获得店铺里的评论数据之前写过一篇最火的文章,,就属于第一种。
Wesley13 Wesley13
3年前
50 行代码教你爬取猫眼电影 TOP100 榜所有信息
对于Python初学者来说,爬虫技能是应该是最好入门,也是最能够有让自己有成就感的,今天,恋习Python的手把手系列,手把手教你入门Python爬虫,爬取猫眼电影TOP100榜信息,将涉及到基础爬虫架构中的HTML下载器、HTML解析器、数据存储器三大模块:HTML下载器:利用requests模块下载HTML网页;HTML解析器:利用re正则表达
Easter79 Easter79
3年前
TOP100summit:【分享实录
王洋:猫眼电影商品业务线技术负责人、技术专家。主导了猫眼商品供应链和交易体系从0到1的建设,并在猫眼与美团拆分、与点评电影业务融合过程中,从技术层面保障了商品业务的平稳切换,同时也是美团点评《领域驱动设计》课程的讲师。在加入猫眼电影之前,曾就职于蚂蚁金服,参与了阿里网商银行从0到1的建设,以及支付宝钱包、花呗等产品的研发。导读:互联网电影行业在2016年
Python进阶者 Python进阶者
10个月前
一个excel文件,我用pandas如何取行,只能用pandas?
大家好,我是皮皮。一、前言前几天在Python白银交流群粉丝问了一个Pandas数据筛选的问题。问题如下:我突然想到,如果一个excel文件,我用pandas如何取行,只能用pandas。二、实现过程后来【月神】给了一个思路和代码如下:其实粉丝之前也问了一
Python进阶者 Python进阶者
10个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这