1年前的小五都用 Python 来做什么?

Aidan075
• 阅读 1328

↑ 点击上方 “凹凸数据” 关注 + 星标 ~

每天更新,干货不断 1年前的小五都用 Python 来做什么?

1年前的小五都用 Python 来做什么?

(多图预警)

注:这是小五一年前在知乎的回答,当时还只有凹凸数读一个公众号,所以很多图片都会带有数读或者知乎的水印。


作为一个菜鸟数据分析师,只会sql+python

业余时间写写文章:用python爬取数据→数据清洗→数据分析→数据可视化

1年前的小五都用 Python 来做什么?

词云镇楼

20190730回来看,前面的文章好水哈哈,大家耐心往下看吧

举几个最近用python做的比较有趣的小项目:

分析30万条微博评论,看毕业生与翟天临的爱恨情仇

2019年5月27日凌晨,翟天临又上了热搜→被毕业生骂上的热搜。为了探索这个有趣的现象和背后的问题,我爬取了翟天临2月道歉微博下的30万余条评论。

1年前的小五都用 Python 来做什么?

1年前的小五都用 Python 来做什么?

在这30万条评论中,有20多万条集中在3月2日之前,在此阶段,粉丝积极控评与吃瓜群众的嘲讽占大多数。

1年前的小五都用 Python 来做什么?

3月2日到5月26日,随着查重标准的发布,开题、初稿等任务的进行,开始陆陆续续有学生来到他的微博下发泄怒火。这时的内容,主要分为以下几种:

1年前的小五都用 Python 来做什么?

上述第二阶段中的评论用户,既不是来吃瓜的,也不是看到热搜来凑热闹的,他们是真正被论文困扰而来宣泄怒火的。因此我们爬取了他们在个人主页中填写的学校信息,发现以下学校的学生吐槽频次较高,这些学校很有可能调整了查重率或者提高了其他通过标准。

1年前的小五都用 Python 来做什么?

评论“睡了吗”的同学中,基本集中在半夜11点到凌晨3点的时间段,这时的同学经历了漫长的改重洗礼,用残存的力气也要去问候翟天临一句。而到了3点以后,怕是连问一句“睡了吗”的心情都没有了(因为他肯定睡了)

1年前的小五都用 Python 来做什么?

以上是截取的文章部分,原文链接请戳《分析30万条微博评论,看毕业生与翟天临的爱恨情仇

拆开药店所有的感冒药,用数据解读药品说明书

这篇文章的起因是我感冒了,翻出了家里仅剩半盒的感冒药,但说明书早已不翼而飞。机智的我在网上药店里搜到了这款药品,了解了它的用量和禁忌等。依然心系工作的我正好顺势爬取了康之家网上药店在售的654种感冒药的说明书,决定用数据解读一下!

1年前的小五都用 Python 来做什么?

在感冒药界,要问哪家品牌的种类最多,同仁堂是当之无愧的王者,而且这家店是标准中国老字号,只生产中药类感冒药。

1年前的小五都用 Python 来做什么?

将中药与西药的成份分别进行了汇总,并且绘制成词云。

1年前的小五都用 Python 来做什么?

1年前的小五都用 Python 来做什么?

工作了之后越发觉得生个病真是太贵了,不去医院光吃药就要花掉不少毛爷爷,于是看过了说明书的有趣数据,我们自然而然把目光转向了……价格。我们对比了西药和中药,发现西药的价格集中在20元左右,而中药的价格要更低一些,集中在10元左右。

1年前的小五都用 Python 来做什么?

以上是截取的文章部分,原文链接请戳:《拆开药店所有的感冒药,用数据解读药品说明书》

素人与欧阳娜娜的vlog之间,相隔的不只是明星光环

这篇主要是为了研究vlog究竟是“真风口”还是“伪风口”,我们爬取了国内最大原创 Vlog 平台“Vue Vlog”app上的30万条视频及其作者的信息。

1年前的小五都用 Python 来做什么?

从整体上看,在Vue Vlog上发过视频的用户中,90后,即20—30岁左右的年轻人,占据了vlogger的半壁江山。而在各个年龄段,女性都明显多于男性。相比于男性而言,女性似乎更乐于分享自己的生活。有趣的是,水瓶座在所有vlogger的星座中占比最高,是其他星座的2倍左右。

1年前的小五都用 Python 来做什么?

这里要注明一下,右侧单纯是星座的排行,本意是突出显示一下第一名水瓶座,结果用的配色是左侧男性的颜色,很容易让大家误解是男性且水瓶座排名第一

从时长上看,普通用户的大部分视频都在1分钟以内,而大V集中在3-8分钟。

1年前的小五都用 Python 来做什么?

我们分析了vlog发布时间段对平均播放量的影响,发现在一周当中,周五的平均播放量明显高于其他时间段。

1年前的小五都用 Python 来做什么?

平均播放量最高的时间点则有几个小高峰。早上起床的8、9点,中午和晚上下班放学的12点和5点,以及晚上睡觉前的9点左右,都是发视频的好时机。而凌晨2-4点由于发视频数量较少,平均播放量也整体较高。

从内容类型来看,普通vlogger作品中播放量比较高的多数具备一些专业技能,如滑雪和潜水等极限运动,以及摄影、弹唱等个人才艺。

1年前的小五都用 Python 来做什么?

以上是截取的文章部分,原文链接请戳:《素人与欧阳娜娜的vlog之间,相隔的不只是明星光环

第一批看《复联4》的网友,都在评论区说了什么?

原文链接:《第一批看《复联4》的网友,都在评论区说了什么?

爬取了微博、猫眼、知乎、豆瓣的评论或者回答做成了词云

1年前的小五都用 Python 来做什么?

五一去长沙,到了吃点啥?

在大众点评的筛选机制中,只能按单项指标排序,而智能排序又会把投放广告的或者新店优先排在前面。于是,我们爬取了大众点评上橘子洲头附近4312家长沙美食的基础信息。我们设定的筛选目标湘菜馆的要求是:评论人数超过500,各项评分均在9分以上,人均消费不超过100。

1年前的小五都用 Python 来做什么?

我们又用同样的方法,筛选出性价比最高的烧烤、火锅、小龙虾、臭豆腐、粉面馆、饮品……

1年前的小五都用 Python 来做什么?

1年前的小五都用 Python 来做什么?

以上是截取的文章部分,原文链接请戳:《五一去长沙,到了吃点啥?

十张图告诉你:互联网运营狗的生存现状

我们爬取了实习僧和拉勾网上共12715条关于运营的招聘信息,来更好地了解运营狗生存(主要是工资)现状。

在城市的选择上,我们发现,北京对于运营实习生的需求量最大,上海广州深圳杭州依次递减。要来运营岗实习,一线城市对你来说,将是机会最多的选择。

1年前的小五都用 Python 来做什么?

但一线城市的三餐、交通与房租对于实习生来说,无疑是很大的压力。因此我们分析了不同地域运营实习生的日均薪资水平,看看哪些城市的薪水能让你吃到更好吃的土。

1年前的小五都用 Python 来做什么?

其中日均实习工资在100-150范围的岗位,在大部分城市都超过了50%的占比,这也是运营实习生最可能拿到的工资。而在北上深三地,实习生拿到“高薪”(日工资超过150元)的可能性明显高于其他地区。相对这些城市来讲,广州运营实习工资低于100的岗位占比较高,在广州实习的同学将有更多进入hard生存模式。


20190730更新,没想到大家这么支持,那就再更新几个(每个简单只放一张图):

蔡徐坤1亿转发量幕后推手被封,能否动摇饭圈文化?

1年前的小五都用 Python 来做什么?

原文链接请戳:《蔡徐坤1亿转发量幕后推手被封,能否动摇饭圈文化?

290种零食大统计,谁能唤起80、90后的童年回忆?

1年前的小五都用 Python 来做什么?

原文链接请戳:《290种零食大统计,谁能唤起80、90后的童年回忆?》

宫崎骏:纵有疾风起,人生不言弃。

1年前的小五都用 Python 来做什么?

原文链接请戳:《宫崎骏:纵有疾风起,人生不言弃。

中国撸串指北:13万家烧烤店的吃货最爱

1年前的小五都用 Python 来做什么?

原文链接请戳:《中国撸串指北:13万家烧烤店的吃货最爱

这里面都是小五一年前做的有趣的事,大家更喜欢哪一个呢?

欢迎留言、点赞、分享~

1年前的小五都用 Python 来做什么?

1年前的小五都用 Python 来做什么?

1年前的小五都用 Python 来做什么?

本文转转自微信公众号凹凸数据原创https://mp.weixin.qq.com/s/q1fn6GHMazxdOB3la9HT9w,可扫描二维码进行关注: 1年前的小五都用 Python 来做什么? 如有侵权,请联系删除。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Stella981 Stella981
3年前
Python3:sqlalchemy对mysql数据库操作,非sql语句
Python3:sqlalchemy对mysql数据库操作,非sql语句python3authorlizmdatetime2018020110:00:00coding:utf8'''
Wesley13 Wesley13
3年前
mysql设置时区
mysql设置时区mysql\_query("SETtime\_zone'8:00'")ordie('时区设置失败,请联系管理员!');中国在东8区所以加8方法二:selectcount(user\_id)asdevice,CONVERT\_TZ(FROM\_UNIXTIME(reg\_time),'08:00','0
Stella981 Stella981
3年前
Docker 部署SpringBoot项目不香吗?
  公众号改版后文章乱序推荐,希望你可以点击上方“Java进阶架构师”,点击右上角,将我们设为★“星标”!这样才不会错过每日进阶架构文章呀。  !(http://dingyue.ws.126.net/2020/0920/b00fbfc7j00qgy5xy002kd200qo00hsg00it00cj.jpg)  2
Stella981 Stella981
3年前
200的大额人民币即将面世?央行:Yes!
点击上方蓝字关注我们!(https://oscimg.oschina.net/oscnet/2a1c2ac00bf54458a78c48a6c2e547d5.png)点击上方“印象python”,选择“星标”公众号重磅干货,第一时间送达!!(
可莉 可莉
3年前
200的大额人民币即将面世?央行:Yes!
点击上方蓝字关注我们!(https://oscimg.oschina.net/oscnet/2a1c2ac00bf54458a78c48a6c2e547d5.png)点击上方“印象python”,选择“星标”公众号重磅干货,第一时间送达!!(
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
10个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这