全球最美Top100女神出炉,国内六人上榜,我Python发现了这些秘密...

Karen110
• 阅读 1492

全球最美Top100女神出炉,国内六人上榜,我Python发现了这些秘密...

最近一段时间,国外媒体TOP BEAUTY WORLD选取了全球最帅男性和最美女性前100名,肖战成为了该排行榜历届以来首位登顶的亚洲人。这一消息立刻成为了流量的热点。

小编特地去查了一下,想看一下榜单中的最美小姐姐的信息。可是现在还没有最美小姐姐的文字榜单信息。但是小编却查到了2019年年底发布的上一届的全球最美女性前一百名的详细榜单,包含了姓名、国籍和职业等信息。

全球最美Top100女神出炉,国内六人上榜,我Python发现了这些秘密...

有这么详尽的榜单,我们怎么能不拿来好好的探究一波?小编马上爬取了数据,并进行了数据的可视化分析,一起来看看吧。

01

评价指标

对于排行榜的评比,不单单是对于美貌的评选。榜单是根据下面公式进行打分。

总分=0.3粉丝投票+0.5官方针对入围明星的五官比例给出的分数+0.2*(个性、身材、慈善工作等)

可以看到,打分成绩中,综合的考虑了许多方面的因素,能从选手的全方位进行综合的分析和打分评比。明白了打分的评价指标后,我们接下来就看一下如何获取该份榜单的数据吧。

02

女神数据获取

全球最美Top100女神出炉,国内六人上榜,我Python发现了这些秘密...

首先,我们要获取到想要的数据,包括小姐姐的照片,姓名以及国籍等信息。由于网页属于静态网页,因此可以直接分析网页源代码,获取到我们需要的数据即可。程序如下图所示:

全球最美Top100女神出炉,国内六人上榜,我Python发现了这些秘密...

上述的程序中,我们首先利用requests请求网页,然后利用BeautifulSoup解析网页。这里需要注意的是,不同的li标签的“id"是根据排名来进行变化的。

所以我们要通过循环来构建不同的id属性,以此来抓取对应的li标签,并提取姓名、国籍等信息。

利用self.downloadImg函数将图片下载到本地,将抓取到的姓名和国籍等信息保存到本地。抓取到的信息如下所示:

全球最美Top100女神出炉,国内六人上榜,我Python发现了这些秘密...

03

对顶级女神数据分析

获取到数据后,我们来对数据进行一下清晰,并看一下从数据中能获得什么信息。

1).大洲信息统计

全球最美Top100女神出炉,国内六人上榜,我Python发现了这些秘密...

可以看到,美女们来自全球各地,这里我们以国家为统计单位,统计各个大洲上国家出现的次数,注意,上面的”Filipina-American“,我们将其统计两次,即既是菲律宾人也是美国人。通过下面的程序,我们可以可视化的展示出不同大洲国家出现的次数。

全球最美Top100女神出炉,国内六人上榜,我Python发现了这些秘密...

可以看到,全球一百名美女来自了除南极洲之外的其他六个大洲,其中来自亚洲的国家是最多的,欧洲和北美洲紧随其后。

2).国籍信息统计

对于美女国籍的统计和可视化处理,是一件非常麻烦的事情,这里需要针对数据进行耐心的判断处理,虽然非常消耗时间,但是好在数量并不是很多,如下图所示:

全球最美Top100女神出炉,国内六人上榜,我Python发现了这些秘密...

我们针对于不同美女的不同国家信息,只需要进行循环判断,例如如果美女的国家是”Thai",我们就将其国家补充为“Thailand”。因为在后续利用pyecharts可视化过程中,我们需要利用pyecharts自带的标准国家名称来显示,否则的话就没有办法进行数字的显示。经过判断统计后,其可视化结果如下。

全球最美Top100女神出炉,国内六人上榜,我Python发现了这些秘密...

可以看到,这一百名美女中,来自美国的是最多的,当然,不可否认的是很多都是持有美国和其他国家的双重国籍身份的。来自英国的是13名美女,当然也是有许多是持有双重国籍的身份。

而第三名的中国和韩国则是完全不存在双重国籍的问题。从全球的分布范围来看,非洲和欧洲的人数直观看上去非常的少,尤其是意大利、法国等一些欧洲国家,都没有如选前100名的美女出现。

3).职业分析

对于榜单中美女们的职业,这里也是非常的集中,只有三种职业:模特、演员、歌手。毫无疑问,每一个职业都是需要自身的条件非常的完美。

全球最美Top100女神出炉,国内六人上榜,我Python发现了这些秘密...

而在职业的占比中,可以看到演员的占比是最高的,因为颜值是一个演员的名片,也是打分成绩中占比最高的一项,因此在前100名中,演员占比最高也就不足为奇了。

4).颜值打分

既然这个榜单是关于全球最美的100名女性,那颜值自然是逃不开的话题,最后,我们来利用百度的人脸识别来为100名美女的颜值做一个打分,来看一下究竟在AI的眼中,谁是最美的女明星。

全球最美Top100女神出炉,国内六人上榜,我Python发现了这些秘密...

上述程序中,通过向FaceScore函数传递图片的路径,在FaceScore函数中,通过get_file_content函数将图片以二进制形式读取;

并通过base64库进行编码后,作为params参数post给请求url链接。并解析url链接返回的信息,提取返回信息中的颜值打分数据;

运行上述的程序后,我们就会得到关于100名美女的AI颜值打分。这里 我们为大家展示一下,颜值打分前五名都有哪些明星。

全球最美Top100女神出炉,国内六人上榜,我Python发现了这些秘密...

以上就是小编今天为大家带来的关于全球最美100名女性的分享,欢迎大家在留言区吱一声,说说你最喜欢哪一位女神哦

**-----**------**-----**---**** End **-----**--------**-----**-****

往期精彩文章推荐:

全球最美Top100女神出炉,国内六人上榜,我Python发现了这些秘密...

欢迎各位大佬点击链接加入群聊【helloworld开发者社区】:https://jq.qq.com/?_wv=1027&k=mBlk6nzX进群交流IT技术热点。

本文转自 https://mp.weixin.qq.com/s/eII1jds6DMOfIy4brQuUcw,如有侵权,请联系删除。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Karen110 Karen110
3年前
​一篇文章总结一下Python库中关于时间的常见操作
前言本次来总结一下关于Python时间的相关操作,有一个有趣的问题。如果你的业务用不到时间相关的操作,你的业务基本上会一直用不到。但是如果你的业务一旦用到了时间操作,你就会发现,淦,到处都是时间操作。。。所以思来想去,还是总结一下吧,本次会采用类型注解方式。time包importtime时间戳从1970年1月1日00:00:00标准时区诞生到现在
Stella981 Stella981
3年前
Python3:sqlalchemy对mysql数据库操作,非sql语句
Python3:sqlalchemy对mysql数据库操作,非sql语句python3authorlizmdatetime2018020110:00:00coding:utf8'''
Wesley13 Wesley13
3年前
4cast
4castpackageloadcsv.KumarAwanish发布:2020122117:43:04.501348作者:KumarAwanish作者邮箱:awanish00@gmail.com首页:
Stella981 Stella981
3年前
Python之time模块的时间戳、时间字符串格式化与转换
Python处理时间和时间戳的内置模块就有time,和datetime两个,本文先说time模块。关于时间戳的几个概念时间戳,根据1970年1月1日00:00:00开始按秒计算的偏移量。时间元组(struct_time),包含9个元素。 time.struct_time(tm_y
Stella981 Stella981
3年前
Django中Admin中的一些参数配置
设置在列表中显示的字段,id为django模型默认的主键list_display('id','name','sex','profession','email','qq','phone','status','create_time')设置在列表可编辑字段list_editable
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
11个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这