爬取 20W 猫猫数据,来了解一下喵喵~

Karen110
• 阅读 1401

前言

最近知道身边有许多朋友都养了猫,于是对猫猫有点兴趣了,于是找到了一个专门交易猫猫的网站-猫猫交易网:

http://www.maomijiaoyi.com/

从此网站上爬取 20W 条猫猫交易数据,以及爬取了猫猫品种介绍的数据,以此来了解一下猫猫。

爬取 20W 猫猫数据,来了解一下喵喵~

获取数据后小编从以下维度进行探索性分析:

1、猫猫都有哪些品种,词云图

2、原产地,世界地图

3、体型占比,圆环图

4、外观描述词云

5、交易猫猫分布地图

6、交易品种占比树状图

7、每种品种平均价格排名,条形图

8、浏览次数是否跟价格成正比,散点图

9、年龄分布,柱状图

10、价格是否与年龄有关,箱型图

11、价格是否与预防有关,箱型图

12、价格是否与异地运费有关,箱型图

13、价格是否与是否纯种有关,箱型图

14、价格是否与能否视频有关,箱型图

数据获取

打开猫猫交易网,先爬取猫猫品种数据,打开页面可以看到猫猫品种列表:

爬取 20W 猫猫数据,来了解一下喵喵~

但只显示了每种猫猫的品种名,参考价格,这些数据还不够,所以点进去,爬取更加详细的数据。

品种名,参考价格,中文学名,基本信息,性格特点,生活习性,优缺点,喂养方法等:

爬取 20W 猫猫数据,来了解一下喵喵~

爬取的代码不算难,但这次特意加了进度条功能,可以显示爬取进度:

爬取 20W 猫猫数据,来了解一下喵喵~

以上就是猫猫品种的数据来自哪里,接下来是获取猫猫交易数据,进入到买猫卖猫页面:

爬取 20W 猫猫数据,来了解一下喵喵~

滑到最底下,可以看到显示有多少页数据,共多少条,此时显示的是 31W,小编使用多进程只爬取了 20W:

爬取 20W 猫猫数据,来了解一下喵喵~

当然,爬取的数据是进入详情页后进行爬取的,包含价格,标题,在售只数,猫龄,预防等:

爬取 20W 猫猫数据,来了解一下喵喵~

由于数据,太多,小编分开爬取的,先爬取每一页中的所有猫猫详情交易链接的 url 保存进 csv,在读取 csv 一次爬取每条交易数据,于是乎 20W 数据的来源就有了。

数据探索

在这之前呢,小编对猫猫的品种不是很清楚,只知道几个经常听见布偶猫,橘猫这些。

小编于是画个词云,来直观的瞅一瞅猫猫还有哪些品种:

爬取 20W 猫猫数据,来了解一下喵喵~

了解了猫猫品种后,小编想知道这些品种的猫猫原产地都是来自哪里,看了看数据,除了橘猫是世界各地都有的,其他品种的猫猫大多分布在这些国家呢:

爬取 20W 猫猫数据,来了解一下喵喵~

加拿大,美国,英国,古埃及,泰国,阿富汗这些国家是大多数猫猫品种们的原产地呀。

那猫猫品种的体型分布如何呢,我们一起来看看呗:

爬取 20W 猫猫数据,来了解一下喵喵~

在所有品种中,大型的只有一个品种,小编把数据选出来看了看,原来是布偶猫呀,其他品种都是中小型的类型,那以后看见体型比较大的,可以先联想到布偶猫咯~

猫猫们很多品种都很可爱呀,大家一般都喜欢从什么角度形容猫猫呢:

爬取 20W 猫猫数据,来了解一下喵喵~

从颜色方面,蓝色,黑色,红色形容猫猫的次数最多;性格方面,对人友善;观看角度方面从侧面看,后面看最合适。

接下来对猫猫品种有一定了解后,一起来看看猫猫交易的数据吧~

首先来看看猫猫交易主要分布在哪些区域呢:

爬取 20W 猫猫数据,来了解一下喵喵~

四川,重庆,广东是猫猫交易最多的省份呀,或许是这些省份的人更喜欢猫猫吧,当然只是小编猜的哈~

那么在交易的猫猫中,主要都是哪些品种在交易呢:

爬取 20W 猫猫数据,来了解一下喵喵~

橘猫最多呀,看来之前原产地说橘猫分布在世界各地,换句话可以理解为橘猫数量最多,还是有原因的呀~

其次是咖啡猫,布偶猫,英短蓝白猫。。。。。

买猫当然还是得看看价格,对于每种品种的猫猫来说,买的时候有个平均价格参考,心中有个数才好把握吧:

爬取 20W 猫猫数据,来了解一下喵喵~

布偶猫名列前茅啊,在它之上还有一个缅因猫均价更高一些,小编不太了解这猫,不过布偶猫倒是觉得非常可爱。

这些猫猫一般猫龄是多大呢?一起来看看吧:

爬取 20W 猫猫数据,来了解一下喵喵~

主要分布在 1-9 个月之间,都是刚出生未满一岁的小猫咪呀,一般这种小猫咪是最可爱的时候呢。

那在这些数据中,影响猫猫价格的因素到底是哪些呢?是否存在一些因素与价格相关呢?

小编先从浏览次数与价格进行分析,浏览次数一定程度上反映了猫猫的热度,所以绘制散点图:

爬取 20W 猫猫数据,来了解一下喵喵~

从结果上看浏览次数与价格并不存在相关性。

那时候跟猫猫年龄有关呢?通过箱型图来查看一下:

爬取 20W 猫猫数据,来了解一下喵喵~

可以看到年龄与价格是相关的,是影响价格的一个因素,1-9 个月的猫猫价格分布在 500-1700 之间,而大于 9 个月的猫猫价格都在 1300 以上,且价格分布明显不同。

在确定与年龄有关后,是否与预防针次数有关呢?

爬取 20W 猫猫数据,来了解一下喵喵~

预防针次数也是与价格相关的,0针,1-2针,3针的价格区间分布明显不同,多以预防针次数也是一个影响因素。

是否包邮,是否能视频看猫猫,是否纯种都是影响价格的因素,且三者存在共线性:

爬取 20W 猫猫数据,来了解一下喵喵~

爬取 20W 猫猫数据,来了解一下喵喵~

爬取 20W 猫猫数据,来了解一下喵喵~

所以影响价格的因素猫猫价格的相关因素有年龄,预防次数,邮费,是否纯种,能否看猫猫视频。

**-----**------**-----**---**** End **-----**--------**-----**-****

往期精彩文章推荐:

爬取 20W 猫猫数据,来了解一下喵喵~

欢迎各位大佬点击链接加入群聊【helloworld开发者社区】:https://jq.qq.com/?_wv=1027&k=mBlk6nzX进群交流IT技术热点。

本文转自 https://mp.weixin.qq.com/s/7faCySJVzdiPn1PrWeeBDw,如有侵权,请联系删除。

点赞
收藏
评论区
推荐文章
blmius blmius
3年前
MySQL:[Err] 1292 - Incorrect datetime value: ‘0000-00-00 00:00:00‘ for column ‘CREATE_TIME‘ at row 1
文章目录问题用navicat导入数据时,报错:原因这是因为当前的MySQL不支持datetime为0的情况。解决修改sql\mode:sql\mode:SQLMode定义了MySQL应支持的SQL语法、数据校验等,这样可以更容易地在不同的环境中使用MySQL。全局s
Easter79 Easter79
3年前
vue+element 表格formatter数据格式化并且插入html标签
前言   vue中element框架,其中表格组件,我既要行内数据格式化,又要插入html标签一贯思维,二者不可兼得也一、element表格数据格式化  !(https://oscimg.oschina.net/oscnet/3c43a1cb3cbdeb5b5ad58acb45a42612b00.p
皕杰报表之UUID
​在我们用皕杰报表工具设计填报报表时,如何在新增行里自动增加id呢?能新增整数排序id吗?目前可以在新增行里自动增加id,但只能用uuid函数增加UUID编码,不能新增整数排序id。uuid函数说明:获取一个UUID,可以在填报表中用来创建数据ID语法:uuid()或uuid(sep)参数说明:sep布尔值,生成的uuid中是否包含分隔符'',缺省为
Jacquelyn38 Jacquelyn38
3年前
2020年前端实用代码段,为你的工作保驾护航
有空的时候,自己总结了几个代码段,在开发中也经常使用,谢谢。1、使用解构获取json数据let jsonData  id: 1,status: "OK",data: 'a', 'b';let  id, status, data: number   jsonData;console.log(id, status, number )
Karen110 Karen110
3年前
​一篇文章总结一下Python库中关于时间的常见操作
前言本次来总结一下关于Python时间的相关操作,有一个有趣的问题。如果你的业务用不到时间相关的操作,你的业务基本上会一直用不到。但是如果你的业务一旦用到了时间操作,你就会发现,淦,到处都是时间操作。。。所以思来想去,还是总结一下吧,本次会采用类型注解方式。time包importtime时间戳从1970年1月1日00:00:00标准时区诞生到现在
Stella981 Stella981
3年前
Python3:sqlalchemy对mysql数据库操作,非sql语句
Python3:sqlalchemy对mysql数据库操作,非sql语句python3authorlizmdatetime2018020110:00:00coding:utf8'''
Wesley13 Wesley13
3年前
4cast
4castpackageloadcsv.KumarAwanish发布:2020122117:43:04.501348作者:KumarAwanish作者邮箱:awanish00@gmail.com首页:
Wesley13 Wesley13
3年前
00:Java简单了解
浅谈Java之概述Java是SUN(StanfordUniversityNetwork),斯坦福大学网络公司)1995年推出的一门高级编程语言。Java是一种面向Internet的编程语言。随着Java技术在web方面的不断成熟,已经成为Web应用程序的首选开发语言。Java是简单易学,完全面向对象,安全可靠,与平台无关的编程语言。
Wesley13 Wesley13
3年前
MySQL部分从库上面因为大量的临时表tmp_table造成慢查询
背景描述Time:20190124T00:08:14.70572408:00User@Host:@Id:Schema:sentrymetaLast_errno:0Killed:0Query_time:0.315758Lock_
Python进阶者 Python进阶者
9个月前
Excel中这日期老是出来00:00:00,怎么用Pandas把这个去除
大家好,我是皮皮。一、前言前几天在Python白银交流群【上海新年人】问了一个Pandas数据筛选的问题。问题如下:这日期老是出来00:00:00,怎么把这个去除。二、实现过程后来【论草莓如何成为冻干莓】给了一个思路和代码如下:pd.toexcel之前把这