今年来范围最大最强高温来袭 ,截至目前,全国各级市/县共计508个高温预警生效中,主要集中在河南、陕西、山西、内蒙古、安徽、山东、湖北、江苏等地,多个省份发布高温红色,橙色预警。还没入伏就能有这样的温度,估计很多人都要郁闷了。 之前分享的爬虫文章中好像也对天气数据爬取过,那今天就再盘它一次,来看看全国天气高温情况,跟那些有高温预警地区的伙伴们一个数据分析。这里我们获取的数据来源于http://www.weather.com.cn,在获取高温数据之前我们先对网站进行简单的分析,分析发现反爬机制不是很严,可以很好的获取,只要把基本的反爬措施做好就可以,比如代理IP的添加。代理不知道选哪家靠谱的,这里我们推荐使用亿牛云代理。文中我们也实践下代理的使用,示例如下: #! -- encoding:utf-8 -- import requests import random # 要访问的目标页面 targetUrl = "http://httpbin.org/ip" # 要访问的目标HTTPS页面 # targetUrl = "https://httpbin.org/ip" # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理验证信息 proxyUser = "username" proxyPass = "password" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text 根据获取数据分析来看,高温预警的那些的小伙伴尽量做好准备,估计空调在这个时间段内销量也会蹭蹭的涨。更多的爬虫知识之后会分享,新入门的小伙伴可以多多关注,有什么问题大家可以留言交流交流。
python采集全国高温数据
点赞
收藏