春节假期已经正式结束了,大部分人都回到了工作岗位上开启了新的奋斗。因为春节前疫情的全面放开,很多地方春节都在倡导就地过年。疫情三年大家的出游也严重的受到了限制,所以今年春节期间很多人都有了出游计划。因为假期的关系大多游客缩小了出游半径,本地游、周边游、近郊游取代了异地长线游,成为兔年春节新的旅游消费趋势。收假后全国各地也陆续公布了今年春节的文旅数据。目前为止,在已经公布春节假期旅游收入的15个省份中,四川位列第一。 而从大家出游的城市,游客量,旅游收入综合来看,四川都是遥遥领先。这里我们可以根据这个数据来对比疫情三年和疫情前,来看下疫情放开后旅游业方面的恢复力度是怎么样的。疫情前和疫情三年的旅游数据我们可以从几个比较大的平台上获取,去哪儿,携程等。 数据的获取就需要使用到我们的python技术,做过爬虫的都知道这些平台的反爬机制也是比较严的,所以这里我们可以通过爬虫程序+爬虫代理进行大数据采集,其中爬虫脚本使用Python常用的requests。爬虫代理在百度找到一家提供隧道转发技术的产品,这种代理产品自带IP池随机切换,直接配置代理信息即可使用方便快捷,参考对方提供的demo完全自动化使用简单粗暴的方式逐页爬行。参考示例如下:
``` #! -- encoding:utf-8 --
import requests
import random
# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"
# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text
官网还有其他语言的参考demo,有这方面需求的可以直接搜索“亿牛云”去官网获取参考demo或者私信小编获取。不在有疫情的干扰,接下来的一年有很多的假期,大家可以好好计划下出游行程了。