爱旅游者们的福利到了,11月7日,四川省文化和旅游厅召开“冬游四川消费季”活动新闻通气会,宣布将于2022年11月至2023年2月开展“赏蜀山冰雪·享攀西暖阳”冬游四川消费季活动。活动期间,四川将联动发放超亿元的文旅专项消费券,推出阿坝州、甘孜州、凉山州和攀枝花市国有4A级及以上旅游景区“门票买一送一”、国有4A级以下旅游景区门票全免政策,开展13万张冬游四川门票“一元购”大放送等大力度举措,进一步激发冬季文旅市场活力,持续提振冬季文旅消费。这真的是很大的一波福利啊,不知道小伙伴是不是都按耐不住出游的心了。 冬季相对夏季出游会多一些困难,疫情,天气等,那么如果我们要去川西游之前就要做好一系列的准备。特别是旅游计划的定制,以及对当地疫情防护政策的了解。所以我这里准备利用python爬取一份川西出游的攻略分享给大家,数据来源于去哪儿https://travel.qunar.com/p-sf297667-sichuan,这里会使用到的简单的爬取技术。爬取数据之前先简单的分析了下网站,反正有点严,特别是对IP的限制,所以在爬取过程中会使用到爬虫代理IP。IP是由亿牛云代理提供,搜索了下整个网上提供的代理,亿牛云整体的评价要靠谱些,所以这里刚好也可以实践下代理质量。加入代理IP的爬取过程如下:
import requests
import random
# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"
# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text
通过实践亿牛云代理效果确实好,对比之前项目使用的代理,亿牛云代理的访问速度,延迟,采集的成功率都要高很多。这里推荐有需要的小伙伴可以去官网详细咨询。获取到的出游攻略数据需要进行后期的清洗和一系列分析才能分享出来,所以整理好了下次再分享给大家参考。