今天,吉林一号高分03D09星等十六颗卫星发射成功,这又是CZ系列的又一次成功,该批卫星主要用于商业遥感、大气成像等领域。点赞中国航天。关于CZ系列火箭发射记录,没有深入去研究的朋友应该不是很清楚,所以今天我们就给大家分享下,通过python爬虫技术爬取中国长征系列火箭发射记录。 CZ系列运载火箭作为我国的金名片,以优质、高效、低成本等优势闻名海外,那么今天我们就以CZ系列火箭都在哪些发射场发射过,哪个月份是火箭发射的高峰期,哪个发射场承担过最多的火箭发射任务为此次爬虫任务的需求。 首先数据来源我们可以从官网获取:http://www.calt.com/n482/n505/index.html,在获取数据前我们需要先对目标网站进行分析,看下是否有反爬机制,并做好相应的应对措施。经过一系列的分析后发现这个网站访问比较简单,只需要加上代理IP就可以,代理IP的选择虽然比较简单,但是要选到一家代理产品质量好,服务好,后期技术支持给力的并不多,所有这里给有需要的小伙伴推荐亿牛云代理,接下来实现数据获取的代码里面也会使用到他们提供的隧道代理,简单的示例如下:
``` #! -- encoding:utf-8 --
import requests
import random
# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"
# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text```
终于在自己的努力下又增加一次实践的经验,不过获取到数据后还有很多的事情要处理,并不能马上就能得到一份完整干净的数据,所以接下来的过程比较繁杂就不一一的给大家展示了,整理好数据后下次直接分享出来大家了解下。学了爬虫后我们就需要他通过各种难度各异的网站去实践增加我们的经验。