我想很多会爬虫技术的小伙伴有给别人写爬虫软件赚外快的经历,小编也不例外。有时候就会遇到粉丝在后台留言,问:大佬,运行你的爬虫程序怎么报错了?于是我让他把报错信息发过来,看过之后一声叹息。多数爬虫源码运行的报错都是由于访问目标网站过于频繁,从而导致目标网站返回错误或者没有数据返回。 这也是最常见的方式,也就是我们经常听到的“封IP”,需要不断地切换 IP 访问。 我们又面临一个问题:哪来这么多独立 IP 地址呢?给粉丝推荐个平台【亿牛云代理】。注册账号就可以免费获取测试一次。并且提供的代理IP产品类型多,可以根据自己的业务需求进行选择。重点推荐他们家的爬虫隧道代理,更适合新手使用,还有示例可以参考,比如如何在python中使用代理的示例如下: ``#! -- encoding:utf-8 --
import requests
import random
# 要访问的目标页面
targetUrl = "http://httpbin.org/ip"
# 要访问的目标HTTPS页面
# targetUrl = "https://httpbin.org/ip"
# 代理服务器(产品官网 www.16yun.cn)
proxyHost = "t.16yun.cn"
proxyPort = "31111"
# 代理验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
# 设置 http和https访问都是用HTTP代理
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
# 设置IP切换头
tunnel = random.randint(1,10000)
headers = {"Proxy-Tunnel": str(tunnel)}
resp = requests.get(targetUrl, proxies=proxies, headers=headers)
print resp.status_code
print resp.text
亿牛云是专业为大数据爬虫业务提供代理IP的,加入成为会员后 即可免费使用代理池,获取数据过程中遇到问题还有专业团队帮助分析解决,是爬虫工作中的最优选择。