每年的“双11”期间是快递量猛增的时间,各大快递企业也迎来了最重要的“年度大考”,过多年发展,“双十一”活动的跨度已从11月11日当天延展到10月下旬至12月上旬。如今,部分电商平台已进入预售阶段,减缓了快递企业的压力。但当高于往常2-3倍的包裹量涌进配送站时,仍然会给末端网点带来极大的压力。一般快递行业10月上旬开始就要开始为‘双十一’做准备了,首轮高峰一般是在11月1日-11月3日出现,最大的压力仍然是‘双十一’当天。然后这种忙碌的状态会一直延续到‘双十二’后才慢慢衰退。 关于每年双十一期间的快递量数据分析,今天我们就通过python获取多年以来双十一期间的快递数量来分析下,每年的快递量是增长还是减少的趋势。数据获取可以从https://yte1.com/datas/post-amout-kd这个网站获取,获取数据前简单的分析了下目标网站,有IP限制访问机制,所以在爬取过程中添加了爬虫代理IP。数据获取的实现过程如下: `// 要访问的目标页面 string targetUrl = "http://httpbin.org/ip";
// 代理服务器(产品官网 www.16yun.cn) string proxyHost = "http://t.16yun.cn"; string proxyPort = "31111";
// 代理验证信息 string proxyUser = "username"; string proxyPass = "password";
// 设置代理服务器 WebProxy proxy = new WebProxy(string.Format("{0}:{1}", proxyHost, proxyPort), true);
ServicePointManager.Expect100Continue = false;
var request = WebRequest.Create(targetUrl) as HttpWebRequest;
request.AllowAutoRedirect = true; request.KeepAlive = true; request.Method = "GET"; request.Proxy = proxy;
//request.Proxy.Credentials = CredentialCache.DefaultCredentials;
request.Proxy.Credentials = new System.Net.NetworkCredential(proxyUser, proxyPass);
// 设置Proxy Tunnel // Random ran=new Random(); // int tunnel =ran.Next(1,10000); // request.Headers.Add("Proxy-Tunnel", String.valueOf(tunnel));
//request.Timeout = 20000; //request.ServicePoint.ConnectionLimit = 512; //request.UserAgent = "Mozilla/5.0 (Windows NT 6.3; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/48.0.2564.82 Safari/537.36"; //request.Headers.Add("Cache-Control", "max-age=0"); //request.Headers.Add("DNT", "1");
//String encoded = System.Convert.ToBase64String(System.Text.Encoding.GetEncoding("ISO-8859-1").GetBytes(proxyUser + ":" + proxyPass)); //request.Headers.Add("Proxy-Authorization", "Basic " + encoded);
using (var response = request.GetResponse() as HttpWebResponse) using (var sr = new StreamReader(response.GetResponseStream(), Encoding.UTF8)) { string htmlStr = sr.ReadToEnd(); }
``` 这里的爬虫代码是亿牛云代理提供的,在爬虫代理IP方面有需要的可以试试他们家代理,质量好,售后好,对新手爬虫来说更是友好还有示例提供参考。