如何有效管理爬虫流量？ - HelloWorld开发者社区

本文分享自天翼云开发者社区《如何有效管理爬虫流量？》，作者:刘****海

据国际知名金融广告服务平台提供商Dianomi的报告《2018 Robot traffic report》的数据，在互联网上人类流量仅仅占了48.2%，也就是说，一个页面的10000个点击里面，大约5100个来自机器人。在航旅票务等行业，热门数据接口中甚至有超过95% 的流量是来自爬虫。如何有效管理爬虫流量，是当下业务安全面临的问题。

最早“诞生”的好爬虫 常见的善意Bot有百度爬虫、谷歌爬虫、必应爬虫等搜索引擎类爬虫，此类爬虫经常被企业用于提高站点在搜索引擎内的自然排名，使得站点在各大搜索引擎中的排名能够提高，进一步通过搜索引擎来进行引流为企业增加业务流量。

恶意爬虫带来的业务安全风险 大量“变异”的爬虫很快充斥网络，通过模拟正常用户活动和行为，大肆进行数据窃取、资源占用、薅羊毛等违法违规操作，导致从数据到业务、金钱，方方面面的安全风险

恶意爬虫特征 恶意BOT在AI技术的加持下已“进化”成智能化网络机器人给个人用户、商业平台带来巨大危害，它通常有以下几个“DNA”： 1.高并发利用云端基础设施或者IDC机器集群，形成极高的并发访问能力 2.速度快可在短时间内形成超量的访问，在一夜之间薅走百亿规模的羊毛 3.全天候可以724365的工作，秒杀一切996，甚至为了逃避侦测，经常昼伏夜出、凌晨作案 4.自动化可在完全无人看守和干预的情况下，模拟大部分人类行为并完成恶意任务，从拖库撞库、登录测试，到图片验证码破解、薅羊毛等所有任务都可以执行 5.智能化 AI技术加持，拥有超高“智慧”

如何有效防护恶意爬虫 1.威胁情报库依托网络安全经验和大数据情报，精准识别拨号池IP、IDC机房IP、恶意扫描工具IP等多种维度的爬虫威胁情报规则，方便您在全域名或指定路径下设置阻断恶意爬虫的访问请求

2.人机交互验证用对人类不可见的挑战机制，在不影响用户体验的基础上，要求客户端证明其支持存储 Cookie 和执行 JavaScript，从而识别出爬虫和正常用户

3.威胁分析收集线上日志数据，输入异常分析检测模块中，根据已定规则进行多维度、上下文分析，输出异常客户端信息。