如何屏蔽 YandexBot

爬虫程序大魔王
• 阅读 824

如何屏蔽 YandexBot

我们经常会受到大量的 YandexBot 访问,我们知道 YandexBot 是 Yandex 的搜索引擎的爬虫

大量的 YandexBot 访问,不仅给服务器造成了非常大的压力,同时也会使正常访客访问网站变慢,影响体验。

基于以上原因,我们不得不限制 YandexBot 的访问,但是需要注意的一点:限制 Yandex 访问会损失 Yandex 带给我们的流量,由于限制了 Yandex 的爬虫索引我们的网站,所以当用户在 Yandex 搜索我们网站的主题词时,不会有任何展示,所以也不会给我们带来任何流量。

如果 Yandex 没有给我们带来任何访客,那我们就屏蔽它吧!

我们可以通过下面三种方式屏蔽 Yandex:

IP 地址屏蔽

我们通过 list crawlers YandexBot 查看到 YandexBot 的 IP 地址,我们直接将这些 IP 加入到黑名单里就可以了,我以 Ubuntu 操作系统为例,如何将 IP 加入到防火墙的黑名单里面:

sudo iptables -A INPUT -s 213.180.203.82 -j DROP

上面的 IP 地址就是我们通过 list crawlers YandexBot 页面查询到的 IP ,直接一个一个的 IP 输入就可以了,一个一行。

好处:直接且迅速。

缺点:可能漏掉一些 YandexBot 的 IP 地址。

通过 User-agent 屏蔽 YandexBot

通过我的这一篇文章:yandex bot user agent,我们可以看到每个 YandexBot 的具体 User-agent,我们在 Nginx 里面可以这样屏蔽具体的 User-agent:

if ($http_user_agent ~* "Yandex") 
{ 
    return 403; 
}

这样我们就可以通过 User-agent 屏蔽 YandexBot 的目的了。

优点:可以迅速直接的屏蔽 YandexBot。

通过 robots.txt 屏蔽 YandexBot

前面文章我已经具体介绍过如何通过 robots.txt 屏蔽 YandexBot 了,在此不多说,需要的可以看这篇文章:block yandex bot

优点:符合官方的规范要求。

缺点:Yandex 的有些爬虫并不遵守 robots.txt 协议,使用 robots.txt 协议也就无法屏蔽了。

总结

这篇文章使用了三种方式屏蔽 YandexBot,并且介绍了优缺点,总有一种方法适合你。

在最后还需要重申一下:如果 Yandex 没有给你带来任何流量,你可以安心屏蔽,如果 Yandex 给你带来了流量,还是要三思而后行

点赞
收藏
评论区
推荐文章
灯灯灯灯 灯灯灯灯
3年前
Java并发之Semaphore源码解析
Semaphore前情提要在学习本章前,需要先了解ReentrantLock源码解析,ReentrantLock源码解析里介绍的方法有很多是本章的铺垫。下面,我们进入本章正题Semaphore。从概念上来讲,信号量(Semaphore)会维护一组许可证用于限制线程对资源的访问,当我们有一资源允许线程并发访问,但我们希望能限制访问量,就可以用信号量对访问线程
Karen110 Karen110
3年前
反爬虫策略手把手教你使用FastAPI来限制接口的访问速率
在网络爬虫的过程中,我们都会遇到各种各样的反爬虫,封禁IP和账号,设置验证码,前端加密,浏览器指纹,甚至输出假数据来等等都是可能出现的反爬手段,这些我们今天一个也不会谈及,而是谈谈一种叫访问速率限制的手段。对于服务端而言,有时候会碰到这么一个场景:某个接口需要在某个时间段内设置最高的访问次数来降低服务器的压力,比如之前用的某度的一些接口,一分钟内访问
Stella981 Stella981
3年前
Nginx反爬虫: 禁止某些User Agent抓取网站
一、概述网站反爬虫的原因不遵守规范的爬虫会影响网站的正常使用网站上的数据是公司的重要资产爬虫对网站的爬取会造成网站统计数据的污染常见反爬虫手段1\.根据IP访问频率封禁IP2\.设置账号登陆时长,账号访问过多封禁设置账号的登录限制,只有登录才能展现内容
Wesley13 Wesley13
3年前
Java简单实现滑动窗口
由于最近有一个统计单位时间内某key的访问次数的需求,譬如每5秒访问了redis的某key超过100次,就取出该key单独处理。这样的单位时间统计,很明显我们都知道有个边界问题,譬如5秒内100次的限制。刚好前4.99秒访问都是0,最后0.01秒来了100次,5.01秒又来了100次。也就是访问有明显的毛刺情况出现,为了弱化这个毛刺情况,我们可以采用滑动
Stella981 Stella981
3年前
Google IP库地址
Google地址库Google提供了大量基于互联网的产品与服务,为全世界访问量最高的站点,Google搜索集成了全球范围的信息,是互联网上规模最大、使用率最高、影响最广泛的搜索引擎,使人人皆可访问并从中受益。但是,2014年6月起,Google在中国大陆突然无法正常访问,下面是Google在全球主要国家的IP地址列表,总一个可以打开。
Wesley13 Wesley13
3年前
LAMP架构之访问日志的设置及切割、静态文件失效设置
本文索引访问日志不记录静态文件访问日志切割静态文件过期时间访问日志不记录静态文件为什么要这样设置网站大多为静态网页,网页内部的图片、css文件等同样有其网址链接,如果不设置,这些无效的信息也将被存入访问日志中,会导致访问日志文件大小快速增加,占用大量存储空间。我们可以通过设置不记录某
yandexbot ip 地址段
是Yandex的搜索引擎的爬虫。Yandex是一家俄罗斯互联网公司,在俄罗斯经营最大的搜索引擎,在该国拥有约60%的市场份额。截至2012年4月,Yandex排名全球第五大搜索引擎,每天有超过1.5亿次搜索,访客超过2550万。经常有网友问我如何屏蔽yandexbot,或者如何查询yandexbotiprange(yand
yandex bot user agent
网站收集和整理了所有的,方便大家识别yandexbot。yandexbotuseragent列表Mozilla/5.0(compatible;YandexAccessibilityBot/3.0;http://yandex.com/bots)说明:YandexAccessibilityBot下载页面以检查用户的可访问性。它每秒最多向站
block yandex bot
是Yandex搜索引擎的爬虫。在这篇文章中,我总结了所有的Useragent,通过那篇文章,我们可以看出有些Yandexbot遵守,有些不遵守robots.txt协议。我们需要屏蔽yandexbot(blockyandexbot)可以通过robots.txt和IP的方式屏蔽,下面分别来讲。通过robots.txt
爬虫代理IP是什么?为什么需要它?
爬虫代理IP是什么?为什么需要它?爬虫代理IP是指使用其他计算机的网络地址来访问目标网站的一种技术。它可以隐藏爬虫程序的真实IP地址,避免被网站识别和封禁12。在进行网络数据采集时,我们经常会遇到一些反爬措施,比如网站限制同一个IP地址的访问频率、次数或时