block yandex bot

爬虫程序大魔王
• 阅读 721

block yandex bot

yandex bot 是 Yandex 搜索引擎的爬虫。在 yandex bot user agent 这篇文章中,我总结了所有 yandexbot 的 User-agent,通过那篇文章,我们可以看出有些 Yandexbot 遵守 robots.txt 协议 ,有些不遵守 robots.txt 协议。

我们需要屏蔽 yandexbot(block yandex bot) 可以通过 robots.txt 和 IP 的方式屏蔽,下面分别来讲。

通过 robots.txt 屏蔽 yandexbot

yandex bot user agent 这篇文章中只有遵守 robots.txt 协议的爬虫我们才能通过 robots.txt 协议来屏蔽,如果不遵守我们就没办法通过 robots.txt 协议来屏蔽。

例如,我们需要屏蔽 YandexBot/3.0 这个爬虫,robots.txt 写法如下:

User-agent: YandexBot

Disallow: /

这样就禁止了所有的 YandexBot 抓取我们网站的任何页面,达到了封锁 yandex bot(block yandex bot) 的目的。

如果我们只是想部分页面不被 YandexBot 抓取,我们可以这样写:

User-agent: Yandex

Allow: /

Disallow: /private/user-info

我们允许 YandexBot 访问所有页面,但是最后一条禁止访问 /private/user-info 页面,这样就达到了我们的目的。

还有一些 Yandex bot 并不遵守 robots.txt 协议,所以我们就需要通过 IP 或者 IP 地址段来屏蔽了。

通过 IP 地址来屏蔽 Yandex bot

我们通过 YandexBot 页面可以查询出具体 Yandex bot 的 IP 地址,例如:YandexMobileBot/3.0 并不遵守 robots.txt 协议,所以我们需要通过屏蔽 IP 的方式屏蔽 Yandex bot,通过这个页面显示的 IP ,我们随便选择一个 IP 作为示例:95.108.213.6

如果我们前端服务器(例如:Nginx,Apache)运行的是 Linux 我们可以直接输入以下命令屏蔽 Yandex bot:

sudo iptables -A INPUT -s 95.108.213.6 -j DROP

这样 YandexMobileBot/3.0 就无法抓取我们网站上的内容了。

我们可以一条一条的输入 IP 地址,通过防火墙来屏蔽。

总结

屏蔽 Yandex bot 我们使用了两种方法,一种是:通过 robots.txt 来屏蔽,还有一种是:通过 IP 地址来屏蔽,如果 Yandexbot 不遵守 rotbots.txt 协议,我们就用 IP 地址来屏蔽。

Yandex bot 是 Yandex 搜索引擎的爬虫,如果我们屏蔽了,可能会给我们带来流量上的损失,请大家考虑好是否一定要屏蔽 Yandex Bot,再做决定。

点赞
收藏
评论区
推荐文章
把帆帆喂饱 把帆帆喂饱
3年前
爬虫
爬虫什么是爬虫使用编程语言所编写的一个用于爬取web或app数据的应用程序怎么爬取数据1.找到要爬取的目标网站、发起请求2.分析URL是如何变化的和提取有用的URL3.提取有用的数据爬虫数据能随便爬取吗?遵守robots.txt协议爬虫的分类通用网络爬虫百度,Google等搜索引擎,从一些初识的URL扩展到整个网站,主要为门户站点搜索引擎和大型网站服务采
爬虫数据采集
经常有小伙伴需要将互联网上的数据保存的本地,而又不想自己一篇一篇的复制,我们第一个想到的就是爬虫,爬虫可以说是组成了我们精彩的互联网世界。网络搜索引擎和其他一些网站使用网络爬虫或蜘蛛软件来更新他们的网络内容或其他网站的网络内容索引。网络爬虫复制页面以供搜索引擎处理,搜索引擎对下载的页面进行索引,以便用户可以更有效地搜索。这都是爬虫数据采集的功劳。这篇文章我总
Stella981 Stella981
3年前
Android NDK开发之C语言基础及指针①
我们知道,Android系统是基于linux开发,采用的是linux内核,AndroidAPP开发大部分也要和系统打交道,只是AndroidFrameWork帮我们屏蔽了系统操作,我们从Android系统的分成结构可以看出,AndroidFrameWork是通过JNI与底层的C/C库交互,例如:FreeType,O
Stella981 Stella981
3年前
JVM笔记九
在上一篇文章中,我们通过代码运行结果,查看到JVM的堆内存逻辑上分区是三部分,物理上分区是2部分,以及是新生代分区三部分,占比分布是8/1/1。而且我们还通过代码和堆JVM参数配置,制造出了OOM异常。下面我们就来分析GC回收器的日志信息。先来看看,OOM后,GC详细日志信息:!dd604a3c4cda17304edcc43b03106d58.pn
Stella981 Stella981
3年前
Nginx优化防爬虫 限制http请求方法 CDN网页加速 架构优化 监牢模式 控制并发量以及客户端请求速率
Nginx防爬虫优化Robots协议(也称为爬虫协议,机器人协议等)的全称是“网络爬虫排除标准”(RobotsExclusionProtocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。我理解的是robots.txt是通过代码控制搜索引擎蜘蛛索引的一个手段,以便减轻网站服务器的带宽使用率,从
爬虫数据是如何收集和整理的?
有用户一直好奇识别网站上的爬虫数据是如何整理的,今天就更大家来揭秘爬虫数据是如何收集整理的。通过来获得rDNS方式我们可以通过爬虫的IP地址来反向查询rDNS,例如:我们通过查找此IP:116.179.32.160,rDNS为:baiduspider11617932160.crawl.baidu.com从上面大致可以判断应该是。由于Ho
yandexbot ip 地址段
是Yandex的搜索引擎的爬虫。Yandex是一家俄罗斯互联网公司,在俄罗斯经营最大的搜索引擎,在该国拥有约60%的市场份额。截至2012年4月,Yandex排名全球第五大搜索引擎,每天有超过1.5亿次搜索,访客超过2550万。经常有网友问我如何屏蔽yandexbot,或者如何查询yandexbotiprange(yand
yandex bot user agent
网站收集和整理了所有的,方便大家识别yandexbot。yandexbotuseragent列表Mozilla/5.0(compatible;YandexAccessibilityBot/3.0;http://yandex.com/bots)说明:YandexAccessibilityBot下载页面以检查用户的可访问性。它每秒最多向站
yandex robots txt
是一个包含网站索引参数的文本文件,供搜索引擎的机器人使用。Yandex支持具有高级功能的RobotsExclusion协议。当抓取一个网站时,Yandex机器人会加载robots.txt文件。如果对该文件的最新请求显示某个网站页面或部分被禁止,机器人就不会索引它们。Yandexrobots.txt文件的要求Yandex机器人可以正确处
如何屏蔽 YandexBot
我们经常会受到大量的访问,我们知道YandexBot是Yandex的搜索引擎的。大量的YandexBot访问,不仅给服务器造成了非常大的压力,同时也会使正常访客访问网站变慢,影响体验。基于以上原因,我们不得不限制YandexBot的访问,但是需要注意的一点:限制Yandex访问会损失Yandex带给我们的流量,由于限制了Yand
爬虫程序大魔王
爬虫程序大魔王
Lv1
天地心从数点见,河山春借一枝回。
文章
16
粉丝
1
获赞
0