屏蔽垃圾营销蜘蛛,节约服务器资源 AhrefsBot MJ12bot BLEXBot SemrushBot

[复制链接] |主动推送
查看55 | 回复0 | 2024-9-11 18:12:33 | 显示全部楼层 |阅读模式
最近个一个小站装上了蜘蛛分析的插件,不装不知道,装完才发现,一些垃圾蜘蛛大大占用了服务器资源,包括但不限于AhrefsBot、MJ12bot、BLEXBot、SemrushBot这些营销蜘蛛。
他们来纯粹是为了爬数据,不会给你带来丝毫的流量,这种玩意,还是屏蔽的好,大家可以在网上搜索这些蜘蛛的名字就可以看到他们是干什么的。
来看看我的占用:
162312l2ofe5otlzzfljcf.png
小站没啥流量,正经蜘蛛没爬几个页面,才几个小时功夫这些垃圾蜘蛛倒是把页面爬了个遍。
果断全部屏蔽。
使用robots协议即可屏蔽,这几个垃圾蜘蛛虽然不怎么样,但还是遵守这个协议的,以AhrefsBot、MJ12bot、BLEXBot、SemrushBot这些营销蜘蛛为例,在网站robots.txt文件里面加入如下代码即可:

User-agent: AhrefsBotDisallow: /User-agent: BLEXBotDisallow: /User-agent: MJ12botDisallow: /User-agent: SemrushBotDisallow: /
其他蜘蛛同理。
更新:昨天屏蔽了,但今天发现不少蜘蛛不讲武德,根本不遵循robots协议,所以还是服务器添加Nginx或者其他WEB规则来的舒坦,直接拒绝访问:
if ($http_user_agent ~* (YandexBot|spbot|DnyzBot|Researchscan|semrushbot|yahoo|AhrefsBot|DotBot|Uptimebot|MJ12bot|MegaIndex.ru|ZoominfoBot|Mail.Ru|SeznamBot|BLEXBot|ExtLinksBot|aiHitBot|Barkrowler)){ return 403;}
以上已经包含大部分营销蜘蛛,放在这里就行了:
162313y0mxzj6m0x0muagu.png
有需要的可以弄一下,有些蜘蛛爬起来很疯狂,服务器差点都扛不住。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则