设为首页
收藏本站
开启辅助访问
切换到窄版
登录
立即注册
快捷导航
发布信息
搜索
搜索
首页
优惠促销
云服务器
独立服务器
站群服务器
母鸡服务器
服务器托管
全球云服务器
技术文档
联系
每日签到
本版
文章
帖子
用户
主机测评网
»
论坛
›
技术文档
›
其他教程
›
云服务器Apache利用USER_AGENT屏蔽恶意蜘蛛 ...
返回列表
发新帖
云服务器Apache利用USER_AGENT屏蔽恶意蜘蛛
[复制链接]
|
主动推送
32
|
0
|
2024-9-11 15:06:19
|
显示全部楼层
|
阅读模式
最近发现日志里有很多没见过的蜘蛛UA,基本上都是国外的一些搜索引擎,或者很本不是搜索引擎,有的抓取频率很高,刚开始设置了下robots.txt,因为他们首先都抓取了robots.txt,应该是遵守规则的,没想到人家只是走个过场,并没有把robot.txt放在眼里。
Apache可以用.htaccess文件来通过useragent来屏蔽一些访问,搜了一下,大概可以这么做:
.htaccess
SetEnvIfNoCase User-Agent ^.*Scrapy.* bad_bot
SetEnvIfNoCase User-Agent ^.*SemrushBot.* bad_bot
SetEnvIfNoCase User-Agent ^.*ExtLinksBot.* bad_bot
SetEnvIfNoCase User-Agent ^.*YandexBot.* bad_bot
SetEnvIfNoCase User-Agent ^.*MauiBot.* bad_bot
SetEnvIfNoCase User-Agent ^.*Python.* bad_bot
SetEnvIfNoCase User-Agent ^.*NetcraftSurveyAgent.* bad_bot
Deny from env=bad_bot
这样当这些匹配的useragent就会被返回403禁止访问。
可是第二天发现有几个useragent疯狂的访问robot.txt,反正都不遵守规则,那么执着的访问robots.txt干什么。。。。。
于是我换了一种方法,打算用302(301也一样啦,对这些恶意蜘蛛没那么讲究)把他们转走。
.htaccess
这样,就都被302到www.xuemiyun.com了,现在再看那些未知的蜘蛛基本不会在主站乱爬了。
另:.htaccess的正则:”^”代表字符串的开始,”.*”代表任意字符。
NC代表不区分大小写,OR代表或者,L的意思是一旦有符合条件的规则就不再执行下面的规则,所以这些语句要放在WordPress等程序默认伪静态规则的前面。
回复
使用道具
举报
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
冀苍鸾
99
主题
0
回帖
10
积分
新手上路
新手上路, 积分 10, 距离下一级还需 40 积分
新手上路, 积分 10, 距离下一级还需 40 积分
积分
10
加好友
发消息
回复楼主
返回列表
网络技术教程
软件使用教程
Windows教程
Centos教程
Ubuntu教程
Linux其他教程
综合教程
其他教程
其他文档
服务器商家推荐
华夏互联
蓝速云
米图云
全球云
文章
1
苹果电脑MAC系统登录Windows远程桌面
2
Debian拓展硬盘工具。cloud-utils-growpart、xfsprogs
3
安卓Android手机怎么使用V2rayNG?
4
WINDOWS系统电脑怎么使用WINXRAY?
5
notepad++.8.5.7编辑器,代码编辑器
6
DirectX修复工具增强版_V4.3.0.40864版本DLL修复工具C++安装
7
Visual C++运行库合集包完整版VisualCppRedist_AIO_x86_x64
8
ChromeSetup谷歌浏览器一键安装