设为首页
收藏本站
开启辅助访问
切换到窄版
登录
立即注册
快捷导航
发布信息
搜索
搜索
首页
优惠促销
云服务器
独立服务器
站群服务器
母鸡服务器
服务器托管
全球云服务器
技术文档
联系
每日签到
本版
文章
帖子
用户
主机测评网
»
论坛
›
技术文档
›
其他教程
›
如何通过网站日志来查看百度爬虫每次来的信息 ...
返回列表
发新帖
如何通过网站日志来查看百度爬虫每次来的信息
[复制链接]
|
主动推送
50
|
0
|
2024-9-11 18:09:36
|
显示全部楼层
|
阅读模式
就是首先让蜘蛛爬虫经常来你的网站进行光顾,下面的Centos命令可以让你清楚的知道蜘蛛的爬行情况。下面我们针对nginx服务器进行分析,日志文件所在目录:/usr/local/nginx/logs/access.log,access.log这个文件记录的应该是最近一天的日志情况,首先请看看日志大小,如果很大(超过30MB)建议别用这些命令分析,因为这些命令很消耗CPU,或者wget下来放到分析机上执行,以免影响网站的速度。
Centos shell命令
1. 百度蜘蛛爬行的次数
cat access.log | grep Baiduspider | wc
最左面的数值显示的就是爬行次数。
2. 百度蜘蛛的详细记录(Ctrl C可以终止)
cat access.log | grep Baiduspider
也可以用下面的命令:
cat access.log | grep Baiduspider | tail -n 10
cat access.log | grep Baiduspider | head -n 10
只看最后10条或最前10条,这用就能知道这个日志文件的开始记录的时间和日期。
3. 百度蜘蛛抓取首页的详细记录
cat access.log | grep Baiduspider | grep ‘GET / HTTP’
百度蜘蛛好像对首页非常热爱每个钟头都来光顾,而谷歌和雅虎蜘蛛更喜欢内页。
4. 百度蜘蛛派性记录时间点分布
cat access.log | grep Baiduspider | awk ‘{print $4}’
5. 百度蜘蛛爬行页面按次数降序列表
cat access.log | grep Baiduspider | awk ‘{print $7}’ | sort | uniq -c | sort -r
文中的Baiduspider 改成Googlebot都可以查看谷歌的数据,鉴于大陆的特殊性,大家应该对百度的log更为关注。
附:(Mediapartners-Google)Google adsense蜘蛛的详细爬行记录
cat access.log | grep Mediapartners
Mediapartners-Google是什么呢?Google adsense广告之所以能与内容相关,因为每个包含着adsense的广告被访问后,很快就有个Mediapartners-Google蜘蛛来到这个页面,所以几分钟后再刷新就能显示相关性广告了,真厉害啊!
ps:linux下nginx如何启用网站日志,查看蜘蛛爬虫
默认的路径是你安装时候指定的
如果用的LNMP之类的安装包
你可以在SHELL下
whereisnginx
找到相应的路径之后
在NGINX下的CONF文件夹里看配置文件,日志文件如果记录了话
在配置文件里有路径的~
回复
使用道具
举报
返回列表
发新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
慧眼识英雄1
121
主题
0
回帖
10
积分
新手上路
新手上路, 积分 10, 距离下一级还需 40 积分
新手上路, 积分 10, 距离下一级还需 40 积分
积分
10
加好友
发消息
回复楼主
返回列表
网络技术教程
软件使用教程
Windows教程
Centos教程
Ubuntu教程
Linux其他教程
综合教程
其他教程
其他文档
服务器商家推荐
华夏互联
蓝速云
米图云
全球云
文章
1
苹果电脑MAC系统登录Windows远程桌面
2
Debian拓展硬盘工具。cloud-utils-growpart、xfsprogs
3
安卓Android手机怎么使用V2rayNG?
4
WINDOWS系统电脑怎么使用WINXRAY?
5
notepad++.8.5.7编辑器,代码编辑器
6
DirectX修复工具增强版_V4.3.0.40864版本DLL修复工具C++安装
7
Visual C++运行库合集包完整版VisualCppRedist_AIO_x86_x64
8
ChromeSetup谷歌浏览器一键安装