robots.txt蜘蛛收录规则文件常用写法

[复制链接] |主动推送
查看17 | 回复0 | 2024-9-11 14:52:20 | 显示全部楼层 |阅读模式
robots.txt文件是搜索引擎收录规则文件,告诉搜索引擎哪些是不希望被收录的,可以定义为哪些目录允许搜索引擎抓取,哪些搜索引擎可以抓取,将以下代码根据需求另存为robots.txt存放到网站根目录中,即可生效。
禁止所有搜索引擎收录
User-agent: *
Disallow: /
禁止google爬虫
User-agent: Googlebot
Disallow: /
禁止百度爬虫
User-agent: Baiduspider
Disallow: /
禁止抓取后台目录
User-agent: *
Disallow: /admin/
Disallow: /user/
禁止收录所有动态页面
User-agent: *
Disallow: /*.asp  或 .php
禁止收录图片
User-agent: *


Disallow: .jpg$
Disallow: .png$
Disallow: .gif$
只允许收录html静态页面
User-agent: *
Allow: .html$
Disallow: /
以上规则可以根据实际需要组合使用。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则