robots.txt写法规则

  • A+
所属分类:SEO优化

robots.txt写法规则

什么是robots

  1. 网站和搜索引擎之间的协议文件。
  2. 蜘蛛爬行网站时第一个访问的文件。
  3. robots.txt文件应该放在网站根目录下,如果根目录下没有这个文件,需要自己手动创建一个robots.txt文件。

robots的重要性

当网站中的内容、页面重复率跟404错误信息越来越多,搜索引擎就会认为网站的价值较低,从而降低我们的网站权重,影响网站排名。

robots的作用

  1. 屏蔽网站内的死链接。
  2. 禁止搜索引擎索引抓取网站内重复的内容跟页面。
  3. 保护网站中的隐私内容,防止信息泄露。
  4. 让搜索引擎合理的抓取网站资源,只抓取需要参与排名的内容等等。。。

能够屏蔽的内容

  1. 不想被抓取的隐私内容
  2. 后台
  3. 数据库文件
  4. 模板
  5. 插件文件
  6. 做了伪静态需要屏蔽动态路径等等。。。

robots的几个关键词:

User-agent:用户代理,定义搜索引擎类型,该值用于描述搜索引擎robot的名字。

Disallow:不希望被访问的一组URL,定义禁止抓取收录地址。

Allow:希望被访问的一组URL。

*:匹配0或多个任意字符。

$:匹配行结束符。

#:注释——说明性的文字,不写也可以。

Googlebot:谷歌搜索机器人(搜索引擎蜘蛛)

Baiduspider:百度搜索蜘蛛(搜索引擎蜘蛛)

目录、网址的写法都是以正斜线(/)开头,如:

Disallow:/

Disallow:/admin/

Disallow:/css/

robots.txt写法规则

robots的基本语法和作用

(1)允许所有的搜索引擎访问网站的所有部分:

  • User-agent:*  
  • Disallow:

或者:

  • User-agent:*  
  • Allow:/

或者:

  • 建立一个空白的robots.txt文档

(2)禁止所有的搜索引擎访问网站的所有部分:

  • User-agent:*  
  • Disallow:/

(3)禁止某个搜索引擎索引网站:

  • 禁止百度搜索引擎
  • User-agent:Baiduspider  
  • Disallow:/
  • (同理:禁止谷歌——User-agent:Googlebot  Disallow:/)
  • (同理:禁止其他搜索引擎——User-agent:搜索引擎网站爬行抓取程序的名字  Disallow:/)

(4)禁止除百度以外的一切搜索引擎索引网站:

  • User-agent:Baiduspider  
  • Disallow:      
  • User-agent:*  
  • Disallow: /
  • (其他搜索引擎同理)

(5)禁止和允许搜索引擎访问某个目录:

  • User-agent:*  
  • Disallow:/damin/(禁止访问admin文件夹)  
  • Allow:/images/(允许访问images文件夹)

(6)禁止和允许搜索引擎访问某个后缀:

  • User-agent:*  
  • Disallow:/admin/*.php(禁止访问admin目录下所有的php文件)  
  • Allow:/admin/*.asp (允许访问admin目录下所有的asp文件)

(7)禁止搜索引擎索引网站中所有的动态页面:

  • User-agent:*  
  • Disallow:/*?*(因为动态路径中含有?  所以在?前后都加上*通配符   就可以匹配所有的动态路径了)

(8)要拦截对所有包含问号 (?) 的网址的访问(具体地说,这种网址以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串),请使用以下内容:

  • User-agent: Googlebot(谷歌蜘蛛,可以是其他蜘蛛,也可以是*通配符代表所有蜘蛛)
  • Disallow: /*?

(9)要指定与某个网址的结尾字符相匹配,请使用 $

  • 例如,要拦截以 .xls 结尾的所有网址,请使用以下内容:
  • User-agent: Googlebo
  • Disallow: /*.xls$

您可将结尾字符$匹配与 Allow 指令配合使用。

例如,如果 ? 代表一个会话 ID,那么您可能希望排除包含 ? 的所有网址,以确保 Googlebot 不会抓取重复网页。但是以 ? 结尾的网址可能是您希望包含在内的网页的版本。

在此情况下,您可以对您的 robots.txt 文件进行如下设置:

  • User-agent: *
  • Allow: /*?$
  • Disallow: /*?

Disallow: /*? 指令会阻止包含 ? 的所有网址(具体地说,它将拦截所有以您的域名开头、后接任意字符串,然后接问号,而后又接任意字符串的网址)。

  • 繁寻微信号
  • 扫一扫加好友
  • weinxin
  • 繁寻公众号
  • 扫一扫关注公众号
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen:

目前评论:2   其中:访客  0   博主  0   引用   2

    来自外部的引用: 2

    • robots协议的作用及常用方法 – 郑州SEO技术博客
    • 怎样优化自己的网站 – 结构代码优化篇 – 【郑州SEO】SEO技术教程