robots协议的作用及常用方法

2017年8月17日10:58:50 发表评论 522

robots协议的作用及常用方法

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”,网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

robots.txt

这是一个文本文件,是搜索引擎爬行网页要查看的第一个文件,你可以通过robots.txt文件告诉搜索引擎哪些文件可以被查看,哪些是被禁止查看的,当搜索引擎蜘蛛访问一个网站时,他首先会检查根目录是否存在robots.txt文件,如果有就确定抓取范围,没有就按照链接顺序抓取。

robots.txt作用

通过robots文件来告诉搜索引擎蜘蛛禁止爬行访问某些网页跟文件,比如:后台管理文件、程序脚本、数据库文件、编码文件、样式表文件、导航图片等等。这些页面跟图片即便被搜索引擎收录,用户也看不了,或者说不是用户所需求的内容,如后台、会员登录等页面多半需要口令密码或数据文件才能访问,而且被收录后还会浪费服务器资源,增加服务器压力。既然这些不是我们所要推广的内容,为何不把他们屏蔽了,不让搜索引擎来爬行抓取,这样一来,就可以让蜘蛛集中注意力的抓取收录我们的主要内容,提高用户体验。

robots协议常用方法:

(1)用robots屏蔽网站重复页

很多网站一个内容提供多种浏览器版本,虽然方便了用户却对搜索引擎蜘蛛造成了困难,因为他分不清那个是主,那个是次,一旦被搜索引擎认为你是在恶意重复,你的麻烦就大了。

User-agent:*

Disallow:/sitemap/《禁止蜘蛛抓取 文本网页》

(2)用robots保护网站安全

许多低级黑客都是通过搜索网站的默认后台登录,已达到入侵网站的目的。

User-agent:*

Disallow:/admin/《禁止蜘蛛抓取收录admin目录下所有文件》

(3)防止盗链

一般盗链就几个人,可是一旦被搜索引擎“盗链”你的宽带100M也吃不消,如果你做的不是图片网站,又不想被搜索引擎“盗链”你网站中的图片

User-agent: *

Disallow: .jpg$

(4)提交网站地图

现在做优化的都知道做网站地图了,可是却没几个会提交的,绝大多数人是干脆在网页上加个链接,其实robots是支持这个功能的

Sitemap:网站域名/sitemaps/sitemaps_1.xml

(5)禁止二级域名的抓取

一些网站会对VIP会员提供一些特殊服务,却又不想这个服务被搜索引擎检索到

在二级域名的根目录下加入robots.txt文件。

User-agent: *

Disallow: /

因为二级域名也是单独的一个网站。

以上robots协议常用方法足以让你对搜索引擎蜘蛛的掌控能力提升不少。
想要了解robots.txt更多的用法以及标准的写法规则,可以点击查看“robots.txt详细写法规则”。
  • 繁寻微信号
  • 扫一扫加好友
  • weinxin
  • 繁寻公众号
  • 扫一扫关注公众号
  • weinxin

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: