【baiduspider】百度蜘蛛叫Baiduspider不是baidubot

1.jpg

  今天又遇到有同学问我关于ROBOTS该如何去写的问题,这里整理下给大家,其实也都是来源于网路上,注意百度的蜘蛛叫做Baiduspider而不是baidubot,谷歌的叫做googlebot。


  1、禁止所有搜索引擎访问网站的任何部分


  User-agent:*


  Disallow:/


  2、允许所有的robot访问(或者也可以建一个空文件"/robots.txt")


  User-agent:*


  Allow:/


  另一种写法是


  User-agent:*


  Disallow:


  3、仅禁止Baiduspider访问您的网站


  User-agent:Baiduspider


  Disallow:/


  4、仅允许Baiduspider访问您的网站


  User-agent:Baiduspider


  Allow:/


  5、禁止spider访问特定目录


  在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须


  分开声明,而不能写成"Disallow:/cgi-bin//tmp/"。


  User-agent:*


  Disallow:/cgi-bin/


  Disallow:/tmp/


  Disallow:/~joe/


  6、允许访问特定目录中的部分url


  User-agent:*


  Allow:/cgi-bin/see


  Allow:/tmp/hi


  Allow:/~joe/look


  7、使用"*"限制访问url


  禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。


  User-agent:*


  Disallow:/cgi-bin/*.htm


  8、使用"$"限制访问url


  仅允许访问以".htm"为后缀的URL。


  User-agent:*


  Allow:/.htm$


  9、禁止访问网站中所有的动态页面


  User-agent:*


  Disallow:/*?*


  10、禁止Baiduspider抓取网站上所有图片


  仅允许抓取网页,禁止抓取任何图片。


  User-agent:Baiduspider


  Disallow:/*.jpg$


  Disallow:/*.jpeg$


  Disallow:/*.gif$


  Disallow:/*.png$


  Disallow:/*.bmp$


  11、仅允许Baiduspider抓取网页和gif格式图片


  允许抓取网页和gif格式图片,不允许抓取其他格式图片


  User-agent:Baiduspider


  Allow:.gif$


  Disallow:/.jpg$


  Disallow:/.jpeg$


  Disallow:/.png$


  Disallow:/.bmp$


  12、仅禁止Baiduspider抓取jpg格式图片


  User-agent:Baiduspider


  Disallow:/.jpg$