t-Image
Disallow: /3) 以下代码不允许任何一个搜索引擎和机器人挖掘目录和页面信息
User-agent: *
Disallow: /cgi-bin/
Disallow: /privatedir/
Disallow: /tutorials/blank.htm4) 你还可以对多个机器人设置不同的目标,看看下面的代码
User-agent: *
Disallow: /
User-agent: Googlebot
Disallow: /cgi-bin/
Disallow: /privatedir/这个设置很有趣,这里我们禁止了所有的搜索引擎对于我们的网站的挖掘操作,除了google,在这里Google被允许访问除了/cgi-bin/和/privatedir/以外的所有站点。这里说明,规则是可以定制的,但不是继承而来的。
3) 有另外一种使用Disallow的方法:即允许访问网站所有内容,其实只要冒号后不输入任何东西就可以了
User-agent: *
Disallow: /
User-agent: ia_archiver
Disallow:在这里,除了alex以外的所有爬虫都不允许搜索我们的网站
4) 最后,一些爬虫现在支持Allow规则,最著名的就是Google。正如这个规则的名字所说,"Allow:"允许你精确的控制那些文件或者文件夹是可以被访问的。然而,这个文件目前还不是robots.txt协议的组成部分,所以我建议只有在必须使用时才使用它,因为一些不够聪明的爬虫可能认为它是错误的。
下面的内容来自于Google's的FAQs for webmasters,如果你希望除了Google以外的爬虫都不挖掘你的网站,那么以下的代码是做好的选择
User-agent: *
Disallow: /
上一页 [1] [2] [3] 下一页
|