robots文件是什么
robots文件有什么用?整个网站不能收录或某个目录下所有页面都不能收录,经常是因为robots.txt文件出差错起的。网站工具抓取工具权限部分显示出Google所抓取的robots文件内容。
robots文件中的任何一个字母差错都可能造成致命影响。
站长应该检查robots文件中的每一行代码正确,不会错误禁止应该被收录的文件或目录。
在编写robots.txt文件之前,首先我们需要了解什么是robots.txt文件。
robots.txt文件是指定给搜索引擎spider程序的收录规则。
一般情况下搜索引擎spider程序自动访问互联网上的网站时,会首先检查该网站根目录下是否有robots.txt文件,这个文件用于指定spider对网站的抓取范围,如果没有robots.txt文件或robots.txt文件为空则表示允许spider抓取网站上所有内容。
其次我们需要把robots.txt文件放在正确的位置。robots.txt文件应放置在网站根目录下,例如易发网(efa.wang)相应的robots.txt文件的地址为:http:/efa.wang/robots.txt
那么,我们开始学习正确的robots.txt文件编写规则。
正确的robots.txt文件用法实例:
1、禁止所有搜索引擎抓取网站的任何部分
User-agent: *
Disallow: /
请注意!有一些新手朋友正是误把以上robots规则理解为允许所有搜索引擎抓取网站的任何部分,导致搜索引擎不收录网站。
2、允许所有的spider抓取(或者也可以建一个空的robots.txt文件)
User-agent: *
Allow: /
以上robots规则是允许所有搜索引擎抓取网站的任何部分,但为避免错误,建议建一个空的robots.txt文件即可。
3、禁止spider抓取特定目录
User-agent: *
Disallow: /a/
Disallow: /b/
Disallow: /c/
以上例子,禁止所有的spider抓取a、b、c目录。
这个规则我们最常用到,比如网站的程序后台、程序目录等都可以禁止spider抓取,以减少spider无意义的浪费我们的空间资源。
本文链接:http://efa.wang/seo/baidu/39.html
转载声明:本站发布文章及版权归原作者所有,转载本站文章请注明文章来源!