本站robots.txt文件的书写实操
搜索引擎来到网站时,会先查看网站的目录下是否存在robots.txt文件,如果存在,搜索引擎就会抓取robots.txt文件的内容,根据指令做出相应的爬行动作,查看百度的robots文件http://www.baidu.com/robots.txt,站长只有在禁止探索引擎抓取某些内容时才有意义, robots文件不存在或者为代都表示允许任意探索引擎抓取任意的内容。
如果设置了robots文件,那么就一定要设置正确,否则后果不堪设想。早两年遇见过一个新手站长,由于服务器设置有问题,robots文件不存在也返回了200的状态码,这样使搜索引擎错误解析robots文件,因此珠海seo建议即使允许抓取所有内容,也不要偷懒,还是新建一个空的robots.txt文件的好。
robots文件的写法很简单,每组记录以空行分隔,记录格式:
<域>:<可选空格><域值><可选空格>
看下面的robots文件:
User-agent: * (表示规则适用的蜘蛛,百度蜘蛛Baiduspider,Google蜘蛛Googlebot,有道蜘蛛YoudaoBot)
Disallow: / (表示不要抓取的文件 "/"表示所有)
这个robots文件表示禁止所有搜索引擎的抓取。
了解这些robots知识后,再来看本站的robts文件如何书写?本站采用zb程序,笔者认为需要禁止的页面有两个search.asp和view.asp,search页面没有实质内容,view页面主要用于后台查看文章,为了防止搜索引擎判定页面重复,因此这里也需要禁止。因此珠海seo的robots.txt文件内容为
User-agent: *
Disallow: /search.asp
Disallow: /view.asp
在robots.txt中也可以指明网站地图的位置,指令是Sitemap: <sitemap_location>
笔者的博客很简单,robots.txt的文件也很简短。如果遇到比较复杂的设置,大家可以参看百度,CNN等大型网站的robots设置。