robots.txt是什么,它的作用及用法

原创 海中金  2017-11-24 11:38 

robots.txt文件是每一个搜索引擎蜘蛛到你的网站之后访问的第一个文件,robots.txt是你对搜索引擎制定的一个如何索引你的网站的规则。通过该文件搜索引擎就可以知道在你的网站中哪些文件是可以被索引的,哪些文件是被拒绝索引的,我们就可以很方便地控制搜索索引网站内容了。

 

一、robots.txt的作用

1、屏蔽网站内的死链接。2、屏蔽搜索引擎蜘蛛抓取站点内重复内容和页面。3、阻止搜索引擎索引网站隐私性的内容。

因此建立robots.txt文件是很有必要的,网站中重复的内容、页面或者404信息过多,搜索引擎蜘蛛就会认为该网站价值较低,从而降低对该网站的“印象分”,这就是我们经常听到的“降低权重”,这样网站的排名就不好了。

robots.txt文件需要注意的最大问题是:必须放置在一个站点的根目录下,而且文件名必须全部小写。

robots.txt是一个纯文本文件。当一个搜索引擎爬虫访问一个网站时,它会先检查站点根目录下是否存在robots.txt,如果存在,搜索爬虫就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索爬虫将能够访问网站上所有没有被口令保护的页面。

二、robots.txt的语法

robots.txt文件的基本语法只有两条,第一条是:User-agent,即搜索引擎蜘蛛的名称;第二条是:Disallow,即要拦截的部分。

三、下面是一些robots.txt基本的用法:
1、禁止所有搜索引擎访问网站的任何部分:
User-agent: *
Disallow: /

2、允许所有的robot访问
User-agent: *
Disallow:
或者也可以建一个空文件robots.txt

3、禁止所有搜索引擎访问网站的几个部分(下例中的 /wp-*、 /wp-*/、 /*admin目录)
User-agent: *
Disallow: /wp-*
Disallow: /wp-*/
Disallow: /*admin

4、禁止某个搜索引擎的访问(下例中的BadBot)
User-agent: BadBot
Disallow: /

5、只允许某个搜索引擎的访问(下例中的WebCrawler)
User-agent: WebCrawler
Disallow:
User-agent: *
Disallow: /

最后把写好的这个robots.txt文本文档上传到网站根目录下就可以。

本文地址:http://www.qinghaiseo.cn/?p=172
版权声明:本文为原创文章,版权归 海中金 所有,欢迎分享本文,转载请保留出处!

评论已关闭!