当前所在位置:网站首页 > 网络营销 > 网站优化

网站优化

robots.txt禁止页面出现在搜索结果中的影响分析
作者: 网站优化   来源:    发布时间: 2013-5-19 11:26:55   大小:  16px  14px  12px
有的是时候,你会惊奇的发现,明明在robots.txt中禁止收录的页面,却出现在了搜索引擎结果列表中,特别是在site:的时候最容易发现。这是你可千万不要惊慌,去怀疑是否robots.txt语法规则写错了。robots.txt里禁止的页…

  有的是时候,你会惊奇的发现,明明在robots.txt中禁止收录的页面,却出现在了搜索引擎结果列表中,特别是在site:的时候最容易发现。这是你可千万不要惊慌,去怀疑是否robots.txt语法规则写错了。

  robots.txt里禁止的页面为什么出现在搜索结果中

  robots.txt禁止抓取的文件搜索引擎将不访问,不抓取。但要注意的是,被robots.txt禁止抓取的URL还是可能出现在搜索结果中,只要有导入链接指向这个URL,搜索引擎知道这个URL的存在,虽然不会抓取页面内容,但是可能以下面几种形式显示在搜索结果中:

  只显示URL,没有标题、描述。

  显示开发目录或雅虎等重要目录收录的标题和描述。

  显示导入链接锚文字作为标题和描述。

  之所以这样处理的重要原因是,搜索引擎虽然不搜录该页面,但由于有很多链接链向这个页面,因此它认为这个页面是有价值的,可能和用户在这发生的搜索行为目的有密切关系,因此显示出来,但为了尊重站长,又不显示URL的详细信息。

  

 

  如上图中,谷歌仍然将本站的一个跳转链接显示在搜索结果中,并在网址下方提示“由于本站的robots.txt,系统未提供…”,而结果标题不是这个跳转页面的<title>,而是链接到这个跳转页面的锚文本,你可以试试上面的那个地址,验证效果。

  如何真正实现禁止收录

  这里要谈的不是“禁止收录”,而是“禁止索引”,上述情况就是禁止收录了,但搜索引擎仍然对网页进行索引,在用户需要时返回它认为可靠的信息。在已经添加到robots.txt中作为规则之后,为了彻底将这些页面从搜索引擎结果列表中去除,我们可以通过以下几种方式。

  1、使用meta robots标签

  在这个不像被收录(索引)的页面头部加上下面的代码

        <meta name="ROBOTS" content="NOINDEX,NOFOLLOW,NOARCHIVE" />

  其中NOINDEX即禁止索引本页,搜索引擎中将不会返回本页作为结果。NOARCHIVE指不建立快照,百度支持它,百度好像暂不支持NOINDEX。NOFOLLOW指蜘蛛不会跟随本页内的链接继续爬行,也不会传递本页的权重。注意一个事实,链接流动和传递权重是与禁止索引不等效的,也就是说,如果你只是使用下面的代码,那么这个页面将不会被返回到搜索结果中,但是页面上的链接还是会被蜘蛛爬行,权重还是会顺着它们往下传递。

<meta name="ROBOTS" content="NOINDEX,NOARCHIVE" />

  2、在链接向这个页面的锚链接加rel=”nofollow”

  既然你已经在robots.txt中禁止抓取这个页面,肯定不想让其他链接来到这个页面,因此,你可以在链接上加上rel=”nofollow”,这样蜘蛛就不会再跟着这条链接爬到你禁止抓取的页面了,也不会把权重传到那个页面了。不过如果锚链接是别人写在他们自己的网站里面,这就没有办法了,只能使用第一种方法。

  这种现象对SEO有什么影响

  首先,我们需要明确,到底该不该禁止这些页面的搜录。网页禁止收录的原因有多种,或许你不希望别人查看你的隐私,或许由于网页的内容不重要,或许这个网页就像我的一样是一个跳转页面,最好不要收录。可是,这种不收录是否对SEO有比较好的影响才是我所关注的,如果不收录导致坏的SEO影响,而那些页面也无关紧要,那我们就让它收录不就可以了。可是,这种不收录的影响具有两面性,有时好,有时坏,要看如何操作。

  如果由于网页价值差,而不搜录页面,未尝不可,但是如果由于禁止了这个网页的收录,也就失去了链接流的传递环节,网站内的链接由此断裂了,导致权重传递在这里中断甚至消失,那么就是坏的影响。例如某一个在线留言页面,站长觉得它不重要,也不希望其中的内容在搜索结果中展现,因此禁止它收录了,但是一个网站结构的页面只有从这个页面才能进入,那么这样的话,这个页面就没有办法被搜索引擎抓取了,可是正是由于这个页面把网站结构串联起来,是一个非常关键的页面,这样一来,网站就面临了巨大的损失。另一种情况是,大量的网页链接到这个页面,它集中了大量的权重,可是你却规定它不被收录,这样一来它所获得的这些权重就浪费了,也不传递给别的网页,这就是权重黑洞。

  当然也有好的影响,例如上述我的网站的跳转页面,我将它们禁止收录之后,它们就不会出现在搜索结果中,用户不可能进入这种没有意义的页面,更不可能进入我的网站,还没停上半秒钟就进入别人的网站。另外,我在导入这些跳转页面的链接上加了rel=”nofollow”,既防止了页面被抓取,也避免了将权重传递到其他网站。

  不过也有人利用这种robots.txt的特性来欺骗搜索引擎,例如有人制作了一个H网页,由于它的内容是不好的,因此他用robots.txt将它隐藏起来,但是又不禁止收录,并且在其他网站做了一些外链,而这些外链的锚文本与网页的内容没有关系。在这种操作下,就会出现我在上文中给出的那张图片一样,搜索结果的标题是锚文本的标题,但实际网页内容是另外的内容,以实现欺骗搜索引擎和用户的目的。

深圳朵唯时代网络营销事业部是专业的网站建设与互联网信息服务商,目前朵唯时代已成为行业内知名的Seo服务商,深圳seo、北京seo咨询热线:18610866328,北京网站优化在线咨询QQ:1378623600。深圳seo/北京seo官方网站http://www.indexseo.cn。

分享到: 0