问题描述:曾经在用百度site:qiusuoge.com时,发现有很多带有类如?replytocom=111的重复收录页面。这样岂不是浪费了百度蜘蛛的感情,也产生了大量的垃圾信息,影响用户的观感,更有甚者会带来百度的K站。其实,使用WordPress开源系统搭建的博客,评论中出现的链接被蜘蛛抓取,从而导致搜索引擎重复收录相同内容的页面。于是一查到底,找出了此类问题的解决方法。
解决方案:很简单,就是禁止蜘蛛抓取replytocom。具体做法如下--
在robots.txt中添加以下代码即可: Disallow: /*?replytocom=
如果没有robots.txt文件的话,自己创建一个上传到根目录就可以,注意要ansi格式的。根据经验,百度并不是每天都会查询robots.txt。一般来说,robots.txt生效时间是一周左右。不过求索阁认为24小时内就会生效,并且删除那些重复收录的网页。
另外,推荐一款插件:Baidu Sitemap Generator,能够自动生成Sitemap文件,就相当于网站被百度--全球最大的中文搜索引擎订阅,进而为您的网站带来潜在的流量。与此类似的插件还有Google Sitemap Generator。二者效果如何,有待自己去发掘啊。
>>更多百度robots.txt