当前位置 : 金戈铁马SEO培训网 / 网站优化

百度蜘蛛会抓取被Robots禁止的网页

金戈铁马SEO培训网   http://www.Gengtima.com/   July-22 9:39:48

网友代问:百度蜘蛛会抓取被Robots 禁止的网页

1、己经Disallow了 /modules/news/ 文件夹,但/modules/news/view.category.php/ 还是会被抓走,并且放了出来。

2、重新设置了Disallow,设置为/modules/,蜘蛛才不抓/modules/news/view.category.php/

3、年初刚做站时,担心蜘蛛抓错了测试文章,所以整站Disallow了,五月初才开放给蜘蛛进来,蜘蛛每天访问很多次首页和部分内页,但只放出首页,和一些抓错网址的栏目页,一个合格的内页都没放出来。

现在己经两个月过去了,很着急。 文章都是原创的,请问百度lee老大 我应该怎么做?

robots协议支持多级目录Disallow。
因此Disallow了 /modules/news/ 文件夹,/modules/news/下所有文件应该禁止抓取。
出现提问中的例外情况,也许跟robots中其他设置顺序以及内容有关。
可以贴上robots文件的全部内容,再看看。

如百度网页搜索帮助所介绍,http://www.baidu.com/search/guide.html#1
新的Robots文件通常会在48小时内生效,也就是蜘蛛在48小时内识别了更新的robots文件内容后,会按新robots设置执行抓取。

之后,这些网页将同所有被抓来的网页一样进入下一个筛选环节。

本文来自金戈铁马SEO培训网(www.Gengtima.com),转摘请注明出处。

体验版下载

学员心得分享