金戈铁马SEO培训网 http://www.Gengtima.com/ July-22 9:39:48
网友代问:百度蜘蛛会抓取被Robots 禁止的网页
1、己经Disallow了 /modules/news/ 文件夹,但/modules/news/view.category.php/ 还是会被抓走,并且放了出来。
2、重新设置了Disallow,设置为/modules/,蜘蛛才不抓/modules/news/view.category.php/
3、年初刚做站时,担心蜘蛛抓错了测试文章,所以整站Disallow了,五月初才开放给蜘蛛进来,蜘蛛每天访问很多次首页和部分内页,但只放出首页,和一些抓错网址的栏目页,一个合格的内页都没放出来。
现在己经两个月过去了,很着急。 文章都是原创的,请问百度lee老大 我应该怎么做?
robots协议支持多级目录Disallow。
因此Disallow了 /modules/news/ 文件夹,/modules/news/下所有文件应该禁止抓取。
出现提问中的例外情况,也许跟robots中其他设置顺序以及内容有关。
可以贴上robots文件的全部内容,再看看。
如百度网页搜索帮助所介绍,http://www.baidu.com/search/guide.html#1
新的Robots文件通常会在48小时内生效,也就是蜘蛛在48小时内识别了更新的robots文件内容后,会按新robots设置执行抓取。
之后,这些网页将同所有被抓来的网页一样进入下一个筛选环节。
本文来自金戈铁马SEO培训网(www.Gengtima.com),转摘请注明出处。