首先名字不能错,我发现很多网站的名字都没有加s,写为robot.txt,也有的人是第一字母大写,理论上这样都是无效的。
robots是个协议,所以一些东西都需要完全按照标准的来,所以首先定义好名字为:robots.txt放在根目录。至于不同网站不同写法,我这里列举几个例子来说明。
通用的写法:
User-agent: *
Disallow: /ajax/
Disallow: /admin/
Allow: /
Sitemap:http://www.xxxxx.com/sitemap-index.xml
即允许所有的搜索引擎
不抓取AJAX的提交
不抓取后台
其他都允许
并定义SITEMAP
电商类的写法:
User-Agent: *
Disallow: /*?tracker_u=*
Sitemap:http://www.xxxxx.com/sitmap/sitemap.xml
Sitemap:http://www.xxxxx.com/sitmap/commsitemap.xml
Sitemap:http://www.xxxxx.com/sitmap/commpro/sitemap.xml
即允许所有的搜索引擎
禁止抓取访客访问路径参数产生的页面
主SITEMAP
评论SITEMAP
总结下来,其实是首先定义不允许抓取的页面,然后网站地图
不允许抓取的页面跟网站业务逻辑关系很紧密
如果你有vip部分,是收费才能看,就需要把vip目录禁止掉
如果有自动生成的长地址,容易产生重复页面的,也需要按照规则把这些地址禁止掉
murray
原文链接:http://www.xtseo.com/seo-service/307.html 版权所有,转载请以链接形式注明作者及原始出处。
本文来自金戈铁马SEO培训网(www.Gengtima.com),转摘请注明出处。