加载中 ...
首页 > 建站 > SEO > 正文

robots.txt的规则误区及百度和Google的robots工具的使用

2019-05-17 12:42:32 来源:

对robots.txt文件对网站的感化年夜家都知道,可是经由过程不雅察发现,有些伴侣对robots.txt文件的法则仍是有必然的误区。

好比有良多人如许写:

User-agent: *

Allow: /

Disallow: /mulu/

不知道年夜家有无看出来,这个法则实际上是不起感化的,第一句Allow: / 指的是许可蜘蛛爬行所有内容,第二句Disallow: /mulu/指的是制止/mulu/下面的所有内容。

概况上看这个法则想到达的目标是:许可蜘蛛爬行除/mulu/以外的网站所有页面。

可是搜刮引擎蜘蛛履行的法则是从上到下,如许会造成第二句号令掉效。

准确的法则应当是:

User-agent: *

Disallow: /mulu/

Allow: /

也就是先履行制止号令,再履行许可号令,如许就不会掉效了。

别的对百度蜘蛛来讲,还有一个轻易犯的毛病,那就是Disallow号令和Allow号令以后要以斜杠/开首,所以有些人如许写:Disallow: *.html 如许对百度蜘蛛来讲是毛病的,应当写成:Disallow: /*.html 。

有时辰我们写这些法则可能会有一些没有注重到的题目,此刻可以经由过程百度站长东西(zhanzhang.百度.com)和Google站长东西来测试。

相对来讲百度站长东西robots东西相对简陋一些:

百度Robots东西只能检测每行号令是不是合适语律例则,可是不检测现实结果和抓取逻辑法则。

相对来讲Google的Robots东西好用良多,如图:

在谷歌站长东西里的名称是抓取东西的权限,并陈述Google抓取网站页面的时辰被阻挡了几多个网址。

还可以在线测试Robots点窜后的结果,固然这里的点窜只是测试用,若是没有题目了,可以天生robots.txt文件,或把号令代码复制到robots.txt文本文档中,上传到网站根目次。

Google的测试跟百度有很年夜的区分,它可让你输入某一个或某些网址,测试Google蜘蛛是不是抓取这些网址。

测试成果是这些网址被Google蜘蛛抓取的环境,这个测试对Robots文件对某些特定url的法则是不是有用。

而两个东西连系起来固然更好了,这下应当完全大白robots应当怎样写了吧。

转载请注明来自逍遥博客,本文地址:http://libo搜索引擎优化.com/1170.html,转载请注明出处和链接!

“广域创业网”的新闻页面文章、图片、音频、视频等稿件均为自媒体人、第三方机构发布或转载。如稿件涉及版权等问题,请与

我们联系删除或处理,客服邮箱,稿件内容仅为传递更多信息之目的,不代表本网观点,亦不代表本网站赞同

其观点或证实其内容的真实性。