seo培训网:可以在线测试系统Robots改动后的实际效果
对于robots.txt文件对于网站的作用大家都知道,但是通过观察发现,有些朋友对于robots.txt文件的规则还是有一定的误区。 比如有很多人这样写: User-agent: * Allow: / Disallow: /mulu/ 不知道大家有没有看出来,这个规则其实是不起作用的,第一句Allow: / 指的是允许蜘蛛爬行所有内容,第二句Disallow: /mulu/指的是禁止/mulu/下面的所有内容。 表面上看这个规则想达到
针对robots.txt文件针对网址的功效大家都了解,可是仔细观察发觉,一些盆友针对robots.txt文件的标准還是有一定的错误观念。
例如有很多人那样写:
User-agent:*
Allow:/
Disallow:/mulu/
不清楚大伙儿有木有看出去,这一标准实际上是失灵的,第一句Allow:/指的是容许搜索引擎蜘蛛爬取全部內容,第二句Disallow:/mulu/指的是严禁/mulu/下边的全部內容。
表层上看这个标准想做到的目地是:容许搜索引擎蜘蛛爬取除开/mulu/以外的网址全部网页页面。
可是百度搜索引擎搜索引擎蜘蛛实行的标准是从上向下,那样会导致第二句指令无效。
恰当的标准应该是:
User-agent:*
Disallow:/mulu/
Allow:/
也就是先实行严禁指令,再实行容许指令,那样就不容易无效了。
此外针对百度爬虫而言,还有一个非常容易犯的不正确,那便是Disallow指令和Allow指令以后要以斜线/开始,因此有的人那样写:Disallow:*.html那样对百度爬虫而言是不正确的,应当写出:Disallow:/*.html。
有时人们写这种标准将会也有一些沒有注意到的难题,现在可以根据百度搜索百度站长工具(zhanzhang.baidu.com)和Google百度站长工具来检测。
相对而言百度搜索百度站长工具robots专用工具相对性简单一些:
百度搜索Robots专用工具只有检验每一行指令是不是合乎英语的语法标准,可是不检验预期效果和爬取逻辑性标准。
相对而言Google的Robots专用工具功能强大许多 ,如图所示:
在Google百度站长工具里的名字是爬取专用工具的管理权限,并汇报Google爬取网页页面的情况下被阻拦了多少个网站地址。
可以在线测试系统Robots改动后的实际效果,自然这儿的改动仅仅检测用,要是没有难题了,能够转化成robots.txt文件,或是把指令编码拷贝到robots.txt文本文本文档中,上传入网址网站根目录。
Google的检测跟百度搜索有挺大的差别,它能够给你键入某一个或是一些网站地址,检测Google搜索引擎蜘蛛是不是爬取这种网站地址。
检测結果是这种网站地址被Google搜索引擎蜘蛛爬取的状况,这一检测针对Robots文件对一些特殊url的标准是不是合理。
而2个专用工具融合起來自然更强了,这下应当完全搞清楚robots应该怎么写了吧。
转载请注明: 爱推站 » seo培训网:可以在线测试系统Robots改动后的实际效果
评论列表(0)
发表评论