百度seo公司:各种搜索引擎自觉去遵守这个协议!
我们的网站上或多或少存在一些页面涉及到网站的敏感信息不希望在搜索引擎上公开;还有一些页面是根本没必要被搜索引擎收录的:比如网站的管理后台入口。对于seoER而言有一些页面如果被收录后反而会影响关键词着陆页的排名,或者降低了着陆页的转化率,比如电子商务网站的商品评论页。那么我们通过什么样的方法可以限制搜索引擎收录此类页面呢?
人们的网址上难免会存有一些页面涉及网址的比较敏感信息内容不期待在搜索引擎上公布;百度seo公司也有一些页面是本质没必需被搜索引擎检索的:例如网址的后台管理系统通道。针对seoER来讲有一些页面假如被检索后反倒会危害关键字落地页的综合排名,或是减少了落地页的支付转化率,例如电商网站的商品评论页。那麼人们根据哪些的方式能够限定搜索引擎检索该类页面呢?
1994年6月30日,在历经搜索引擎工作人员及其被搜索引擎爬取的网址网站站长相互探讨后,宣布公布了一份制造行业标准,即robots.txt协议。这一协议本非法律法规,也非指令,只是一个自控能力的契约书,必须各种各样搜索引擎主动去遵循这一协议。这一协议告知搜索引擎什么页面能够爬取,什么页面不可以爬取。
当一个爬虫技术浏览一个站名时它会最先查验该站名网站根目录下是不是存有robots.txt;要是没有对网址的robots协议开展设定,则爬虫会尽量的检索全部可以浏览到的页面,而假如存有该robots协议文档,爬虫则会遵循该协议,忽视这些不期待被爬取的页面连接,下边人们以http://www.baidu.com/robots.txt为例:
User-agent: Googlebot
Disallow: /baidu
Disallow: /s?
Disallow: /shifen/
Disallow: /homepage/
Disallow: /cpro
搜百度不期待谷歌搜索引擎的Googlebot爬虫检索/baidu 、/shifen 、/homepage/ 、/cpro 文件目录下及其全部/s开始的搜索结果面的。
User-agent:表达爬虫的姓名
Allow:表达容许爬虫浏览的页面
Disallow:就是指严禁爬虫浏览的页面
Visit-time:只能在visit-time特定的时间范围里,robot才能够浏览特定的URL
Request-rate: 用于限定URL的载入頻率
除开所述robots.txt文档以外,人们可以对于每一个页面,在网页的原信息内容中设定该页面是不是容许被检索:
noindex: 不索引此网页
nofollow:不根据此网页的连接索引检索其他的的网页
none: 将忽视此网页,等价于“noindex,nofollow”
index: 索引此网页
follow:根据此网页的连接索引检索其他的的网页
all: 搜索引擎将索引此网页与再次根据此网页的连接索引,等价于index,follow。
举例说明〈meta name=“Baiduspider” content=“none" /〉不是容许百度爬虫索引该页面,而且不容许爬行运动该页面中的全部连接。
也有一种方式,就是说在超链接的rel特性中填写信息“nofollow”,就像〈a rel=”nofollow” href=”*”〉超链接〈/a〉,表达搜索引擎不必追踪连接。
可是全部所述方式全是根据Robot的自控能力协议,并不是强制执行的相关法律法规。百度seo公司假如碰到不遵循该协议的爬虫技术瘋狂的爬取网页页面并对网址特性造成了严重危害,更加合理的方应用入侵检测技术(IDS)侵入防御系统(IPS)计算机设备。
转载请注明: 爱推站 » 百度seo公司:各种搜索引擎自觉去遵守这个协议!
评论列表(0)
发表评论