怎样推广网站:屏蔽掉流行百度搜索引擎网络爬虫
网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。 比如,你要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重,这肯定是我们不想看到的结果。 以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽
企业网站建设好啦,自然是期待网页页面被百度搜索引擎百度收录的愈多愈好,但有时大家也会遇到网址不用被百度搜索引擎百度收录的状况。
例如,你可以开启一个新的网站域名做镜像网站,关键用以PPC的营销推广,这个时候就需要想办法屏蔽掉百度搜索引擎搜索引擎蜘蛛爬取和数据库索引大家镜像网站的所有网页。由于假如镜像网站也被百度搜索引擎百度收录得话,很有可能会危害官方网站在百度搜索引擎的权重值,这肯定是大家不愿见到的結果。
下列例举了屏蔽掉流行百度搜索引擎网络爬虫(搜索引擎蜘蛛)爬取/数据库索引/百度收录网页页面的几类构思。留意:是整站源码屏蔽掉,并且是尽量的屏蔽全部流行百度搜索引擎的网络爬虫(搜索引擎蜘蛛)。
1、根据robots.txt文件屏蔽掉
可以说robots.txt文件是最重要的一种方式(能和百度搜索引擎创建交谈)。我根据剖析自己blog的网络服务器日志文件,得出下列提议(另外热烈欢迎网民填补):
User-agent:Baiduspider
Disallow:/
User-agent:Googlebot
Disallow:/
User-agent:Googlebot-Mobile
Disallow:/
User-agent:Googlebot-Image
Disallow:/
User-agent:Mediapartners-Google
Disallow:/
User-agent:Adsbot-Google
Disallow:/
User-agent:Feedfetcher-Google
Disallow:/
User-agent:Yahoo!Slurp
Disallow:/
User-agent:Yahoo!SlurpChina
Disallow:/
User-agent:Yahoo!-AdCrawler
Disallow:/
User-agent:YoudaoBot
Disallow:/
User-agent:Sosospider
Disallow:/
User-agent:Sogouspider
Disallow:/
User-agent:Sogouwebspider
Disallow:/
User-agent:MSNBot
Disallow:/
User-agent:ia_archiver
Disallow:/
User-agent:TomatoBot
Disallow:/
User-agent:*
Disallow:/
2、根据metatag屏蔽掉
在全部的网页页面头顶部文档加上,加上以下句子:
3、根据网络服务器(如:Linux/nginx)环境变量设定
立即过虑spider/robots的IP段。
小注:第一招和第二招只对“谦谦君子”合理,避免“奸险小人”要采用第三招(“谦谦君子”和“奸险小人”各自特指指遵循与不遵循robots.txt协议书的spider/robots),因此网址发布以后要持续追踪剖析系统日志,挑选出这种badbot的ip,随后屏蔽掉之。
这儿有一个badbotip数据库查询:http://www.spam-whackers.com/bad.bots.htm
4、根据百度搜索引擎出示的百度站长工具,删掉网页快照
例如,有的情况下百度搜索不严格执行robots.txt协议书,能够 根据百度搜索出示的“网页页面举报”通道删掉网页快照。百度网页投诉中心:http://tousu.baidu.com/webmaster/add
如下图是我的一个网页页面举报:
大约三天上下的時间以往,这一网页页面的网页快照也被删掉,表明此类方式 也可以见效,自然它是不可而而为,归属于画蛇添足。
5、填补升级
能够 根据检验HTTP_USER_AGENT是不是为网络爬虫/搜索引擎蜘蛛浏览,随后立即回到403状态码屏蔽掉之。例如:因为api管理权限与新浪微博信息内容个人隐私保护缘故,Xweibo2.0版本号后严禁百度搜索引擎百度收录。
有关怎样屏蔽掉百度搜索引擎网络爬虫(搜索引擎蜘蛛)爬取/数据库索引/百度收录网页页面,您有别的哪些更强的提议或是方式 ,也热烈欢迎发帖子!希望与您沟通交流。
转载请注明: 爱推站 » 怎样推广网站:屏蔽掉流行百度搜索引擎网络爬虫
评论列表(0)
发表评论