百度姓名排名:新浪网屏蔽掉百度爬虫的恶性事件!
记得很早以前,那个时间新浪屏蔽百度蜘蛛的事件传得很大,其实你主要是学会了ROBOTS.TXT的写法,那就简单的了,两下就认出了这事的真假。所以说学好技术,可以更好的知道真相。 首先,我们先来认识我们亲爱的蜘蛛们吧: 国内的搜索引擎蜘蛛 百度蜘蛛:baiduspider 搜狗蜘蛛:sogou spider 有道蜘蛛:YodaoBot和OutfoxBot 搜搜蜘蛛: Sosospider 国外的搜索引擎蜘蛛 google蜘蛛: google
你是否还记得很早以前,哪一个时间新浪新闻屏蔽百度蜘蛛的事件传得十分大,事实上你主要是学会了ROBOTS.TXT的撰写,那麼就简单的了,两下就认出了这一件事儿的真假。所以说学好专业性,可以更强的掌握真实情况。
最开始,大伙儿先来掌握大伙儿親愛的的百度搜索引擎搜索引擎蜘蛛们吧:
中国的百度搜索百度搜索引擎百度搜索引擎搜索引擎蜘蛛
百度蜘蛛:baiduspider
搜狗百度搜索引擎搜索引擎蜘蛛:sogouspider
有道在线百度搜索引擎搜索引擎蜘蛛:YodaoBot和OutfoxBot
搜一搜百度搜索引擎搜索引擎蜘蛛:Sosospider
国外的百度搜索百度搜索引擎百度搜索引擎搜索引擎蜘蛛
google百度搜索引擎搜索引擎蜘蛛:googlebot
yahoo百度搜索引擎搜索引擎蜘蛛:Yahoo!Slurp
alexa百度搜索引擎搜索引擎蜘蛛:ia_archiver
bing百度搜索引擎搜索引擎蜘蛛(MSN):msnbot
Robots.txt的好几个常用英文寓意
•User-Agent:能用下列规范的数据漫游器
•Allow:容许被抓取的网页页面网页页面
•Disallow:要阻止的网页页面网页页面
Robots.txt的两个常用符号
“*”:匹配0或很多随便标志符(也是有一定的有的意思)
“$”:匹配行结束符。
详解得差不多了,下面来进入主题风格,Robots.txt:
一、容许所有的百度搜索引擎蜘蛛爬取:
User-agent:*
Disallow:
或者
User-agent:*
Allow:/
(*号可以掌握为所以的意思)
二、禁止所有的robot抓取
User-agent:*
Disallow:/
三、禁止某一百度搜索引擎蜘蛛爬取:
User-agent:百度搜索引擎搜索引擎蜘蛛名(上面详解得有)
Disallow:/
四、只容许某一百度搜索引擎蜘蛛爬取:
User-agent:百度搜索引擎搜索引擎蜘蛛名(上面详解得有)
Disallow:
User-agent:*
Disallow:/
上面一部分是禁止该百度搜索引擎蜘蛛爬取,下半一部分是容许所有,总体寓意就是禁止此百度搜索引擎搜索引擎蜘蛛,容许别的百度搜索引擎搜索引擎蜘蛛。
五、禁止百度搜索引擎蜘蛛爬取一些文件名称
如禁止抓取admin和manage文件名称
User-agent:*
Disallow:/admin/
Disallow:/manage/
六、禁止百度搜索引擎搜索引擎蜘蛛独特文件后缀名文本文档,这一用“*”号
如禁止抓取.htm的文本文档
User-agent:*
Disallow:*.htm(*号后面接着是点文件名,如.asp,.php)
七、仅容许抓取独特文件后缀名文本文档,这一用“$”号
如仅容许.htm的文本文档
User-agent:*
Allow:.htm$
Disallow:/
(相片还能够参考第六条和第七条这一样子)
八、禁止抓取动态网页
User-agent:*
Disallow:/*?*
这一在论坛社区很合理,一般伪静态后,就无需百度搜索百度搜索引擎再网站收录其动态具体地址了。做论坛社区的朋友们注意了。
九、申明sitmapsitemap
这一告之百度搜索百度搜索引擎你的sitemap在哪里
Sitemap:http://你的域名/sitemap.xml
干了这类大伙儿如何检查大伙儿的robots.txt这一文本文档的针对性呢?极力推荐运用Google管理者常用工具,登录后访问“常用工具->分析robots.txt”,检查文本文档针对性。
转载请注明: 爱推站 » 百度姓名排名:新浪网屏蔽掉百度爬虫的恶性事件!
评论列表(0)
发表评论