关键字排名:IP段蜘蛛抓取等数据抓取目录抓取
昨天在一个QQ交流群里看到有一个新手发问,如何去简单的分析网站日志,清楚知道网站的一个数据抓取情况,哪些目录抓取较好,有哪些IP段蜘蛛抓取等。 一个网站要发展的更快,走的更远,它离不开日常的一个数据分析,就如携程旅行网页搜索营销部孙波在《首届百度站长交流会》上所言,其利用数据模型对频道改版后,网页索引量从原来的十几万,上升到今年的500多万的索引量。由此可见,数据分析的重要性。 说到每日的网站日志分析,在这里强调下,我需要用到两个工具:
昨日在一个QQ沟通交流群内见到有一个初学者提问,怎样去简易的解析网站目录,清晰了解平台网站的一个网页爬虫状况,什么文件目录爬取不错,有什么IP段搜索引擎蜘蛛爬取等。
一个网站要发展趋势的迅速,走的很远,它不可或缺平时的一个数据统计分析,就如携程旅行搜索网页市场部孙波在《第一届百度站长座谈会》上所说,其运用概念模型对频道栏目重做后,网页页面数据库索引量从原先的十几万,升高到2019年的500多万元的数据库索引量。不难看出,数据统计分析的必要性。
说到每天的网站目录解析,这里注重下,我必须采用2个专用工具:Excel和光年日志分析工具。将会也是盆友在对平台网站的日志分析时,必须此外采用一个专用工具WebLogExplorer。
实际上在网站目录解析中,最必须采用的专用工具就是说Excel(07版Excel或10版Excel),这里,简易跟大伙儿沟通交流一下我的一点工作经验。
平台网站体爬取状况统计分析:
依靠光年日志分析工具,获得每个百度搜索引擎的搜索引擎蜘蛛总爬取量、搜索引擎蜘蛛总等待时间、搜索引擎蜘蛛到访频次(自己因为只做网站优化,却说说百度爬虫爬取状况),以下图1:
把这上边的数据信息制成Excel就可以,以下图2:
均值等待时间=总等待时间/浏览频次,计算方法:=C2/B2enter键
均值爬取量=总爬取量/浏览频次,计算方法:=D2/B2enter键
单网页页面爬取時间==等待时间*3600/总爬取量计算方法:=D2/C2enter键
搜索引擎蜘蛛情况码统计分析:
依靠Excel报表,开启系统日志(最立即的方法,就是说它系统日志移到Excel报表里),随后再统计分析搜索引擎蜘蛛情况码,以下图3:
根据Excel报表下的“数据信息”作用下的挑选,下边就能够对搜索引擎蜘蛛情况码开展统计分析了,实际的统计分析实际操作以下图4:
点一下IP段下拉列表,寻找文字挑选,挑选自定挑选。
根据图3,能够看得出,搜索引擎蜘蛛爬取的情况码200特点是HTTP/1.1″200,依此类推:情况码500是HTTP/1.1″500、情况码404是HTTP/1.1″404、情况码302是HTTP/1.1″302…..下边就能够挑选出每个搜索引擎蜘蛛情况码,以下图:
如圖5,挑选包括关联,即能够统计分析出百度爬虫200情况码的爬取量,别的依此类推。
搜索引擎蜘蛛IP段统计分析:
如圖,把情况码换为IP段就能够,如:HTTP/1.1″200换为202.108.251.33
文件目录爬取统计分析:
如圖,把情况码换为相对目录名就能够,如:HTTP/1.1″200换为/tagssearchList/
总结一下:
怎样根据简易的Excel解析网站目录数据信息,就详细介绍到这儿。不清楚作为seo的你平时有木有解析网站目录呢。总之我平时都解析这一东西的。觉得对平台网站的系统日志开展解析是很必须的。对于解析的这种数据信息,有哪些功效,怎样根据这种数据信息查出平台网站的存在的不足,随后列举调节计划方案,有步骤的去调节平台网站的构造,坚信有许多人早已写已过,我在这,就已不再多了。
转载请注明: 爱推站 » 关键字排名:IP段蜘蛛抓取等数据抓取目录抓取
评论列表(0)
发表评论