策略优化蜘蛛爬行规则！

发布于 2019-05-28 09:00:54 1433次浏览

限制抓取深度会破坏死循环的条件，即使循环发生，也会在有限的次数后停止。评价：宽度优先、深度优先的遍历策略可以有效地保证爬行过程的紧密性，即在爬行过程（遍历路径）中，总是对同一域名下的网页进行爬行，而对其他域名下的网页则很少。

　　搜索引擎处理大量的网页。一方面，为了节省带宽，计算和存储资源，另一方面，为了满足用户的搜索需求，使用有限的资源来捕获最有价值的网页，搜索引擎在处理时有一定的策略。大量的网页。本文简要介绍了网络爬行的主要策略，如广度优先、深度遍历策略、非重复爬行策略、大站点优先策略、不完全pagerank策略、OCIP策略、协同爬行策略。

　　深度优先，深度优先的遍历策略;广度优先的原因是重要的网页往往接近种子网站;万维网的深度没有我们预期的那么深，而是出乎意料的深(中国万维网只有17个直径和长度，即在任意两个网页之间可以访问17次);多履带协同抓取深度优先的不利结果：容易使履带陷入死区，不应重复抓取;不应抓住机会;

　　解决上述两个缺点的方法是深度优先抓取和非重复抓取策略。为了防止履带无限期地以宽度优先抓取，必须在一定深度抓取。当你到达这个深度，即万维网的直径和长度，限制程度和停止抓取。当爬网停止在最大深度时，总是希望从其他种子站点更经济地到达爬行太深的页面。

　　限制抓取深度会破坏死循环的条件，即使出现循环也会在有限次后停止。评价：宽度第一，深度第一遍历策略能有效保证爬行过程的紧凑性，即在爬行过程(遍历路径)中，同一域名下的网页总是会被抓取，而其他领域下的网页则很少。

　　2、不重复抓取策略保证一个变化不大的网页只抓取一次即可，防止重复抓取占用大量CPU和带宽资源，从而集中有限的资源区抓取更重要、质量更高的网页。Larser网站优先通常是大型网站的高质量内容，网页质量一般较高。从网站的角度衡量网页的重要性有一定的依据。对于要爬行的URL队列中的页面，下载优先级取决于等待下载的页面数。

　　协同爬行策略(爬行加速策略)可以通过增加爬行器的数量来提高整体的爬行速度，但工作负载需要分解为不同的网络爬行器，以确保分工清晰，防止多个爬行器在同一页面上爬行，浪费资源。

　　通过对网络主机的IP地址进行分解，爬虫只能抓取中小型网站的一个页面段。出于经济原因，它通常在一台服务器上提供不同的网络服务，因此多个域名对应一个IP段;新浪、搜狐等大型网站通常使用负载均衡的IP gro。向上技术，相同的域名对应多个。IP地址。因此，这种方法不方便。借由分解网页的域名，爬行动物只能在网页的域名部分进行爬虫行为，并将不同的域名分配给不同的爬虫类。

转载请注明: 爱推站 » 策略优化蜘蛛爬行规则！

策略优化蜘蛛爬行规则！

相关文章

评论列表(0)

发表评论