策略优化蜘蛛爬行规则!
限制抓取深度会破坏死循环的条件,即使循环发生,也会在有限的次数后停止。评价:宽度优先、深度优先的遍历策略可以有效地保证爬行过程的紧密性,即在爬行过程(遍历路径)中,总是对同一域名下的网页进行爬行,而对其他域名下的网页则很少。
搜索引擎处理大量的网页。一方面,为了节省带宽,计算和存储资源,另一方面,为了满足用户的搜索需求,使用有限的资源来捕获最有价值的网页,搜索引擎在处理时有一定的策略。大量的网页。本文简要介绍了网络爬行的主要策略,如广度优先、深度遍历策略、非重复爬行策略、大站点优先策略、不完全pagerank策略、OCIP策略、协同爬行策略。
深度优先,深度优先的遍历策略;广度优先的原因是重要的网页往往接近种子网站;万维网的深度没有我们预期的那么深,而是出乎意料的深(中国万维网只有17个直径和长度,即在任意两个网页之间可以访问17次);多履带协同抓取深度优先的不利结果:容易使履带陷入死区,不应重复抓取;不应抓住机会;
解决上述两个缺点的方法是深度优先抓取和非重复抓取策略。为了防止履带无限期地以宽度优先抓取,必须在一定深度抓取。当你到达这个深度,即万维网的直径和长度,限制程度和停止抓取。当爬网停止在最大深度时,总是希望从其他种子站点更经济地到达爬行太深的页面。
限制抓取深度会破坏死循环的条件,即使出现循环也会在有限次后停止。评价:宽度第一,深度第一遍历策略能有效保证爬行过程的紧凑性,即在爬行过程(遍历路径)中,同一域名下的网页总是会被抓取,而其他领域下的网页则很少。
2、不重复抓取策略 保证一个变化不大的网页只抓取一次即可,防止重复抓取占用大量CPU和带宽资源,从而集中有限的资源区抓取更重要、质量更高的网页。Larser网站优先通常是大型网站的高质量内容,网页质量一般较高。从网站的角度衡量网页的重要性有一定的依据。对于要爬行的URL队列中的页面,下载优先级取决于等待下载的页面数。
协同爬行策略(爬行加速策略)可以通过增加爬行器的数量来提高整体的爬行速度,但工作负载需要分解为不同的网络爬行器,以确保分工清晰,防止多个爬行器在同一页面上爬行,浪费资源。
通过对网络主机的IP地址进行分解,爬虫只能抓取中小型网站的一个页面段。出于经济原因,它通常在一台服务器上提供不同的网络服务,因此多个域名对应一个IP段;新浪、搜狐等大型网站通常使用负载均衡的IP gro。向上技术,相同的域名对应多个。IP地址。因此,这种方法不方便。借由分解网页的域名,爬行动物只能在网页的域名部分进行爬虫行为,并将不同的域名分配给不同的爬虫类。
转载请注明: 爱推站 » 策略优化蜘蛛爬行规则!
评论列表(0)
发表评论