1. 首页
  2. SEO优化教程
  3. SEO优化技巧
  4. 百度搜索引擎工作原理之二-检索排序

百度搜索引擎工作原理之二-检索排序

搜索引擎的主要工作过程包括:抓取、存储、页面分析、索引、检索等几个主要过程。此章简要介绍一下索引系统。

检索排序的基本过程


      在以亿为单位的网页库中查找特定的某些关键词犹如大海里面捞针,怎样才能做到毫秒级别的查找以满足用户的需求呢?

    如果能知道查找的关键词都出现在哪些页面,那么检索处理过程即可想象为页面的集合求交过程,检索即是:页面名之间的比较和求交,这样的话,毫秒级的检索就成为了可能。这样的过程就是搜索引擎常说的倒排索引和求交检索的过程。

    建立倒排索引的基本过程:

0d56f8abdbeb98df69545b6f13a4bfb0.jpg

  1. 页面分析过程:是将原始页面进行识别标记,例:title、keywords、content、link、评论、其他非重要区域等内容;

  2. 分词过程:包括切词 分词 同义词转换 同义词替换等等,以title分词为例,得到这样的数据:term文本、termid、词类、词性等等;

  3. 准备工作完成后,接下来建立倒排索引,形成倒排索引文件,下图即是倒排索引过程

    b9f9c3c280b23130419e3e8608fdc654.jpg

  4. 最后还需要一个入库写库的过程,为了提高效率还需要将全部term及偏移量保存在文件头部,对数据压缩。


检索系统

53edd7d569480a26e743c26fd2c87915.jpg

第一步:Query串切词分词,以“10号线地铁故障”为例,可能的分词如下(同义词问题暂时略过):

10 0x123abc

  号 0x13445d

  线 0x234d

  地铁 0x145cf

  故障 0x354df

第二步:查出包含每个分词对应的文档集合,举例如下:

  0x123abc 1 2 3 4 7 9…..

  0x13445d 2 5 8 9 10 11……

  ……

  ……

第三步:求交,第二步的举例中文档2和文档9可能是需要找的。

第四步:各种过滤,举例:死链、重复数据、色情、垃圾结果以及敏感词等等都可能被过滤掉。

第五步:最终排序,将最能满足用户需求的结果排序在最前,可能包括的有用信息如:网站的整体评价、网页质量、内容质量、资源质量、匹配程度、分散度、时效性等等。


百度搜索引擎决定搜索结果排序的六大原则


以上是百度搜索引擎的检索排序原理,其实大家最关心的是影响综合排序的因素:

  1 相关性:网页内容与检索需求的匹配程度,如网页包含关键词的个数和出现的位置;外部网页指向该页面所用的锚文本等

  2 权威性:百度搜索引擎更相信优质权威站点提供的内容。

  3 时效性:指的是新出现的网页而且网页内是新鲜的内容。时效性在搜索引擎中日趋重要。

  4 重要性:网页内容与检查需求匹配的重要程度或受欢迎程度。

  5 丰富度:一个覆盖范围非常广的命题。可以理解为网页内容丰富,可以完全满足用户需求;不仅可以满足用户单一需求,还可以满足用户的延展需求。

  6 受欢迎程度:判断是否受欢迎,比如日访问量,网页的停留时间,跳出率,转载行为等等都可以看出页面是否受欢迎。

  那么六大原则的侧重点是怎样的呢?我们也没用一个确切的答案,其中相关性是基本要素不管什么页面都需要满足相关性,也许不同类型的关键词还有不同的侧重点,新闻类的词应该注重时效性和权威性,知识类的词应该注重权威性和重要性,其中丰富度和受欢迎程度也会在排名里进行加分,我们的页面要尽量要尽量满足以上的六大原则,这样搜索引擎会更加青睐你的网站的。


石榴算法-低质量页面的终结者

      百度的石榴算法旨在打击含有大量妨碍用户正常浏览的恶劣广告的页面,尤其是弹出大量低质广告、存在混淆页面主体内容的垃圾广告的页面。所以如果我们的网站在搜索引擎上已经有较好的排名之后,引入广告是无可厚非的,不过切记广告也是有优劣之分,尽量引入跟网站主题相关的广告,广告不要太多,太杂,干扰用户的访问,或者好不容易做上来的排名很可能付之一炬。



  

转载请注明: 爱推站 » 百度搜索引擎工作原理之二-检索排序

相关文章

评论列表(0)

发表评论