1. 首页
  2. SEO优化教程
  3. SEO优化理论
  4. 手机排名:关键词创建数据库索引的方法!

手机排名:关键词创建数据库索引的方法!

一.前言 传统的搜索引擎的定义,是指一种对于指定的查询(Query),能够返回与之相关的文档集合(Documents)的系统。而百度将这个定义更加丰富化,即搜索引擎能够帮助人们更方便的找到所求。这里的“所求”,比“文档”更加宽泛和丰富,比如一个关于天气的查询,直接返回一个天气预报的窗口,而非一篇关于天气的文档;再如一个关于小游戏的查询,直接返回这个小游戏的Flash页面而非简单的介绍性的文

  一.序言

  传统式的百度搜索引擎的界定,就是指一种针对特定的查寻(Query),可以回到与之有关的文本文档结合(Documents)的系统软件。而百度搜索将这一界定更为丰富化,即百度搜索引擎可以协助大家更便捷的寻找所愿。这儿的“所愿”,比“文本文档”更为广泛和丰富多彩,例如一个有关气温的查寻,立即回到一个天气预告的对话框,并非一篇有关气温的文本文档;再如一个有关游戏的查寻,立即回到这一游戏的Flash网页页面并非简易的介绍性的文本。

  百度搜索对Query刻骨铭心的了解,来源于自然语言理解解决技术性在这其中充分发挥的关键作用。对百度搜索引擎来讲,文字分割是最基本也是最重要的自然语言理解难题之一。今日,大家就来谈一谈文字分割粒度分布与百度搜索引擎的关联。

  文中事后章节目录机构以下:第二节详细介绍什么叫文字的粒度分布,第三节叙述百度搜索引擎的基本概念与文字分割粒度分布的关联,第四节深入分析粒度分布的特性与查找关联性测算,第五节总结。

  二.文字粒度分布

  什么叫文字的粒度分布?大家用哪种来考量文字粒度分布?在回应这种难题前,使我们先看一下下列两组语汇:

  偷欢、艰险、红提、乒乓球

  绿茶叶、篮球赛、鲜红色、游戏鼠标垫、起重设备

  打篮球、跳蝇、烧菜、爬山

  笔记本、高清机顶盒、IP电视

  可是、随后、假如、十分

  步步惊心、家的n次方、一个人的精彩纷呈

  百度在线互联网技术(北京)有限公司、清华大学

  张学友、赵传、工藤新一、里奥内尔·安德雷斯·梅西

  ……

  这两组语汇中,什么的粒度分布大,什么的粒度分布小?

  无论在传统式的应用语言学行业,還是在自然语言理解解决行业,也没有对粒度分布下一个清楚精确的界定。可是就百度搜索引擎来讲,大家何不那样界定:粒度分布是考量文字所含数据量的尺寸。文字含数据量多,粒度分布就大,相反就小。拥有这一标准,大家就非常容易分辨文字粒度分布尺寸了。像“偷欢”,“艰险”,“红提”这种词,尽管有两字构成,可是仅表述一个含意,这种词的粒度分布是小的。而“篮球赛”,“游戏鼠标垫”等词,是由简易词生成的,尽管也只有一个含意,但还能够分拆,如“篮”和“球”,“电脑鼠标”和“垫”。这种词,粒度分布稍微大一些。而“笔记本”,“高清机顶盒”那样的词,粒度分布就更变大。

  专名是一类较为独特的词,虽然所含篇幅许多 ,但实际上只表述一个含意,如“步步惊心”,“家的n次方”那样的影片、电视连续剧的名字,粒度分布是不大的。组织 名、姓名等归属于有内部构造的专名,比电影名字的粒度分布稍大一些。

  显而易见可见,我们在探讨文字粒度分布时,理想化的方法是以词义视角考虑,有效的剖析和分辨。殊不知之上大家仅对粒度分布干了判定的剖析,为粒度分布找一个适合的度量单位和计算方式,是百度搜索人一直追求完美的总体目标。

  三.百度搜索引擎的基本概念与语汇分割关联

  3.1百度搜索引擎的基本概念

  文本检索系统软件,是百度搜索引擎非常简单的完成方法。根据回到包括关键词的网页页面,来满足客户需求的查找要求。流于形式的表述便是给出一系列关键词结合K,规定回到全部包括关键词的文本文档D,对D中的随意一个文本文档d,包括K中的随意一个关键词k。

  一般大家选用倒排索引的方法来完成这一系统软件。说白了倒排索引,便是对关键词创建数据库索引,纪录包括这一关键词的文本文档结合D。针对恳求的关键词结合,找到全部关键词相匹配的数据库索引,并对数据库索引求交,最终回到另外存有于全部数据库索引中的文本文档。

  在百度,大家不但容许客户输入关键词,还可以键入一切长短在一定范畴内的文字。这时大家必须对文字做一定解决,切分为一系列关键词,进而可以从倒排索引中找到相匹配的文本文档。

  那麼为何要对键入文字做分割,如果不分割会有哪些难题?

  我们可以想像一下,如果不对键入文字做分割,立即用键入文字去做配对,会怎么样?最先,获得的結果会很少,由于立即用所有文字配对,就失去协调能力,对結果限定的十分死,务必彻底配对才可以符合要求;次之,系统软件特性会十分差,由于必须对全部长短的文字都创建数据库索引,它是指数级的,在具体系统软件中压根不太可能完成。再考虑一下另一个极端化?大家对键入文字做一个字分割,結果也是如何?大家会获得很多不相干的网页页面,不但奢侈浪费系统软件特性,对关联性测算也导致了极大的工作压力。

  因此,大家必须对文字做一个适合的分割。

 

转载请注明: 爱推站 » 手机排名:关键词创建数据库索引的方法!

相关文章

评论列表(0)

发表评论