搜索引擎基本原理!
搜索引擎的基本工作原理包括如下三个过程:首先在互联网中发现、搜集网页信息;同时对信息进行提取和组织建立索引库;再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
搜索引擎的工作过程包括以下哪些步骤 搜索引擎的基本工作原理包括如下三个过程:爬行和抓取:首先在互联网中发现、搜集网页信息;建立索引库:同时对信息进行提取和组织建立索引库;排名:再由检索器根据用户输入的查询关键字,在索引库中快速检出文档,进行文档与查询的相关度评价,对将要输出的结果进行排序,并将查询结果返回给用户。
搜索引擎的基本运作原理:
1、抓取网页
每个独立的搜索引擎都有自己的网页抓取程序(spider)。爬虫Spider顺着网页中的超链接,从这个网站爬到另一个网站,通过超链接分析连续访问抓取更多网页。已爬网的网页称为网页快照。由于超链接在Internet中的应用非常普遍,从理论上说,从一定的网页范围内,我们可以收集到绝大多数的网页。
2、处理网页
在搜索引擎捕获网页之后,可以进行大量的预处理以提供web服务。其中,最重要的就是提取关键词,建立索引文件。其他还包括去除重复网页、分词(中文)、判断网页类型、分析超链接、计算网页的重要度/丰富度等。
3、提供检索服务
用户输入关键字进行检索,搜索引擎从索引数据库中查找与关键字匹配的页面;为了方便用户判断,除了页面标题和URL外,还提供页面摘要和其他信息。
评论列表(0)
发表评论