百度网站优化软件:假如融合TF*IDF的一些要素

发布于 2020-04-02 11:00:18 1181次浏览

经常会看到，好多网站面包屑上的位置标题会被加上链接，像下面这种：京东的面包屑同样也有下面这种位置标题没有链接的面包屑，如下图：中关村面包屑大概猜想了一下，这在搜索引擎计算中会有一定的影响。从搜索引擎原理的角度看，页面上的文本和链接是分开处理的。正文提取的时候，是将页面上的文本信息单独提取处理，而把页面上的链接等等会被提取到另一个表中去。TF（词频）计算的时候，是依靠页面上的文本进行计算。猜想，页面上的链接锚文本会被过滤掉，

　　常常会见到，许多网址面包屑上的部位题目会被再加连接，像下边这类：

　　京东商城的面包屑

　　一样也是下边这类部位题目沒有连接的面包屑，如下图：

　　北京中关村面包屑

　　大约猜测了一下，这在百度搜索引擎测算中也有一定的危害。

　　从百度搜索引擎基本原理的角度观察，网页页面上的文字和连接是分离解决的。文章正文获取的情况下，是将网页页面上的文字信息内容独立获取解决，而把网页页面上的连接这些会被获取到另一个表格中去。TF（词频）测算的情况下，是借助网页页面上的文字开展测算。猜测，网页页面上的连接锚点链接会被过虑掉，不参加TF的测算。

　　下边用GSA做的一些检测来认证猜想：

　　干了2个网页页面，內容彻底一样，网页页面上带三个用以检测的词【国平涛子66699303】，词正中间用空格符分隔。

　　gnbase-nolink.html是纯写出去的，gnbase-link.html是用三个连接将词偏向自身（自链）。

　　纯文本and带连接

　　检测結果以下：

　　各自检索：国平、涛子、66699303排行在前面的全是没有连接的网页页面gnbase-nolink.html。

　　从图中看，没有连接的文字在引言的情况下，将正中间的空格符去祛除了，把三个词联接在一起。

　　殊不知link网页页面的自链实际效果沒有反映出去，换句话说是自身偏向自身的锚点链接沒有立即出現文字好用。

　　PS：检测的情况下粗心大意没了，link这一网页页面是14号早已爬取并百度收录过的，nolink是15号新再加去的，刚开始检测link显示信息的时间为2012-05-14，之后发觉后改了一下网页页面，GSA全自动再次爬取了一次，link网页页面的时间才同歩到15号。在检索三个检测词的情况下，link尽管爬取早，可是排行却沒有后爬取的纯文字网页页面高。但是在检索网页页面题目的情况下，還是先爬取的link网页页面排行高。

　　不难看出，网页页面文字会参于网页页面的TF测算，连接锚点链接被清除出外。

　　附则一些检索数据信息：

　　百度关键字|网址|排行

　　华为手机時间安全法|360buy|1

　　华为手机時间安全法杨玉柱|kongfz|1

　　华为手机時间安全法杨玉柱|360buy|4

　　再生勇士9|360buy|1

　　再生勇士9施鸥|kongfz|3

　　再生勇士9施鸥|360buy|4

　　。。。。

　　出現那么一个状况就是说，360buy许多小说名字排行非常好，可是再加创作者名以后，排行就很不理想化，乃至换页都找不着。点一下看过网页页面，小说名字一般全是文字方式出現，而创作者出現的情况下用连接偏向了创作者的网页页面。

　　假如融合TF*IDF的一些要素看来得话，小说名字与检索词中间得到了非常好的关联性，而创作者由于沒有参加到网页页面TF的测算，沒有得到相对的评分。当只检索【小说名字】的情况下，小说名字的TF*IDF相关性可以了，排行前边；但检索【小说名字+创作者】时，TF*IDF（小说名字）+TF*IDF（创作者）的值没做到排行前例的规定。

转载请注明: 爱推站 » 百度网站优化软件:假如融合TF*IDF的一些要素

百度网站优化软件:假如融合TF*IDF的一些要素

相关文章

评论列表(0)

发表评论