百度网站优化软件:假如融合TF*IDF的一些要素
经常会看到,好多网站面包屑上的位置标题会被加上链接,像下面这种: 京东的面包屑 同样也有下面这种位置标题没有链接的面包屑,如下图: 中关村面包屑 大概猜想了一下,这在搜索引擎计算中会有一定的影响。 从搜索引擎原理的角度看,页面上的文本和链接是分开处理的。正文提取的时候,是将页面上的文本信息单独提取处理,而把页面上的链接等等会被提取到另一个表中去。TF(词频)计算的时候,是依靠页面上的文本进行计算。猜想,页面上的链接锚文本会被过滤掉,
常常会见到,许多网址面包屑上的部位题目会被再加连接,像下边这类:
京东商城的面包屑
一样也是下边这类部位题目沒有连接的面包屑,如下图:
北京中关村面包屑
大约猜测了一下,这在百度搜索引擎测算中也有一定的危害。
从百度搜索引擎基本原理的角度观察,网页页面上的文字和连接是分离解决的。文章正文获取的情况下,是将网页页面上的文字信息内容独立获取解决,而把网页页面上的连接这些会被获取到另一个表格中去。TF(词频)测算的情况下,是借助网页页面上的文字开展测算。猜测,网页页面上的连接锚点链接会被过虑掉,不参加TF的测算。
下边用GSA做的一些检测来认证猜想:
干了2个网页页面,內容彻底一样,网页页面上带三个用以检测的词【国平涛子66699303】,词正中间用空格符分隔。
gnbase-nolink.html是纯写出去的,gnbase-link.html是用三个连接将词偏向自身(自链)。
纯文本and带连接
检测結果以下:
各自检索:国平、涛子、66699303排行在前面的全是没有连接的网页页面gnbase-nolink.html。
从图中看,没有连接的文字在引言的情况下,将正中间的空格符去祛除了,把三个词联接在一起。
殊不知link网页页面的自链实际效果沒有反映出去,换句话说是自身偏向自身的锚点链接沒有立即出現文字好用。
PS:检测的情况下粗心大意没了,link这一网页页面是14号早已爬取并百度收录过的,nolink是15号新再加去的,刚开始检测link显示信息的时间为2012-05-14,之后发觉后改了一下网页页面,GSA全自动再次爬取了一次,link网页页面的时间才同歩到15号。在检索三个检测词的情况下,link尽管爬取早,可是排行却沒有后爬取的纯文字网页页面高。但是在检索网页页面题目的情况下,還是先爬取的link网页页面排行高。
不难看出,网页页面文字会参于网页页面的TF测算,连接锚点链接被清除出外。
附则一些检索数据信息:
百度关键字|网址|排行
华为手机時间安全法|360buy|1
华为手机時间安全法杨玉柱|kongfz|1
华为手机時间安全法杨玉柱|360buy|4
再生勇士9|360buy|1
再生勇士9施鸥|kongfz|3
再生勇士9施鸥|360buy|4
。。。。
出現那么一个状况就是说,360buy许多小说名字排行非常好,可是再加创作者名以后,排行就很不理想化,乃至换页都找不着。点一下看过网页页面,小说名字一般全是文字方式出現,而创作者出現的情况下用连接偏向了创作者的网页页面。
假如融合TF*IDF的一些要素看来得话,小说名字与检索词中间得到了非常好的关联性,而创作者由于沒有参加到网页页面TF的测算,沒有得到相对的评分。当只检索【小说名字】的情况下,小说名字的TF*IDF相关性可以了,排行前边;但检索【小说名字+创作者】时,TF*IDF(小说名字)+TF*IDF(创作者)的值没做到排行前例的规定。
转载请注明: 爱推站 » 百度网站优化软件:假如融合TF*IDF的一些要素
评论列表(0)
发表评论