b2b推广:基本完成对长尾关键词的处理
以百度为例,思路如下: 1、搜索主关键词,分析相关搜索链接,存入网址库,标记为未抓取。 2、读取数据库中标记为未抓取的网址,抓取后分析相关搜索,存入网址库,标记为未抓取。 3、重复2直到指定深度(一般热门关键词6层左右深度差不多全部读取,一般关键词4层即可,理论上可以无限层,但需要抓取的数据量呈级数增长,相关性也越来越差,没必要)。 4、人工处理长尾词,这里需要人工去除一些无关的关键词,保留合适的(当前搜素引擎的语义处理能力还很弱)。
以百度搜索为例,构思以下:
1、检索主关键字,剖析搜索推荐连接,存进网址库,标识为未爬取。
2、载入数据库查询中标识为未爬取的网站地址,爬取后剖析搜索推荐,存进网址库,标识为未爬取。
3、反复2直至特定深层(一般热搜词6层上下深层类似所有载入,一般关键字4层就可以,基础理论上能够無限层,但必须爬取的信息量呈等比级数提高,关联性也愈来愈差,没必需)。
4、人工服务解决长尾关键词,这儿必须人工服务除去一些不相干的关键字,保存适合的(当今搜索模块的词义解决工作能力还太弱)。
到此,基础进行了对长尾词的解决,能够得到一个较为全的长尾词目录了。因为本人还必须科学研究不一样层级关键字相互关系,因此储存了百度搜索的网页页面,界定了亲子关系,都没有过虑不一样层中间同样的关键字,这种对找长尾关键词用途并不大。
全自动获得文档特定总体目标关键字的php保持见附注:spider_keywords
这就是我自购程序流程,出示一个保持方法,准备用得话还必须依据自身应用自然环境改动,规定懂php,SQL。重要一部分如有关关键词挖掘获取早已做的相对稳定,请安心使用。在其中:
mykeyword.dat为储放关键字的文档,每列一个主关键字。
$depth为爬取深层,默认设置5层,针对一般关键字够深。
程序流程发掘数据信息后储放在我的PostgreSQL数据库查询,数据库查询默认设置UTF-8编号,能够依据自身的具体必须改动。数据分析表构造以下:
–Table:mykeywords
–DROPTABLEmykeywords;
CREATETABLEmykeywords
(idserialNOTNULL,
fathertext,
“content”text,
sonstext,
depthtext,
keynametext,
remarktext,
is_spideredboolean,
CONSTRAINTmykeywords_pkeyPRIMARYKEY(id)
)
WITH(OIDS=FALSE);
ALTERTABLEmykeywordsOWNERTOpostgres;
转载请注明: 爱推站 » b2b推广:基本完成对长尾关键词的处理
评论列表(0)
发表评论