百度相关关键词采集器的设计思路

优采云 发布时间: 2020-08-25 15:06

  百度相关关键词采集的设计思路

  百度相关关键词采集器的设计思路

  作者:杨大锦2019-11-27 10:51分类:seo编程

  百度的相关关键词是挖掘关键词必考虑的一个渠道,相对于其他渠道,这是百度自家的,做英文seo不能绕开,比爱站和5118站长关键词挖掘之类更有实时性,所以设计一个对应的采集器是十分有价值的,下面说一下具体的设计思路。

  百度相关关键词采集总的流程

  通过一个起始关键词,获得对应的相关关键词,然后不断轮循新挖的词,直到没有再出现新的为止,流程如下:

  1)输入关键词-->2)采集对应的百度相关关键词-->3)去重和过滤-->4)保存入库-->5)记录输入关键词已进行过挖掘-->6)从数据库读取一个未进行过挖掘的词作输入关键词步入下一轮轮循

  这个采集器没哪些难点,唯一的难点是,频繁访问百度是会封IP的,可以配合代理或则重拨宽带解决。

  另外,过滤规则的设计可以从下边两个方面考虑:1、不含个别词的去除(排除不相关性);2、含个别词的去除(排除敏感词)。需要打算一份白名单和黑名单,至于白名单和黑名单都有什么词,这个要你对你这个领域的了解才行了,或者你可以先不过滤,等全部词入库了,后面再对库里的词进行整理。

  用php把思这个思路实现一遍

  已经实现了,比如我输入一个主关键词

  

  然后几个小时后,就有差不多1万个词了

  

  不采不知道,原来这样一个不起眼的词有这么多相关词(已作简单过滤,但还有1半已上的词还没轮循完)。

  本文网址:

  文章原创,转载勿必注名出处,否则后果自负!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线