千分千关键词网址采集器v2.2.1.0(笨驴)

优采云 发布时间: 2020-08-09 14:56

  入关键字采集各搜索引擎的网址、域名、标题、描述等信息

  支持百度、搜狗、谷歌、必应、雅虎、360等。每个关键词600到800条,采集例子

  关键词可以附送搜索引擎参数,就跟网页里输入关键词搜索一样,

  如百度里搜索结果网址中必须收录bbs的关键词,则输入“关键词 inurl:bbs.”

  保存模板可引用的数据:

  #网址#

  采集的原创网址

  #标题#

  网址对应的网页标题

  #域名#

  原创网址的域名部份,如“”中的“”

  #顶级域名#

  取原创网址的顶级域名部份,如“”中的“”

  #描述#

  网页标题下边的一段描述文字

  Excel导入:

  csv是一种文本表格,能被Excel兼容显示为多列多行的数据。只要在保存模板中设置为:

  "#网址#","#标题#","#描述#"

  这种格式就是csv格式,使用冒号围住每位项目,多个项目使用冒号隔开,然后保存扩充名填为csv即可

  问题集锦:

  1.为什么采集一段时间以后,无法采集?

  这可能采集多了被搜索引擎限制。一般换个IP(如使用VPN换IP)即可继续采集,如果不换,只能等待搜索引擎取消屏蔽以后能够继续采集。百度的屏蔽时间一般半小时到数小时。

  不过,现在虽然出现验证码屏蔽,软件也会弹出验证码自动输入的(百度、谷歌)

  2.不同批次关键词采集的结果为何会存在部份网址重复?

  尤其是只引用了 #域名# 或 #顶级域名# 之后,这种部份网址重复的情况比较多。这也是正常的,因为每位网站的内页可能收录好多主题,不同关键词都可能采集到该网站的不同内页,当引用域名后,相同网站的不同内页的域名结果自然就相同了。

  另*敏*感*词*的。如果两次采集的结果存在部份网址重复,可以把她们合并一起,使用软件去重(优采云·文本去重打乱器)。

  3.为什么采集回来的网址的主题与关键词不符?

  是因为引用了 #域名# 或 #顶级域名# 后,取的是域名部份,域名打开的是该网站的首页,而采集的原网址可能不是首页,而是该网站的某一篇文章的内页,该内页收录关键词主题,因此被搜索引擎收录,软件能够采集得到。但取域名后,你打开的域名首页就不一定收录该关键词。

  为了比对采集是否正确,可以在保存模板里输入:#标题#

  ,保存为htm文件,采集完后可以自己打开该文件查看比对。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线