关键词采集器(优采云关键词网址采集器的网址和标题输出的保存方法介绍)

优采云 发布时间: 2021-10-10 06:27

  关键词采集器(优采云关键词网址采集器的网址和标题输出的保存方法介绍)

  优采云关键词URL采集器可以根据关键词搜索百度、360、搜狗、谷歌等,并保存搜索的URL和标题输出结果。.

  优采云关键词网站采集器 主要目的:分析竞争对手,挖掘长尾词;研究平台;采集 外部链接;采集 示例等。关键词 可以伴随搜索引擎限制的语法。比如百度搜索结果网址必须收录bbs的关键词,然后输入“关键词 inurl:bbs”。

  基本介绍

  输入关键字采集各搜索引擎的网址、域名、标题、描述等信息,支持百度、搜狗、谷歌、必应、雅虎、360等,每个关键词600至800,采集示例,关键词可以带搜索引擎参数,就像在网页中输入关键词搜索一样,比如百度中的搜索结果网址必须收录关键词的bbs,然后输入“关键词 inurl:bbs”。

  参考资料

  #URL#:采集的原创URL

  #Title#:URL对应的页面标题

  #Domain#:原创URL的域名部分,如“”中的“”

  #Top domain#:取原网址的顶级域名部分,如“”中的“”

  #Description#:页面标题下方的一段描述性文字

  常见问题

  1.为什么采集一段时间后就不行了采集?

  这可能是采集受搜索引擎限制较多,重启软件继续采集,如果不改,只能在搜索引擎解封后继续采集。百度的屏蔽时间通常是半小时到几个小时。

  但是,即使验证码被屏蔽,软件也会弹出手动输入的验证码(百度、谷歌)

  2.不同批次关键词采集为什么结果中有一些重复的网址?

  尤其是只引用#domain#或#top-level domain#后,这种部分URL重复的情况更为常见。这也是正常的,因为网站的每个内页可能收录很多主题,不同的关键词可能会采集到网站的不同内页,当域名引用,同一个网站的不同内页的域名结果自然是一样的。

  另*敏*感*词*内。如果两个采集的结果中有重复的URL,可以合并在一起,用软件去重(优采云·text deduplication scrambler)。

  3.为什么采集返回的URL主题与关键词不匹配?

  这是因为在引用#domain# 或#top-level domain# 后,取的是域名部分。域名打开网站的首页,采集的原网址可能不是首页,而是网站文章的文章内页,内页收录关键词的主题,所以可以通过搜索引擎收录和软件采集获取。但是获取域名后,您打开的域名首页可能不收录关键词。

  为了比较采集是否正确,可以在保存模板中输入:#title#,保存为htm文件。采集完成后,可以打开文件查看对比。

  升级日志

  1. 转型支持OEM代理

  2.添加必应和雅虎采集;多重变化

  3. 将 Bing、Yahoo、Google 更改为 https 请求,以避免 采集 在某些情况下失败。

  4.添加百度新闻采集。

  5.一些更新。

  6. 添加了 关键词 分割线选项。

  7.修复百度最新修改无法采集的问题。

  8.修复Bing修改采集失效问题;修复部分电脑无法使用xmlhttps的问题(涉及谷歌、必应、雅虎)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线