优采云·关键字URL采集器v2.1.1.0(傻瓜式驴子)
优采云 发布时间: 2020-08-07 00:52输入关键字以采集每个搜索引擎的URL,域名,标题,描述和其他信息
支持百度,搜狗,谷歌,必应,雅虎,360等. 每个关键字600至800个,集合示例
关键字可以附带搜索引擎参数,就像在网页上输入关键字搜索一样
如果bbs关键字必须收录在百度的搜索结果URL中,请输入“关键字inurl: bbs”.
保存模板可以引用的数据:
#URL#
采集的原创网址
#Title#
URL对应的网页标题
#域名#
原创URL的域名部分,例如“”中的“”
#顶级域名#
采用原创URL的顶级域部分,例如“”中的“”
#Description#
页面标题下方的一段描述性文字
Excel导出:
csv是一个文本表,可以通过Excel显示为多列和多行. 只需将保存模板设置为:
“#URL#”,“#title#”,“#描述#”
此格式为csv格式. 使用引号将每个项目括起来,用逗号分隔多个项目,然后保存扩展名并填写csv.
问题要点:
1. 为什么一段时间后无法采集?
这可能受到搜索引擎的限制. 通常,您可以通过更改IP(例如使用VPN更改IP)来继续采集. 如果您没有更改,则只能等待搜索引擎取消阻止,然后再继续采集. 百度的屏蔽时间通常为半小时到几个小时.
但是,即使验证码被阻止,该软件也会弹出手动输入的验证码(百度,Google)
2. 为什么在不同批次的关键字的结果中某些URL重复?
尤其是仅引用#domain#或#top-level domain#之后,这种部分URL重复更为常见. 这也是正常现象,因为每个网站的内部页面可能收录许多主题,并且可能在网站的不同内部页面上采集了不同的关键字. 引用域名时,同一网站不同内部页面的域名结果自然是相同的.
此*敏*感*词*内. 如果两个集合的结果中有重复的URL,则可以将它们合并在一起,然后使用该软件删除重复的URL(优采云·Text Deduplication Scrambler).
3. 为什么采集的URL的主题与关键字不匹配?
因为在引用#domain#或#top-level domain#后,将采用域名部分. 域名打开了网站的主页,采集的原创URL可能不是主页,而是网站的文章. 内部页面的内部页面收录关键字主题,因此收录在搜索引擎,软件中可以采集它. 但是,在获取域名后,您打开的域名的首页可能不收录关键字.
为了比较采集是否正确,您可以输入保存的模板: #标题#
,将其另存为htm文件,您可以打开文件以查看采集后的比较结果.