优采云·关键字URL采集器v2.1.1.0（傻瓜式驴子）

优采云发布时间: 2020-08-07 19:52

　　输入关键字以采集每个搜索引擎的URL，域名，标题，描述和其他信息

　　支持百度，搜狗，谷歌，必应，雅虎，360等. 每个关键字600至800个，集合示例

　　关键字可以附带搜索引擎参数，就像在网页上输入关键字搜索一样

　　如果bbs关键字必须收录在百度的搜索结果URL中，请输入“关键字inurl: bbs”.

　　保存模板可以引用的数据:

　　#URL#

　　采集的原创网址

　　#Title#

　　URL对应的网页标题

　　#域名#

　　原创URL的域名部分，例如“”中的“”

　　#顶级域名#

　　采用原创URL的顶级域部分，例如“”中的“”

　　#Description#

　　页面标题下方的一段描述性文字

　　Excel导出:

　　csv是一个文本表，可以通过Excel显示为多列和多行. 只需将保存模板设置为:

　　“#URL#”，“#title#”，“#描述#”

　　此格式为csv格式. 使用引号将每个项目括起来，用逗号分隔多个项目，然后保存扩展名并填写csv.

　　问题要点:

　　1. 为什么一段时间后无法采集？

　　这可能受到搜索引擎的限制. 通常，您可以通过更改IP（例如使用VPN更改IP）来继续采集. 如果您没有更改，则只能等待搜索引擎取消阻止，然后再继续采集. 百度的屏蔽时间通常为半小时到几个小时.

　　但是，即使验证码被阻止，该软件也会弹出手动输入的验证码（百度，Google）

　　2. 为什么在不同批次的关键字的结果中某些URL重复？

　　尤其是仅引用#domain#或#top-level domain#之后，这种部分URL重复更为常见. 这也是正常现象，因为每个网站的内部页面可能收录许多主题，并且可能在网站的不同内部页面上采集了不同的关键字. 引用域名时，同一网站不同内部页面的域名结果自然是相同的.

　　此*敏*感*词*内. 如果两个集合的结果中有重复的URL，则可以将它们合并在一起，然后使用该软件删除重复的URL（优采云·Text Deduplication Scrambler）.

　　3. 为什么采集的URL的主题与关键字不匹配？

　　因为在引用#domain#或#top-level domain#后，将采用域名部分. 域名打开了网站的主页，采集的原创URL可能不是主页，而是网站的文章. 内部页面的内部页面收录关键字主题，因此收录在搜索引擎，软件中可以采集它. 但是，在获取域名后，您打开的域名的首页可能不收录关键字.

　　为了比较采集是否正确，您可以输入保存的模板: #标题#

　　，将其另存为htm文件，您可以打开文件以查看采集后的比较结果.

0

2020-08-07

采集的文章和关键词不符

0 个评论

要回复文章请先登录或注册