关键词采集器(采集搜索结果的网址和标题输出保存(图)!)
优采云 发布时间: 2021-12-14 16:01根据关键词搜索百度、搜狗、谷歌、必应、雅虎、360等,输出并保存搜索结果的URL和标题。谷歌需要翻墙。每个 关键词 600 到 800 个条目。采集示例>>
关键词可以收录搜索引擎参数,就像在网页中输入关键词搜索一样,如果百度搜索结果URL必须收录bbs的关键词,则输入“关键词网址:bbs。”
保存模板可以引用的数据:
#URL#:采集的原创URL
#Title#:URL对应的页面标题
#Domain#:原创URL的域名部分,如“”中的“”
#顶级域名#:取原网址的顶级域名部分,如“”中的“”
#Description#:页面标题下方的一段描述性文字
问题重点:
1、为什么采集过一段时间就不行了采集?
可能是采集受搜索引擎限制比较多。一般可以通过更改IP来继续采集(如使用VPN更改IP)。如果不改,只能在搜索引擎解封采集后继续。百度的屏蔽时间一般是半小时到几个小时。
2、不同批次的关键词采集 为什么会有一些重复的网址?
尤其是只引用#domain#或#top-level domain#后,这种部分URL重复的情况更为常见。这也是正常的,因为网站的每个内部页面可能收录很多主题,而不同的关键词可能会采集去不同的网站内部页面,当域name是引用的,同一个网站的不同内页的域名结果自然是一样的。
另*敏*感*词*内。如果两个采集的结果中有重复的URL,可以合并在一起,用软件去重(text deduplication scrambler)。
3、为什么采集返回的URL主题与关键词不匹配?
这是因为在引用#domain# 或#top-level domain# 后,取的是域名部分。域名打开网站的首页,采集的原网址可能不是首页,而是网站的文章文章内页,内页收录关键词的主题,所以可以通过搜索引擎收录和软件采集获取。但是获取域名后,您打开的域名首页可能不收录关键词。
为了比较采集是否正确,可以在保存模板中输入:
, 保存为htm文件,采集后可以打开文件查看对比。
下载链接:
点击这里下载-SM关键词URL采集器V1.921 Press关键词采集搜索引擎收录