关键字文章采集器( 入关键字搜集各查找引擎的网址、域名、标题、描绘)
优采云 发布时间: 2022-01-29 23:17关键字文章采集器(
入关键字搜集各查找引擎的网址、域名、标题、描绘)
输入关键字采集各个搜索引擎的URL、域名、标题、描述等信息
支持百度、搜狗、谷歌、必应、雅虎、360等。每个关键词600到800,采集如
关键词可以很方便的找到引擎参数,就像在网页中输入关键词查找一样,
如果需要在百度搜索效果URL中收录bbs的关键词,请输入“关键词 inurl:bbs”。
保存模板引用数据:#URL#
采集的原创网址
#标题#
URL对应的页面标题
#域名#
原网址的域部分,如“”中的“”
#顶级域名#
取原创URL的顶级域部分,如“”中的“”
#画画#
页面标题下方的一段描述性文字
Excel导出:
csv 是一个文本表格,可以显示为与 Excel 兼容的多列多行数据。只需在保存模板中设置为:
"#URL#","#title#","#description#"
此格式为csv格式,每一项用引号括起来,多项用逗号分隔,然后保存扩展名填写csv
问题总结:
1.为什么一段时间后收不到?
这可能会采集到搜索引擎太多的约束。一般可以通过更改IP(如使用VPN更改IP)的方式继续采集。如果不改,只能等搜索引擎取消屏蔽后再继续采集。百度的拦截时间一般是半小时到几个小时。
不过即使现在验证码被屏蔽了,软件也会弹出手动输入的验证码(百度、谷歌)
2.不同批次关键词采集结果为什么有些网址重复?
尤其是在只引用了#域名#或#顶级域名#之后,这种部分URL重复出现的情况很多。这也是正常的,因为每个网站的内页可能收录很多主题,不同的关键词可能会采集到不同的网站的内页。引用域名的时候,同样的网站不同内页的域名效果自然是一样的。
另外,软件中的自动去重是针对本次采集效果的内部去重,之前采集的效果不为本次去重规划。假设两个集合的效果中有些URL重复,可以合并在一起,使用软件去重(优采云·文本去重加扰器)。
3.为什么采集到的 URL 的主题与 关键词 不匹配?
是因为引用了#domain#或者#top-level domain#后,取了域名部分,域名打开了网站的首页,采集到的原创URL可能不是首页,但是网站的某个文章的内页,内页收录关键词的主题,所以被搜索引擎录入,被软件采集。但是,在获取域名后,您打开的域名首页不一定收录关键词。
为了比较采集是否正确,可以在保存模板中输入:#title#
, 并将其保存为 htm 文件。采集后可自行打开文件查看对比。