输入关键字采集各搜索引擎的网址、域名、标题、描述
优采云 发布时间: 2021-02-19 09:00输入关键字采集各搜索引擎的网址、域名、标题、描述
输入关键字采集每个搜索引擎的网址,域名,标题,描述和其他信息
支持百度,搜狗,谷歌,必应,雅虎,360等。每个关键词 600到800,采集示例
关键词可以收录搜索引擎参数,就像在网页上输入关键词搜索一样
如果百度中的搜索结果网址必须收录关键词个bbs,请输入“ 关键词 inurl:bbs”。
保存可被模板引用的数据:
#URL#采集的原创URL
#Title#URL对应的网页标题
#domain#原创URL的域名部分,例如“”中的“”
#顶级域名#获取原创URL的顶级域名部分,例如“”中的“”
#Description#页面标题下方的描述文字
Excel导出:
csv是一个文本表,可以通过Excel显示为多列和多行。只需将保存模板设置为:
“#URL#”,“#title#”,“#描述#”
此格式为csv格式。使用引号将每个项目括起来,用逗号将多个项目分开,然后保存扩展名并填写csv。
问题要点:
1.为什么采集一段时间后不能采集?
采集可能受到搜索引擎的更多限制。通常,您可以通过更改IP(例如使用VPN更改IP)来继续操作采集。如果您没有更改,则只能在搜索引擎取消屏蔽采集后才能继续。百度的屏蔽时间通常为半小时到几个小时。
但是,即使验证码被阻止,该软件也会弹出手动输入的验证码(百度,Google)
2.为什么不同批次关键词 采集的结果中有一些重复的URL?
尤其是仅引用#domain#或#top-level domain#之后,这种部分URL复制更为常见。这也是正常现象,因为每个网站的内页可能收录许多主题,并且采集的不同内页可能与采集不同。引用域名时,同一网站页的不同内部页面自然会具有相同的域名结果。
此*敏*感*词*内。如果两个采集的结果中有重复的URL,则可以将它们合并在一起,并使用该软件删除重复项(优采云·重复数据删除加扰器)。
3.为什么采集返回的URL主题与关键词不匹配?
因为在引用#domain#或#top-level domain#后,将采用域名部分。域名打开网站的主页,采集的原创URL可能不是主页,但是网站某文章文章的内页,该内页收录主题关键词的值,因此可以通过搜索引擎收录和软件采集获得。但是在获取域名后,您打开的域名的首页可能不收录关键词。
为了比较采集是否正确,可以在保存的模板中输入它:
,将其另存为htm文件,在采集之后,您可以打开文件以查看比较。