输入关键字采集各搜索引擎的网址、域名、标题、描述

优采云 发布时间: 2021-02-19 09:00

  输入关键字采集各搜索引擎的网址、域名、标题、描述

  输入关键字采集每个搜索引擎的网址,域名,标题,描述和其他信息

  支持百度,搜狗,谷歌,必应,雅虎,360等。每个关键词 600到800,采集示例

  关键词可以收录搜索引擎参数,就像在网页上输入关键词搜索一样

  如果百度中的搜索结果网址必须收录关键词个bbs,请输入“ 关键词 inurl:bbs”。

  保存可被模板引用的数据:

  #URL#采集的原创URL

  #Title#URL对应的网页标题

  #domain#原创URL的域名部分,例如“”中的“”

  #顶级域名#获取原创URL的顶级域名部分,例如“”中的“”

  #Description#页面标题下方的描述文字

  Excel导出:

  csv是一个文本表,可以通过Excel显示为多列和多行。只需将保存模板设置为:

  “#URL#”,“#title#”,“#描述#”

  此格式为csv格式。使用引号将每个项目括起来,用逗号将多个项目分开,然后保存扩展名并填写csv。

  问题要点:

  1.为什么采集一段时间后不能采集?

  采集可能受到搜索引擎的更多限制。通常,您可以通过更改IP(例如使用VPN更改IP)来继续操作采集。如果您没有更改,则只能在搜索引擎取消屏蔽采集后才能继续。百度的屏蔽时间通常为半小时到几个小时。

  但是,即使验证码被阻止,该软件也会弹出手动输入的验证码(百度,Google)

  2.为什么不同批次关键词 采集的结果中有一些重复的URL?

  尤其是仅引用#domain#或#top-level domain#之后,这种部分URL复制更为常见。这也是正常现象,因为每个网站的内页可能收录许多主题,并且采集的不同内页可能与采集不同。引用域名时,同一网站页的不同内部页面自然会具有相同的域名结果。

  此*敏*感*词*内。如果两个采集的结果中有重复的URL,则可以将它们合并在一起,并使用该软件删除重复项(优采云·重复数据删除加扰器)。

  3.为什么采集返回的URL主题与关键词不匹配?

  因为在引用#domain#或#top-level domain#后,将采用域名部分。域名打开网站的主页,采集的原创URL可能不是主页,但是网站某文章文章的内页,该内页收录主题关键词的值,因此可以通过搜索引擎收录和软件采集获得。但是在获取域名后,您打开的域名的首页可能不收录关键词。

  为了比较采集是否正确,可以在保存的模板中输入它:

  ,将其另存为htm文件,在采集之后,您可以打开文件以查看比较。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线