入关键字采集各搜索引擎的网址、域名、标题、描述等信息支持

优采云 发布时间: 2021-08-09 21:02

  入关键字采集各搜索引擎的网址、域名、标题、描述等信息支持

  输入关键字采集各个搜索引擎的网址、域名、标题、描述等信息

  支持百度、搜狗、谷歌、必应、雅虎、360等每个关键词600至800、采集example

  关键词可以收录搜索引擎参数,就像在网页上输入关键词search一样,

  如果百度搜索结果网址必须收录bbs的关键词,则输入“关键词inurl:bbs”。

  保存模板可以引用的数据:

  #URL#

  采集的原创网址

  #标题#

  URL对应的网页标题

  #域名#

  原创网址的域名部分,如“”中的“”

  #顶级域名#

  取原网址的顶级域名部分,如“”中的“”

  #描述#

  页面标题下方的一段描述性文字

  Excel 导出:

  csv 是一个文本表格,可以通过 Excel 显示为多列多行数据。只需在保存模板中将其设置为:

  “#URL#”、“#title#”、“#描述#”

  此格式为 csv 格式。用引号将每一项括起来,多个项之间用逗号隔开,然后保存扩展名并填写csv。

  问题重点:

  1.为什么采集一段时间后不能采集?

  可能是采集受搜索引擎限制比较多。一般可以通过更改IP来继续采集(如使用VPN更改IP)。如果不改,只能在搜索引擎解封后继续采集。百度的屏蔽时间一般是半小时到几个小时。

  但是,即使验证码被屏蔽,软件也会弹出手动输入的验证码(百度、谷歌)

  2.不同批次关键词采集 为什么有些网址重复了?

  特别是在只引用#domain#或#top-level domain#之后,这种部分URL重复的情况更为常见。这也是正常的,因为每个网站内页可能收录很多主题,而不同的关键词可能是采集到网站的不同内页,当引用域名时,相同的网站不同内页页面的域名结果自然是一样的。

  另*敏*感*词*内。如果两个采集的结果有重复的网址,可以合并在一起,用软件去重(优采云·text deduplication scrambler)。

  3.为什么采集返回的URL主题和关键词不一致?

  因为在引用#domain#或#top-level domain#后,取的是域名部分。域名打开网站的首页,采集的原网址可能不是首页,而是网站文章内页的某篇文章,内页收录关键词主题,所以可以通过搜索引擎收录获取,软件可以采集。但是取域名后,您打开的域名首页可能没有关键词。

  为了对比采集是否正确,可以在保存的模板中输入:#Title#

  ,另存为htm文件,采集后可以打开文件查看对比。

  

  版本差异使用阶梯升级记录内容查看此隐藏内容仅供VIP查看升级VIP

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线