输入关键字收罗各搜刮引擎的网址、域名、标题、形貌等信息支持

优采云发布时间: 2021-08-12 21:03

　　输入关键字采集各个搜索引擎的网址、域名、标题、外观等信息

　　支持百度、搜狗、谷歌、必应、雅虎、360等每个关键词600至800、采集example

　　关键词可以收录搜索引擎参数，就像在网页上输入关键词search一样，

　　如果百度搜索效果网址必须收录bbs的关键词，则输入“关键词inurl:bbs”。

　　生存模板可以引用的数据：

　　#URL#采集的原创网址

　　#Title#URL对应的网页标题

　　#domain#原创URL的域名部门，如“”中的“”

　　#顶级域名#取原网址的顶级域名部分，如“”中的“”

　　#Description#页面标题下方的一段描述笔墨

　　Excel 导出：

　　csv 是一个文本表格，可以通过 Excel 显示为多列多行数据。只需在保存模板中将其设置为：

　　“#URL#”、“#title#”、“#描述#”

　　此格式为 csv 格式。用引号将每一项括起来，多个项之间用逗号隔开，然后保存扩展名并填写csv。

　　主题亮点：

　　1.为什么采集一段时间后不能采集？

　　这可能是采集受到搜索引擎的更多限制。改IP（比如用VPN改IP）继承采集是很常见的。不改就只能等hz搜索引擎解封了再继续采集。百度的屏蔽时间一般是半小时到几个小时。

　　但是，现在即使验证码被hz屏蔽，软件也会弹出手动输入的验证码（百度、谷歌）

　　为什么2.Difference Batch关键词采集的结果中有一些重复的URL？

　　特别是只引用#domain#或#top-level domain#后，这种部分URL重复的环境更为常见。这也是正常的。由于网站的每个内页可能收录多个h主题，不同的关键词可能是采集到网站的不同内页。引用域名时，与网站相同。内页的域名结果自然是一样的。

　　另*敏*感*词*内。如果两个采集的结果有重复的网址，可以合并在一起，用软件去重（优采云·text deduplication scrambler）。

　　3.为什么采集返回的URL主题与关键词不匹配？

　　因为在引用#domain#或#top-level domain#后，取的是域名部分。域名打开网站的首页，采集的原网址可能不是首页，而是网站文章内页的某篇文章，内页收录关键词主题，所以可以通过搜索引擎收录获取，软件可以采集。但是拿了域名后，你打开的域名首页却不愿意收录关键词。

　　为了对比采集是否准确，可以在保存模板中输入：

　　，另存为htm文件，采集后可以自己打开文件查看h对比。

0

2021-08-12

关键词智能采集器

0 个评论

要回复文章请先登录或注册