关键词 采集(搜索引擎_关键词网址采集器使用方法及保存方法)
优采云 发布时间: 2021-11-10 09:09关键词 采集(搜索引擎_关键词网址采集器使用方法及保存方法)
优采云关键词URL采集器是一个网站信息采集软件,软件输入关键字采集 URL、域名、标题、描述等。搜索引擎信息,采集速度快,质量好。
相关软件软件大小版本说明下载地址
优采云关键词URL采集器是一个网站信息采集软件,软件输入关键字采集 URL、域名、标题、描述等。搜索引擎信息,采集速度快,质量好。
指示
【搜索引擎】百度、搜狗、谷歌支持每页100条结果,勾选“每页10条结果”为10条
【仅采集指定排名】例如,如果要采集排名第3和第5的URL,则输入“2|3|5”(不包括引号),这是not enabled 选项都是采集。
【进入关键词列表】每行一个关键词
【采集Pages】设为0则采集所有搜索页面
[每页数] 不同的搜索引擎对每页的页数有不同的限制。百度高达50,谷歌和搜狗是100,其他基本都是10或20
【Google Bing 英文站点】勾选使用Google Bing 的全球英文站点搜索,否则将使用中文站点搜索。
【Google Bing No Wait】勾选可以让这3个引擎没有等待采集,即高速采集,否则采集的每一页都会自动等待一定量时间。添加这个选项的原因是最近(2015年8月8日)测试这3个引擎设置搜索间隔时间似乎没有用。Bing 测试了十几个关键词 没有验证码的无等待搜索,所以它不能做验证码处理。不过谷歌一开始只显示了几个验证码,并没有等待大量搜索,也没有出现验证码。但是,Google 已经可以自动确定出现验证码并将其交给用户删除。
【保存目录】采集的结果会保存在这个目录下,保存的文件名是:search engine_关键词
【重要提示】右键点击保存目录的选择按钮“..”定位目录
常见问题
1.为什么一段时间后不能采集采集?
可能是采集 受搜索引擎限制比较多。一般可以通过更改IP来继续采集。如果不改,只能在搜索引擎解封后继续采集。百度的屏蔽时间一般是半小时到几个小时。
但是,即使验证码被屏蔽,软件也会弹出手动输入的验证码(百度、谷歌)
2.不同批次的关键词采集 为什么有些重复的网址?
尤其是只引用#domain#或#top-level domain#后,这种部分URL重复的情况更为常见。这也是正常的,因为网站的每个内页可能收录很多主题,不同的关键词可能会采集到网站的不同内页,当域名引用,同一个网站的不同内页的域名结果自然是一样的。
另*敏*感*词*内。如果两个采集的结果中有重复的网址,可以将它们合并在一起,使用软件去除重复的网址。
3.为什么采集返回的URL主题与关键词不匹配?
因为在引用#domain#或#top-level domain#后,取的是域名部分。域名打开网站的首页,采集的原网址可能不是首页,而是网站的文章内页文章,内页收录关键词的主题,所以可以通过搜索引擎收录和软件采集获取。但是获取域名后,您打开的域名首页可能没有关键词。
为了比较采集是否正确,可以在保存模板中输入:,另存为htm文件,采集后可以打开文件查看比较。