采集的文章和关键词不符(输入关键字采集各搜索引擎的网址、域名、标题、描述等信息支持)

优采云发布时间: 2021-10-12 21:20

　　输入关键字采集各搜索引擎的网址、域名、标题、描述等信息

　　支持百度、搜狗、谷歌、必应、雅虎、360等每个关键词600到800，采集示例

　　关键词可以收录搜索引擎参数，就像在网页上输入关键词搜索一样，

　　如果百度搜索结果网址必须收录bbs的关键词，则输入“关键词 inurl:bbs”。

　　保存模板可以引用的数据：

　　#URL#采集的原创 URL

　　# Title# URL对应的页面标题

　　#Domain#原创URL的域名部分，如“”中的“”

　　#Top domain# 取原创URL的顶级域部分，如“”

　　#描述#页面标题下方的一段描述性文字

　　Excel导出：

　　CSV是一个文本表格，Excel可以显示为多列多行数据。只需在保存模板中设置为：

　　“#URL#”、“#title#”、“#描述#”

　　此格式为 csv 格式。用引号将每个项目括起来，多个项目用逗号隔开，然后保存扩展名并填写csv。

　　问题重点：

　　1.为什么一段时间后不能采集采集？

　　可能是采集受搜索引擎限制比较多。一般可以通过更改IP来继续采集（如使用VPN更改IP）。如果不改，只能在搜索引擎解封后继续采集。百度的屏蔽时间一般是半小时到几个小时。

　　但是，即使验证码被屏蔽，软件也会弹出手动输入的验证码（百度、谷歌）

　　2.不同批次关键词采集为什么结果有些重复的网址？

　　尤其是只引用#domain#或#top-level domain#后，这种部分URL重复的情况更为常见。这也是正常的，因为网站的每个内页可能收录很多主题，不同的关键词可能会采集到网站的不同内页，当域名引用，同一个网站的不同内页的域名结果自然是一样的。

　　另*敏*感*词*内。如果两个采集的结果中有重复的URL，可以合并在一起，用软件去重（优采云·text deduplication scrambler）。

　　3.为什么采集返回的URL主题与关键词不匹配？

　　这是因为在引用#domain# 或#top-level domain# 后，取的是域名部分。域名打开网站的首页，采集的原网址可能不是首页，而是网站文章的文章内页，内页收录关键词的主题，所以可以通过搜索引擎收录和软件采集获取。但是获取域名后，您打开的域名首页可能不收录关键词。

　　为了比较采集是否正确，可以在保存模板中输入：

　　, 保存为htm文件，采集后可以打开文件查看对比。

　　⒈本站提供的任何资源仅供自研学习，不得用于非法活动。它们将在下载后 24 小时内删除。

　　⒉软件公告区的内容不得发布违反法律法规的内容。一旦发现该软件在后台被屏蔽，将无法打开！

　　⒊本站软件采集整理了相关行业网站页面的公共资源，属于用户自己在相关网站上发布的公开信息，不涉及任何个人隐私问题。本软件只能在一定范围内合法使用，不得非法使用。

　　⒋一旦发现会员有欺骗我们或欺骗客户的行为，一经发现，会员资格将无条件取消！

　　⒌请勿使用我们的软件采集转售信息或将其用于其他非法行为。否则后果自负！一经发现，我们将第一时间向*敏*感*词*部门报告！并停止软件功能，所有费用概不退还！

　　下载链接：

　　文件名：优采云·关键词URL采集器v2.3.6.0+注册机压关键词采集@ >搜索引擎收录网址

　　文件大小：100M 适用版本：任意版本

　　更新日期：2020-11-16 作者信息：站长

　　下载地址1 下载地址2 下载地址3

　　标签：

0

2021-10-12

采集的文章和关键词不符

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集的文章和关键词不符(输入关键字采集各搜索引擎的网址、域名、标题、描述等信息支持)

0 个评论

发起人

AI时代内容工厂

采集的文章和关键词不符(输入关键字采集各搜索引擎的网址、域名、标题、描述等信息支持)

0 个评论

发起人

相关问题