关键词采集(优采云导航:优采云采集器优采云关键词关键词泛采集(搜索引擎))
优采云 发布时间: 2022-02-17 03:09关键词采集(优采云导航:优采云采集器优采云关键词关键词泛采集(搜索引擎))
优采云导航:优采云采集器 优采云控制台
关键词潘采集(搜索引擎)
关键词Pan采集通过搜索引擎搜索关键词、采集搜索结果链接的内容(系统会智能识别标题、正文、日期等) ),使用方法很简单,只需要输入对应的关键词即可。
使用步骤:
1. 任务创建和配置:
任务创建入口在控制台左侧的【采集任务管理】列表中,点击【关键词Pan采集(搜索引擎)】;
任务配置:
2. 数据处理配置(可选)
如果不需要对文章进行数据处理,可以跳过这一步!
一、数据处理入口
点击【配置数据替换、填充、删除等】按钮,进入数据处理配置页面;
二、数据处理配置
这个功能其实就是detail extractor的字段数据处理配置。采集之前可以为每个字段设置删除、填充、替换等功能,点击不同的字段名可以切换对应的字段数据处理配置,采集,设置的数据处理会自动进行执行。详情请参考明细提取器字段数据处理配置。完成设置后记得点击右上角的保存;
注意:该字段的数据处理设置对新存储的采集数据有效,之前存储的数据无效;
三、图片下载配置
关键词Pan采集的原图可能无法正常显示。如需保证图片显示或保存图片到服务器,请在“图片下载配置”>中选择临时存储优采云@或阿里云OSS或七牛存储;
3. 采集结果:
默认 采集 字段:
标题、内容、发表时间、作者、标签、分类、描述、关键词、网站域名(x_id);
预防措施:
4. 高级搜索命令和提示
关键词Pan采集 支持高级搜索命令:
一、采集指定网站
采集指定 网站 的 文章 指令: site:
采集 指定 文章 指令,该指令在 网站 下指定 关键词(注意 关键词 和 site 指令之间有一个空格): 关键词站点:或站点:关键词
比如博客园下的文章和php关键词:php站点:
优采云导航:优采云采集器 优采云控制台