优采云采集可按关键词泛采集通过搜索引擎(百度)
优采云 发布时间: 2021-02-04 13:00优采云采集可以按关键词平移采集通过搜索引擎(百度)搜索关键词信息文章,采集搜索结果链接内容(系统会智能识别标题和文本,日期等),用法非常简单,只需输入相应的关键词。
使用步骤:
1.任务创建和配置:
任务创建条目位于控制台左侧的[采集 Task Management]列表中,单击[关键词 Pan 采集(Search Engine)];
任务配置:
2.数据处理配置(可选)
如果您不需要处理文章,则可以跳过此步骤!
I。数据处理入口
单击[配置数据替换,填充,删除等]按钮进入数据处理配置页面;
II,数据处理配置
此功能类似于详细信息提取器的配置。您可以为每个字段设置删除,填充,替换和过滤功能,然后单击不同的字段以切换相应的字段数据处理配置;
注意:保存该字段的数据处理设置后,它将对输入数据库的新采集数据生效,并且先前输入的数据将无效;
III,图片下载配置
关键词 Pan 采集的原创图像可能无法正常显示(防盗链接)。如果需要图片,请在“图片下载配置”的Cattle存储中选择临时存储优采云或阿里云OSS或七个。
3.采集结果:
默认采集字段:
标题,内容,发布时间,作者,标签,分类,描述,关键词,网站域名(x_id);
注意:
4.百度高级搜索说明和技术
关键词 Pan 采集支持百度高级搜索命令:
I,采集指定网站
采集指定网站:站点的文章指令:
采集在网站下指定了关键词的文章指令(请注意关键词和site指令之间有空格):关键词 site:或site:关键词
例如,在采集博客园下面有文章个php 关键词:php站点: