采集的文章和关键词不符(泛采集通过搜索引擎(百度)搜索关键词,采集搜索结果 )

优采云 发布时间: 2021-08-31 01:07

  采集的文章和关键词不符(泛采集通过搜索引擎(百度)搜索关键词,采集搜索结果

)

  关键词泛采集 通过搜索引擎(百度)搜索关键词、采集搜索结果链接内容(系统会智能识别标题、文字、日期等),使用方法是很简单,只要输入就对应关键词。

  使用步骤如下:

  1. 任务创建和配置:

  任务创建入口在控制台左侧的【采集Task管理】列表中,点击【关键词泛采集(Search Engine)】;

  

  任务配置:

  填写任务名称:自定义名称,不能填写特殊符号;

  关键词:填写采集的关键词,例如:java进阶教程

  关键词可以填写多组,每组关键词用分号隔开;分隔(英文半角分号),例如:华为手机安全设置;宝马与奔驰对比;电脑和手机生产力对比

  支持百度高级搜索命令:比如要指定网站:site:,点击查看更多百度高级搜索命令和技巧

  采集Pages:设置采集的页数,定时采集最多可以设置5页(一般因为搜索引擎索引更新频率不高,建议不要使用计时或延长计时间隔。);

  搜索方式:暂时只支持百度搜索引擎采集关键词;

  2. 数据处理配置(可选)

  如果不需要处理文章可以跳过这一步!

  我。数据处理入口

  点击【配置数据替换、填充、删除等】按钮,进入数据处理配置页面;

  

  二、数据处理配置

  这个功能类似于细节提取器的配置。可以为每个字段设置删除、填充、替换、过滤功能,点击不同的字段可以切换对应的字段数据处理配置;

  注意:此字段的数据处理设置保存后,对新的采集入站数据生效,之前的入站数据将失效;

  

  【现有数据链接】:可以忽略,直接设置字段数据处理配置。对应的URL是已经采集入站数据的任务的URL,可以点击下拉列表选择其他采集Data URL;

  【测试数据处理】按钮:设置数据处理规则后,可以点击【测试数据处理】直接对【现有数据链接】对应的采集入站数据执行规则,而不是re采集重新执行一次规则;

  【查看现有数据】按钮:查看【现有数据链接】对应的采集入站数据,弹出优采云预览&编辑数据界面;

  三、图片下载配置

  关键词泛采集的原图可能无法正常显示(防盗链接)。如需图片请在“图片下载配置”中选择临时存储优采云或阿里云OSS或七。牛储存;

  3.采集Result:

  默认采集 字段:

  标题、内容、发布时间、作者、标签、分类、描述、关键词、网站域名(x_id);

  

  注意事项:

  理论上,每个搜索请求可以获取大约 10 个详细信息。请以实际获取存储为准。

  采集当内容智能识别时,如果标题为空,则不存储记录。

  4.百度高级搜索说明和技巧

  关键词泛采集支持百度高级搜索命令:

  我,采集designated网站

  采集文章网站指定的指令:site:

  采集指定网站指定关键词的文章指令(注意关键词和site指令之间有一个空格):关键词site:或site:关键词

  比如采集博客园有php关键词文章:php站点:

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线