关键词采集词(【干货】优采云采集平台详解,你值得拥有!! )

优采云 发布时间: 2021-12-20 22:00

  关键词采集词(【干货】优采云采集平台详解,你值得拥有!!

)

  优采云采集平台支持按关键词搜索采集新闻分类,称为新闻盘采集。News Pan 采集 支持新闻媒体关键词 Pan采集,覆盖国内8000余种新闻资讯类型网站和APP(例如:微信公众号文章以及今日头条),实时抓取最新资讯,使用方法很简单,输入对应的关键词即可。

  使用步骤:任务创建和配置数据处理配置(可选)采集 结果说明

  1. 任务创建和配置:

  一、创建任务有两个入口:

  在控制台左侧的“采集任务管理”列表中,点击“新闻盘采集”;

  在创建任务栏,点击“+新闻盘采集”;

  

  二、任务配置:

  填写任务名称:特殊符号不能填写;

  关键词:可以同时填写多个关键词,用逗号隔开(英文半角逗号),例如:华为、小米也可以填写多组关键词 , 每组关键词用分号隔开;(为英文半角分号),例如:华为、小米;宝马、奔驰;电脑、手机;提示:每个逗号分隔的关键词关系默认为OR,可以在下面的关键词关系中修改为AND;

  评选日期:不超过30天;

  采集页数:设置采集的页数和每页的条目数,采集时最多设置5页;

  关键词匹配字段:默认标题和正文,即如果在标题或正文内容中出现关键词,则在库中为采集,可以选择标题或正文分别地;

  关键词关系:

  或或:如果数据中出现多个关键词之一,则存储采集;AND:如果多个关键词同时出现在数据中,则采集入仓,只出现个别的,不出现采集入仓;

  网站 分类:无限制(默认)、新闻网站、政府网站、报纸网站和APP;

  指定网站:您只能为某个网站设置采集数据。暂时只支持微信公众号、今日头条、一点资讯和百家号;

  

  2. 数据处理配置(可选)

  如果不需要数据处理可以跳过这一步

  一、数据处理入口

  点击【配置数据替换、填充、删除等】按钮,进入数据处理配置;

  注意:要使用此功能,必须先采集有数据入库,此功能是在已经采集的数据基础上设置的!

  

  二、数据处理配置

  该功能类似于细节提取器的配置,可以设置删除、填充、替换、过滤等功能;

  【现有数据链接】:对应显示的URL是数据库中有采集数据的任务的URL。可以点击出现的下拉列表,选择其他有采集数据的URL;

  【测试数据处理】按钮:设置数据处理规则后,可以点击【测试数据处理】直接对【现有数据链接】对应的数据库中已经采集的数据执行规则, 而不是重新采集@ >再次执行规则;

  【查看现有数据】按钮:查看【现有数据链接】对应的采集入库数据,弹出优采云预览&编辑数据界面;

  注意:此设置保存后,对新输入数据库的采集数据生效,之前输入数据库的数据将失效;

  

  

  三、图片下载配置

  新闻盘原图采集采集可能无法正常显示(防盗链)。如需图片请在“图片下载配置”中选择临时存储优采云或阿里云OSS或七牛存储;

  3. 采集 结果:

  默认 采集 字段:

  标题、内容、发布时间、标签、描述、关键词、网站名称(x_name)、网站域名(x_id)、第一张图片链接等;

  

  预防措施:

  News Pan采集是对接第三方接口的实现,使用会受到第三方接口稳定性的影响。如果您发现任何问题,请随时与我们联系。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线