插入关键字 文章采集器(华为,采集平台的使用方法及使用步骤(二) )

优采云 发布时间: 2022-03-02 01:08

  插入关键字 文章采集器(华为,采集平台的使用方法及使用步骤(二)

)

  优采云采集平台可以按关键词采集文章,这个功能叫新闻盘采集,支持新闻按关键词@ > 泛采集,涵盖国内大部分主流新闻资讯网站和APP(例如:百家号、凤凰网、腾讯新闻等),实时捕捉最新资讯,使用方法很简单,输入对应的关键词即可。

  使用步骤如下:

  任务创建和配置:

  一、创建任务有两个入口:

  在控制台左侧的“采集任务管理”列表中,点击“新闻盘采集”;

  在创建任务部分,点击“+News Pan采集”;

  

  二、任务配置:

  填写任务名称:特殊符号不能填写;

  关键词:可以同时填写多个关键词,用逗号隔开,(是英文半角逗号),例如:华为、小米也可以填写多组< @关键词,每组关键词用分号隔开;(英文是分号),例如:华为、小米;宝马、奔驰;电脑、手机;

  采集页数:设置采集的页数和每页的条目数,常规采集最多设置5页;

  关键词匹配字段:默认标题和正文,即如果标题或正文内容之一中有关键词,则存储在库采集中,标题或正文机身可以单独选择;

  关键词关系:

  或OR:如果数据中出现多个关键词之一,则存储采集;

  与:多个关键词必须同时出现在数据中,采集会入库,只有个别入库,而不是采集;

  网站类别:无限制(默认)、新闻网站、政府网站、报纸网站和APP;

  指定网站:可以只设置采集某个网站的数据,暂时只支持微信公众号、今日头条、一点新闻和百家号;

  

  数据处理配置

  如果不需要数据处理,可以跳过这一步

  一、数据处理入口

  点击【配置数据替换、填充、删除等】按钮,进入数据处理配置;

  

  二、数据处理配置

  该功能类似于明细提取器的配置,可以设置删除、填充、替换、过滤等功能;

  【已有数据链接】:对应显示的URL是数据库中已经采集的数据的URL。可以点击下拉列表选择其他有采集数据的URL;

  【测试数据处理】按钮:设置好数据处理规则后,可以点击【测试数据处理】,直接对【现有数据链接】对应的采集存储数据执行规则,无需重新采集@ > 再执行一次规则;

  【查看已有数据】按钮:查看【已有数据链接】对应的采集存储数据,弹出优采云预览编辑数据界面;

  

  三、图片下载配置

  新闻盘原图采集采集可能无法正常显示(防盗链),如需图片请在“图片下载配置”云中选择临时优采云或阿里OSS或七牛存储;

  采集结果:

  默认 采集 字段:

  标题、内容、发布时间、标签、描述、关键词、网站名称(x_name)、网站域名(x_id)、首图链接等;

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线