根据关键词文章采集系统(【干货】优采云采集平台详解,你值得拥有!!)
优采云 发布时间: 2021-09-07 13:23根据关键词文章采集系统(【干货】优采云采集平台详解,你值得拥有!!)
优采云采集 平台支持 按关键词搜索采集news 信息类别,称为新闻 pan采集。新闻泛采集支持新闻资讯出版社关键词泛泛采集,覆盖国内8000多条新闻资讯网站和APP(例如:微信公众号文章、今日头条),最新资讯尽在掌握实时,使用方法很简单,输入对应的关键词即可。
使用步骤:任务创建和配置数据处理配置(可选)采集Result注意事项
1. 任务创建和配置:
我。创建任务有两个入口:
在控制台左侧的“采集Taskmanagement”列表中,点击“新闻泛采集”;
在创建任务栏,点击“+新闻泛采集”;
二。任务配置:
填写任务名称:特殊符号不能填写;
关键词:可以同时填写多个关键词,用逗号隔开(英文半角逗号),例如:华为、小米也可以填写多组关键词,每组关键词用分数;分隔(英文半角分号),如:华为、小米;宝马、奔驰;电脑、手机;提示:每个逗号分隔的关键词关系默认为或OR,可以在下面的关键词关系中找到修改为AND;
选择日期:不能超过30天;
采集页数:设置采集的页数和每页的条目数,定时设置采集最多5页;
关键词Matching 字段:默认标题和正文,即如果标题或正文内容中出现关键词,则库中为采集,标题或正文可单独选择;
关键词关系:
Or OR:如果数据中出现多个关键词之一,则存储在采集; and AND:如果所有关键词同时出现在数据中,则只有采集会存入数据库。有个别的,不是采集storage;
网站类别:无限制(默认)、news网站、government网站、news网站和APP;
指定网站:您只能设置采集某个网站数据。暂时只支持微信公众号、今日头条、一点资讯和百家号;
2. 数据处理配置(可选)
如果不需要数据处理,可以跳过这一步
我。数据处理入口
点击【配置数据替换、填充、删除等】按钮,进入数据处理配置;
注意:要使用这个功能,必须先采集有数据入库,这个功能是在采集已经有数据的基础上设置的!
二、数据处理配置
此功能类似于明细提取器的配置,可设置删除、填充、替换、过滤功能;
【现有数据链接】:对应显示的URL是数据库中有采集数据的任务的URL,可以点击出现的下拉列表选择其他有采集数据的URL ;
【测试数据处理】按钮:设置数据处理规则后,可以点击【测试数据处理】直接对【现有数据链接】对应的采集入站数据执行规则,而不是re采集再次执行规则;
【查看现有数据】按钮:查看【现有数据链接】对应的采集入站数据,弹出优采云预览&编辑数据界面;
注意:此设置保存后,对新的采集入站数据生效,之前的入站数据将失效;
三、图片下载配置
新闻 pan采集采集 的原图可能无法正常显示(防盗)。如需图片请在“图片下载配置”中选择临时存储优采云或阿里云OSS或七牛存储;
3.采集Result:
默认采集 字段:
标题、内容、发布时间、标签、描述、关键词、网站名(x_name)、网站域名(x_id)、第一张图片链接等;
注意事项:
新闻 pan采集是对接第三方接口的实现,使用会受到第三方接口稳定性的影响。如果您发现任何问题,请随时与我们联系。
郑重声明:本文版权归原作者所有。转载文章只是为了传播更多信息。如果作者信息标注有误,请尽快联系我们修改或删除。谢谢。