关键词 文章采集(华为,采集平台的使用方法及使用步骤(二) )
优采云 发布时间: 2022-03-18 09:04)
优采云采集平台可以基于关键词采集文章,这个功能叫新闻盘采集,支持新闻按关键词潘采集,覆盖国内大部分主流新闻资讯类网站和APP(例如:百家号凤凰网腾讯新闻等),最新资讯在实时,使用方法很简单,只需要输入对应的关键词即可。
步骤如下:
任务创建和配置:
我。任务创建有两个入口:
在控制台左侧的“采集任务管理”列表中,点击“新闻盘采集”;
在创建任务部分,点击“+News Pan采集”;
二、任务配置:
填写任务名称:特殊符号不能填写;
关键词:可以同时填写多个关键词,用逗号(英文半角逗号)隔开,例如:华为、小米也可以填写多组关键词,每个Groups 关键词之间用分号隔开; (英文是分号),例如:华为、小米;宝马、奔驰;电脑、手机;
采集页数:设置采集的页数和每页的条目数,采集时最多设置5页;
关键词匹配字段:默认标题和正文,即如果标题或正文内容中有关键词,则将采集入库,标题或正文body可以单独选择;
p>
关键词关系:
或OR:如果多个关键词之一出现在数据中,则采集存储;
与AND:数据中必须同时出现多个关键词,采集入库,只出现少数,不采集入库;
网站类别:无限制(默认)、新闻网站、政府网站、报纸网站和APP;
指定网站:可以只设置采集某个网站的数据,暂时只支持微信公众号、今日头条、一点新闻和百家号;
数据处理配置
不需要数据处理的可以跳过这一步
我,数据处理入口
点击【配置数据替换、填充、删除等】按钮进入数据处理配置;
二、数据处理配置
该功能类似于明细提取器的配置,可以设置删除、填充、替换、过滤等功能;
【已有数据链接】:对应显示的URL是任务的采集存储数据的URL,可以点击下拉列表选择其他有采集数据的URL;
【测试数据处理】按钮:设置好数据处理规则后,可以点击【测试数据处理】直接对【现有数据链接】对应的采集存储数据执行规则,而不是的重新采集再次执行规则;
【查看已有数据】按钮:查看【已有数据链接】对应的采集存储数据,弹出优采云预览编辑数据界面;
三、图片下载配置
新闻盘原图采集采集可能无法正常显示(防盗链),如需图片请在“图片下载配置”中选择暂存优采云@ >或者阿里云OSS或者七牛存储;
采集结果:
默认采集字段:
标题、内容、发表时间、标签、描述、关键词、网站名称(x_name)、网站域名(x_id)、首图链接等;