“添加采集项目”进入新建项目;采集第一步参数说明
优采云 发布时间: 2021-03-26 22:03“添加采集项目”进入新建项目;采集第一步参数说明
采集项目管理2017/12/4 10:12:50
添加采集个项目
点击“添加采集项目”以输入新的采集项目;
采集第一个参数说明如下:
采集项目名称是我们想要的采集项目,例如,如果我们的采集是时事新闻,则称为时事新闻;
对于模型设置采集,请为文章模型选择文章,然后为图片信息选择图像模型;
文档存储列是指采集信息所属的列。我们必须在采集之前构建此列,以选择列归因;
选择文档所属的主题
目标站点的名称为采集,需要网站信息,例如腾讯新闻;
采集目标URL是采集的URL;
根据我们要采用的网站编码设置编码方式,如果编码不正确,可能会导致乱码;
设置属性意味着设置采集内容的某个项目或某些属性,并且采集还支持在手机上显示;
采集选项:在本地保存图片并在采集中进行检查。如果文章中有照片,则照片将自动保存到本地服务器;否则,照片将自动保存到本地服务器。检查采集 HTML静态后,将立即生成HTML,并自动生成广告。检查现有主表中相同名称的记录以跳过并且不重复现有信息文档的标题。如果有同名文件,则不是采集;反转采集已检查为从最后一页的最后一个开始。勾选后自动设置主页图片,采集中的图片文章将自动设置为第一张图片;暂停设置,例如每采集 100条消息停留2秒钟。
设置后,单击“下一步”进入第二步标记设置;
列表设置是文章列表的开始和结束标签;您可以在右侧的代码中找到它;
测试链接是文章标题的链接开始和结束标签;
如果标记良好,则可以测试列表和测试链接,测试右侧的代码将自动获取源代码;
分页设置:
如果没有分页符,则仅采集第一页;
如果要批量设置采集个页面,并且每个页面的生成规则都是常规的,请设置域名/list.asp?page={$ID},然后将生成范围设置为您想要的采集从第1页到第6页的页面设置为2到6
手动设置,输入列表的URL为采集,每行一页
单击“下一步”进入采集设置的第三步。
在右侧,我们可以选择显示代码窗口。获取代码时,可以方便地直接查看采集的代码源,或关闭代码窗口;点击“访问”进入采集的内容页面,然后查看其源代码。
例如,重定向链接,源,更新时间等。如果需要设置标签,则可以根据代码源设置标签,也可以指定标签
简介如果您不需要它,请选择不设置它,需要做一个标记,并在源代码中寻找一个唯一的标记,添加一个好的“拦截设置”,然后您可以查看屏幕截图结果显示在右侧的测试结果中;
特定内容设置切出文章内容的开始和结束标签,并在过滤HTML标签中选择采集后过滤要过滤的项目。这些项目将被过滤。
最后保存设置以完成采集项目设置。
点击“确定”以返回采集管理。
返回采集项目管理,您可以查看我们添加的所有采集项目;您可以编辑,删除,测试采集,复制采集项目和其他操作。
单击管理操作的测试以测试采集项是否通过。
单击管理操作下的“ 采集”链接以进入采集信息操作。
在采集之后,我们可以查看采集历史中的采集的所有信息内容;
同时,您还可以在Content Management- 文章系统的相应列下查看采集存储信息;如果在设置采集规则时未过滤并完善由采集返回的文章记录,则需要删除文章管理中的采集记录和历史记录中的采集记录,然后重置采集规则,然后单击采集。
过滤规则意味着我们要用其他内容替换采集 网站中的某些内容,例如用替换的文本替换文本
注意:在采集的第三步中,可以在模型管理字段管理中选择允许打开哪些字段的设置标签采集;