完整的解决方案:采集系统
优采云 发布时间: 2020-12-20 10:18完整的解决方案:采集系统
采集系统2018/12/17 11:14:10
采集管理可以帮助公司在信息采集和资源整合方面节省大量人力和资金。它广泛用于行业门户网站网站,竞争情报系统,知识管理系统,网站内容系统,垂直搜索,科学研究和其他领域。
1、采集项目管理
点击“添加采集项目”以输入新的采集项目;
采集第一个参数描述如下:
采集项目名称是我们想要的采集项目,例如,如果我们的采集是时事新闻,则称为时事新闻;
对于模型设置采集,为文章模型选择文章,然后为图像信息选择图像模型;
文档存储列是指采集信息所属的列。我们需要在采集之前构建此列,然后才能选择所属列;
选择文档所属的主题
目标站点的名称为采集,需要网站信息,例如腾讯新闻;
采集目标URL是采集的URL;
根据我们要采用的网站编码设置编码方式,如果编码不正确,可能会导致乱码;
设置属性意味着设置采集内容的某个项目或某些属性,并且采集还支持在手机上显示;
采集选项:在本地保存图片并在采集中进行检查。如果文章中有照片,则照片将自动保存到本地服务器;检查采集 HTML静态后,将立即生成HTML,并自动生成广告。检查现有主表中相同名称的记录以跳过并且不重复现有信息文档的标题。如果有同名文件,则不是采集;反向采集已检查为从最后一页的最后一个开始。检查后自动设置首页图片,将文章的图片从采集自动设置为第一张图片;暂停设置,例如每采集 100条消息停留2秒。
设置后,单击“下一步”进入第二步标记设置;
列表设置是文章列表的开始和结束标签;您可以在右侧的代码中找到它们;
测试链接是文章标题的链接开始和结束标签;
如果标记了该标记,则可以测试列表和测试链接,并且测试右侧的代码将自动获取源代码;
分页设置:
如果没有分页,则仅采集第一页;
如果要批量设置采集个页面,并且每个页面的生成规则都是常规的,请设置域名/list.asp?page={$ID},然后根据需要设置生成范围want 采集第1页到第6页的页面设置为2to 6
手动设置,输入列表的URL为采集,每行一页
点击“下一步”以输入采集第三步设置。
在右侧,我们可以选择显示代码窗口。获取代码时,可以方便地直接查看采集的代码源,或关闭代码窗口;点击“访问”进入采集的内容页面,然后查看其源代码。
例如,重定向链接,源,更新时间等。如果需要设置标签,则可以根据代码源设置标签,也可以指定标签
简介如果您不需要它,请选择不进行设置。您需要做一个标记。还要在源代码中查找唯一标记。添加良好的“拦截设置”。您可以在右侧的测试结果中查看屏幕截图结果;
特定内容设置切出文章内容的开始和结束标签,并在选择HTML标签采集并过滤掉这些项目后过滤要过滤的项目
最后保存设置以完成采集项目设置。
点击“确定”以返回采集管理。
返回采集项目管理,您可以查看我们添加的所有采集项目;您可以编辑,删除,测试采集,复制采集项目和其他操作。
单击管理操作的测试以测试采集项是否通过。
单击管理操作下的“ 采集”链接以进入采集信息操作。
在采集之后,我们可以查看采集历史中的采集的所有信息内容;
同时,您可以在Content Management- 文章系统的相应列下查看采集存储信息;如果在设置采集规则时未过滤并完善由采集返回的文章记录,则需要删除文章管理中的采集记录和历史记录中的采集记录,然后重置采集规则,然后单击采集。
过滤规则意味着我们要用其他内容替换采集 网站中的某些内容,例如用替换的文本替换文本
注意:在采集的第三步中,可以在模型管理字段管理中选择允许设置哪些标签的标签集采集;
2、过滤规则管理
添加过滤规则并管理过滤规则。添加过滤器名称,替换方法,搜索内容,然后选择是否启用。
添加后,确认操作。返回过滤规则管理,您可以编辑添加的过滤规则。
3、采集历史记录
管理采集历史记录。支持快速搜索历史记录,批量删除历史记录记录。