整套解决方案:采集系统
优采云 发布时间: 2020-09-04 03:31采集系统
采集系统2018/12/17 11:14:10
采集管理可以帮助公司在信息采集和资源整合方面节省大量人力和资金。广泛应用于行业门户网站网站,竞争情报系统,知识管理系统,网站内容系统,垂直搜索,科学研究等领域。
1、 采集项目管理
点击“添加采集项目”以输入新的采集项目;
采集第一个参数描述如下:
采集项目名称是我们想要的采集项目,例如,如果我们的采集是时事新闻,则称为时事新闻;
对于模型设置采集,请为文章的模型选择文章,然后选择图像信息的图像模型;
文档存储列是指采集信息所属的列。我们需要在采集之前构建此列以选择所属列;
选择文档所属的主题
目标站点的名称为采集,需要网站信息,例如腾讯新闻;
采集目标URL是采集的URL;
根据我们要采用的网站编码设置编码方法,如果编码不正确,可能会导致乱码;
设置属性意味着设置采集内容的某个项目或某些属性,并且采集还支持在手机上显示;
采集选项:在本地保存图片并在采集中进行检查。如果文章中有照片,则照片将自动保存到本地服务器;在选中采集静态HTML之后,将立即生成HTML,并自动生成广告。检查现有主表中相同名称的记录以跳过并且不重复现有信息文档的标题。如果存在同名文档,则不会是采集;如果选中了反向顺序采集,则将选择最后一页中的最后一个条目。勾选后自动设置主页图片,采集中的图片文章将自动设置为第一张图片;暂停设置,例如每采集 100条消息停留2秒。
设置后,单击“下一步”进入第二步标记设置;
列表设置是文章列表的开始和结束标签;您可以在右侧的代码中找到它们;
测试链接是文章标题的链接开始和结束标签;
如果已标记,则可以测试列表和测试链接,并且测试右侧的代码将自动获取源代码;
分页设置:
如果没有分页符,则仅采集第一页;
如果要批量设置采集个页面,并且每个页面的生成规则都是常规的,请设置域名/list.asp?page={$ID},然后根据您的需要设置生成范围想要采集从第1页到第6页的页面设置为2到6
手动设置,输入列表的URL为采集,每行一页
单击“下一步”以输入采集第三步设置。
在右侧,我们可以选择显示代码窗口。获取代码时,可以方便地直接查看采集的代码源,或关闭代码窗口;单击“访问”进入采集的内容页面,然后查看其源代码。
例如,重定向链接,源,更新时间等。如果需要设置,则可以根据代码源设置标签,也可以指定代码
引言,如果不需要它,选择不设置它,需要做一个标记,还在源代码中寻找一个唯一的标记,添加一个好点“拦截设置”,就可以查看屏幕截图显示在右侧的测试结果中;
特定内容设置切出文章内容的开始和结束标签,并在HTML标签中选择采集后过滤要过滤的项目,这些项目将被过滤
最后保存设置以完成采集项目设置。
点击“确定”以返回采集管理。
返回采集项目管理,您可以查看我们添加的所有采集项目;您可以编辑,删除,测试采集,复制采集项目和其他操作。
单击管理操作测试以测试采集项是否通过。
单击管理操作下的“ 采集”链接以进入采集信息操作。
在采集之后,我们可以查看采集历史中的采集的所有信息内容;
同时,您可以在Content Management- 文章系统的相应列下查看采集存储信息;如果在设置采集规则时未过滤和完善采集返回的文章,则需要删除文章管理中的采集记录和历史记录中的采集记录,然后重置采集规则,然后单击采集。
过滤规则意味着我们要用其他内容替换采集 网站中的某些内容,例如用替换的文本替换文本
注意:在采集的第三步中,可以在模型管理字段管理中选择哪些标签可以打开采集;
2、过滤规则管理
添加过滤规则并管理过滤规则。添加过滤器名称,替换方法,搜索内容,然后选择是否启用。
添加后,确认操作。返回过滤规则管理,您可以编辑添加的过滤规则。
3、 采集历史记录
管理采集历史记录。支持快速搜索历史记录,批量删除历史记录记录。