采集系统(广泛应用于行业门户网站,竞争情报系统,知识管理系统,网站内容系统 )
优采云 发布时间: 2022-01-10 18:18采集系统(广泛应用于行业门户网站,竞争情报系统,知识管理系统,网站内容系统
)
采集管理可以帮助企业在信息采集和资源整合方面节省大量的人力和金钱。广泛应用于行业门户网站、竞争情报系统、知识管理系统、网站内容系统、垂直搜索、科研等领域。
1、采集项目管理
点击“添加采集项目”进入新建的采集项目;
采集第一步参数说明如下:
采集项目名称就是我们要采集的项目。比如我们的采集是时事新闻,则命名为时事新闻;
如果模型设置采集是文章模型,选择文章,如果设置了图片信息,选择图片模型;
文档存储栏是指采集的信息应该属于哪一栏。我们必须在采集之前建立这个列来选择归属列;
文档归属主题 选择文档所属的主题
目标站点名称为采集网站的信息,如腾讯新闻;
采集目标网址为采集的网址;
编码方式根据我们要采用的网站编码设置。如果编码不正确,可能会导致乱码;
设置属性是指对采集的内容设置某项或某项属性,采集也可以在手机上显示;
采集选项:保存图片到本地后勾选采集如果返回的文章中有图片,图片会自动保存到本地服务器;勾选后立即生成 HTML 采集 返回的广告会自动生成 HTML static;检查是否跳过现有主表中的同名记录,现有信息文件标题不会重复,当有同名文件时,不会是采集;reverse 采集 check 从最后一页的最后一个条目中选择并前进;勾选首页图片自动设置后,采集中的图片文章会自动设置为第一张图片;暂停设置,例如每 采集100 条消息停留 2 秒。
设置完成后点击“下一步”进入第二步打标设置;
列表设置是 文章 列表的开始和结束标记;您可以在右侧的代码中找到它;
测试链接是文章标题的链接开始和结束标签;
标记好,可以测试列表和测试链接,右侧代码测试成功会自动获取源代码;
点击“下一步”进入采集第三步设置。
在右侧,我们可以选择显示代码窗口。获取代码时,方便直接查看采集的代码源,或者关闭代码窗口;点击“访问”访问内容页面为采集,然后查看其源代码。
比如转向链接、来源、更新时间等。如果需要设置,可以根据代码源设置标签,也可以指定。
简介 如果不需要,请选择不设置。你需要标记它。另外,在源码中寻找唯一标记,添加“拦截设置”,可以在右侧的测试结果中查看截图结果;
具体内容设置截取文章的内容的开始和结束标签,通过HTML标签过滤要过滤的项目。选择采集后,过滤这些项目
最后保存设置,完成采集项目设置。
单击确定返回到采集管理。
返回采集项目管理,可以查看我们添加的所有采集项;可以编辑、删除、测试、采集、复制采集项等操作。
单击 Test for Admin Operations 以测试 采集 项是否通过。
单击“管理操作”下的“采集”链接,开始采集信息操作。
在采集之后,我们可以查看采集历史中采集的所有信息内容;
同时,在内容管理-文章系统对应的栏目下,还可以查看采集的存储信息;在没有过滤和完善的情况下,我们需要删除文章管理中的采集记录和历史记录中的采集记录,然后重新设置采集规则和单击 采集。
过滤规则的意思是我们要将采集网站中的一些内容替换为其他内容,比如替换后的文本
注意:采集第三步,设置标签,可以在模型管理-字段管理采集中选择允许启用哪些字段;
2、过滤规则管理
添加过滤规则和管理过滤规则。添加过滤器名称,替换方法,查找内容,选择是否启用。
添加确认操作后。返回过滤规则管理,可以编辑添加的过滤规则。
3、采集历史
管理采集历史。支持快速搜索历史记录和批量删除历史记录。