干货教程:优采云采集器3.0采集图文教程
优采云 发布时间: 2022-12-17 07:44干货教程:优采云采集器3.0采集图文教程
以采集为例详细解释部分功能
网站 今天给大家举个例子是163的娱乐频道。这应该是一个比较通用和实用的规则。开始吧。
如果你是优采云采集器的老手,那你可以参考一下,因为我要说明的东西会违背传统思维;如果您是新手,那么您最好仔细阅读它,因为这会加快您的入门速度,同时为您以后节省大量时间。以下是您可以使用的一些基本 采集 步骤:
1.建立站点
1、请先打开优采云采集器,新建一个站点,如下图:
为了方便管理,您可以为您的站点选择任何容易记住的名称,但我建议使用目标源的名称作为站点名称,以方便日后管理,如下图所示
大多数站点通常只有一组模板或几组类似的模板。这里所谓的相似是指模板中的标签非常接近。那么什么是模板标签呢?模板标签是指某部分内容的开始和结束标记。比如很多正规的网站(通常是一些站点比较大,内容比较多的网站,比如sina,163等)会使用类似或者
和其他标志来指示内容的开始。他们这样做有两个原因。一是由于内容较多,各部门之间的配合也做了相应的标注,以方便项目的交接。另一个原因是需要内容控制。随着xhtml的流行,使用的图层控件越来越多,这让我们更容易找到采集标记(这一点后面你会慢慢明白)。我在上面告诉你这个是因为接下来我们要解释的是整个网站的内容规则。
2.标题标签说明。对应的页面在这里:
先从“站点基本信息”切换到“站点内容规则”,然后将内容页的URL复制到采集到“典型页面”,点击“测试”阅读源码。让我们从标题标签开始。我们发现默认标签采集返回的标题多了“_网易娱乐”。请双击标题标签或选择标题标签点击修改,排除内容框添加“_网易娱乐”,标题标签完成。如图所示:
3.内容标签说明。为 采集 规则(任务)制作任何标签最重要的是寻找开始和结束的标志。目前大部分采集器都要求开始和结束标记必须是整个源码中唯一的标记,即在所有html源码中只能找到一个开始或结束标记。但是优采云采集器不需要这样做,你要找的只是从上到下的第一个标志,我的意思是html代码中允许有n个相同的标志开始(完,下同)标记,不过只要我们要采集处的标记是html中从上到下的第一个标记即可。打开任意一个内容页面,以此为例,我们发现他的内容来自“进入论坛”,于是双击代码测试框,找到需要的代码,
我们可以将其作为内容开始的标志,但这并不完美。请自行打开几个内容页面,在网页中“右击”-“查看源代码”,然后比较代码,提取相同的部分。我通过
作为内容开始的标志。
接下来看内容结束标志,如下两图所示:
以下是根据我们的设置规则返回的内容 采集
一般来说,我们从开始标签到结束标签返回的内容采集都会收录必须排除的内容或者广告或者链接。这里需要排除的内容是“相关话题>>>第六届金鹰电视艺术节”。排除的方法是找到相应的代码,将代码完整复制到内容排除窗口中,将改动的部分替换为“(*)”。既然是全站的规矩,那就多找几个分类吧。比如目前163娱乐还包括“明星|图片|电影|电视|音乐|论坛|专题|名人专访”等。这里我只摘录“明星、图片、电影”作为列子给大家讲解。寻找其他类别只是为了使规则具有普遍性和完善性。如果你只需要一个类别,比如“图片”,那么你可以直接为这个做规则。
这个页面正好有分页,顺便说一下上下页的设置。他这边的“上一页”和“下一页”是用图片链接的,所以只要把图片的名字(对应图片右键查看属性,复制图片名称即可)复制到对应的代码框。是的,详情见图片:
这里提醒一下,要排除任何内容,只需要找到相应的代码复制到代码排除窗口中,将可变部分替换为“(*)”即可。由于他这边没有广告,所以就算全站所有的规则都创建好了,点击保存进入单任务创建。好了,整个站点的规则只讲这两个标签,其他的可以根据需要按照上面的步骤添加。记住,一切都是一样的。对于其他问题,请访问 优采云采集器 论坛:讨论。
2、下面解释单任务规则的创建:
1. 很多人还不明白优采云采集器在制定内容规则方面的优势。我现在说的绝对是优采云的独有功能(至少目前就是这样,不知道以后会不会有人想出同样的功能!)
优采云采集器可以直接输入内容采集,不用做URL规则,所以可以根据网站难易程度决定是否采集选择目标源,你不必等到 URL 采集 才发现这个 网站 你挑不出来或者不值得你花时间(之前的时间没用!)。
优采云v3.0最大的功能之一就是可以继承站点的规则。只要你之前制定的规则是通用的,你就不需要为后续的所有任务制定内容采集规则。由于我们前面做的内容的采集规则是通用的,这里就不用解释规则了,直接继承站点,如图:
2. 制定 URL 采集 规则
步骤:“新建”-“新建任务”,其他操作如下:
制定规则需要善于发现规律,做到这一点采集是没有问题的。我们在这里需要 采集 示例的地址
只有采集该板的第 1-3 页是示例。我们发现每个叶面的URL开头都是“过去的娱乐热点”,结尾是“Page 1 2...”,所以请复制html源码中对应的代码到具体区域采集 range 另外,URL中必须收录“/06/”,这样URL采集就搞定了(很简单,自己试试),如下图:
3、释放方法。发布方式有5种,这里我们以最常用的“在线发布”为例。
选择要在线发布到网站的web,点击“定义全局发布方式”,然后按系统提示操作:选择发布模块——》填写网站的根地址/ cms——》使用优采云内置浏览器登录——》登录后关闭内置浏览器——》刷新列表——》测试模块,测试成功——》保存配置——“保存任务——”发布如下图 亮部是你需要操作的步骤,从左到右,从上到下:
这是我刚才采集去本地论坛采集测试的两张截图:
解决方案:开普互联互联网信息采集系统 苏州 ERP网
产品描述:
为响应当前政府和企业在内容管理、知识管理和信息资源开发利用等方面的新要求,开普互联网推出了互联网信息采集平台。平台支持实现网页、各种常用数据文件和数据库内容的增量信息采集,以及采集接收到的互联网信息的自动分类、过滤、存储和发布,即素材内容管理发布系统的库可以大大提高网站内容的多样性和时效性。
产品架构图:
产品特点:
极强的采集能力系统最小扫描间隔可设置为1分钟,单机可支持采集数百条网站信息的工作,同时支持单机多线程,多机分布式信息集。
增量信息采集模式采用增量信息采集模式,采集子系统可以根据独特的扫描技术判断网页信息是否被抓取,无需下载所有网页,加快采集 并减少带宽使用。
支持内容过滤 通过网页结构分析的方法确定新闻报道的文字、图片和表格内容,自动去除广告等与新闻报道本身无关的信息。
支持多种网页类型采集子系统可以采集进行各种网页类型的信息,也可以采集JavaScript生成的动态超链接信息。
支持对采集信息进行分类过滤。系统根据规则自动对采集信息进行分类。同一个分类可以设置多个规则,支持关键词逻辑表达式。
应用场景:
·政府门户网站网站
·企业门户网站
·行业门户网站
·信息管理与服务系统
·知识管理系统
·信息安全检测、过滤、监控
典型用户:
·中央统战部网站
·中纪委内网门户
平台支持实现网页、各种常用数据文件和数据库内容的增量信息采集,以及采集接收到的互联网信息的自动分类、过滤、存储和发布,即素材内容管理发布系统的库可以大大提高网站内容的多样性和时效性。