最新采集器(【示例】以采集示例详解部分功能(图) )
优采云 发布时间: 2021-11-21 21:10最新采集器(【示例】以采集示例详解部分功能(图)
)
使用采集例子详细解释一些功能
今天给大家举个例子网站是163的娱乐频道,这个应该是比较通用和实用的规则。下面开始吧。
如果你是优采云采集器的老手,那你可以参考一下,因为我要解释的会和传统思维背道而驰;如果您是新手,那么您最好仔细阅读,因为这将加快您的入门速度,并为您节省大量的时间。下面是采集的一些基本步骤,大家可以灵活使用:
一、创建站点
1、请先打开优采云采集器,新建一个站点,如下图:
<IMG title=点击在新窗口中浏览此图片 alt=点击在新窗口中浏览此图片 src="https://img.gxlcms.com//Uploads-s/new/2019-09-21-201921/2007317112729509.jpg" border=0>
为方便管理,您可以为您的站点选择任何您觉得容易记住的名称,但我建议使用目标源的名称作为站点的名称,以方便以后的管理,如下图所示
<IMG title=点击在新窗口中浏览此图片 alt=点击在新窗口中浏览此图片 src="https://img.gxlcms.com//Uploads-s/new/2019-09-21-201921/2007317112729992.jpg" width=500 border=0>
大多数站点通常只有一组模板或几组类似的模板。这里所谓的相似是指模板中的标记非常接近。那么什么是模板标记呢?模板标记是指内容某一部分的开始和结束标记。比如很多正规的网站(通常是一些网站比较大,内容比较多网站,比如新浪、163等)会在开头使用类似或者相近的标志content 表示内容的开始。他们这样做有两个原因。一是因为内容量大,为各部门之间的合作做了相应的标记,方便项目的交接。另一个原因是需要内容控制。随着xhtml的流行,使用的控制层数越来越多,这让我们越来越容易找到采集(后面你会明白)。我上面讲了这些,因为接下来要说明的是整个网站的内容规则。
2、标题标签的描述。对应的页面在这里:
先从“站点基本信息”切换到“完整站点内容规则”,然后将内容页面的URL复制到采集到“典型页面”,然后点击“测试”阅读源码。先从title标签开始,我们发现默认标签采集返回的title是“_网易娱乐”。请双击标题标签或选中标题标签点击修改,排除内容添加“_网易娱乐”。在框中,标题标签已完成。如图:
<IMG title=点击在新窗口中浏览此图片 alt=点击在新窗口中浏览此图片 src="https://img.gxlcms.com//Uploads-s/new/2019-09-21-201921/20100726122007966.jpg" border=0>
3、 内容标签说明。制作采集 规则(任务)的任何标签最重要的是找到开始和结束的标志。目前,大部分采集器都要求开始和结束标志必须是整个源代码的唯一标志,即在所有html源代码中只能找到一个开始或结束标志。但是优采云采集器不需要这样做,你只需要从上到下找到第一个标志即可。我的意思是,允许 n 个 html 代码相同。开始(结束,下同)标记,但只要我们想要采集的内容的地方的标记是html中从上到下的第一个。打开任意一个内容页面,这里举个例子,我们发现他的内容来自“进入论坛”,于是双击代码测试框找到需要的代码,
<IMG title=点击在新窗口中浏览此图片 alt=点击在新窗口中浏览此图片 src="https://img.gxlcms.com//Uploads-s/new/2019-09-21-201921/20100726122007723.jpg" border=0>
我们可以以此作为内容开始的标志,但这并不完美。请自行打开几个内容页面,在页面中“右键单击”-“查看源代码”,然后比较代码并提取相同的部分。标记内容的开始。
<IMG title=点击在新窗口中浏览此图片 alt=点击在新窗口中浏览此图片 src="https://img.gxlcms.com//Uploads-s/new/2019-09-21-201921/20100726122007803.jpg" border=0>
接下来看一下内容标记的结尾,如下两张图所示:
<IMG title=点击在新窗口中浏览此图片 alt=点击在新窗口中浏览此图片 src="https://img.gxlcms.com//Uploads-s/new/2019-09-21-201921/20100726122007146.jpg" border=0>
<IMG title=点击在新窗口中浏览此图片 alt=点击在新窗口中浏览此图片 src="https://img.gxlcms.com//Uploads-s/new/2019-09-21-201921/2007317112732878.jpg" border=0>
以下是根据我们设置的规则返回的内容采集
<IMG title=点击在新窗口中浏览此图片 alt=点击在新窗口中浏览此图片 src="https://img.gxlcms.com//Uploads-s/new/2019-09-21-201921/20100726122007316.jpg" border=0>
一般来说,采集 返回的从开始标记到结束标记的内容都会收录必须排除的内容、广告或链接。这里我们需要排除的内容是“相关话题>>>第六届金鹰电视艺术节”。排除的方法是找到对应的代码,将代码完整复制到内容排除窗口中,修改后的部分用“(*)”代替。既然这是整个网站的规则,你必须多找几个类别。比如现在的163娱乐还包括“名人|图片|电影|电视|音乐|论坛|专题|名人专访”等等,这里我只摘录“明星、图片、电影”作为列子给大家讲解。寻找其他类别只是为了使规则具有普遍性和完善性。
这个页面正好有分页,所以顺便说一下下一页和下一页的设置。他这边的“上一页”和“下一页”都是用图片做链接的,所以就不要复制图片的名字(右键对应图片查看属性,复制图片名)复制进去对应的代码框。是的,详细看图:
<IMG title=点击在新窗口中浏览此图片 alt=点击在新窗口中浏览此图片 src="https://img.gxlcms.com//Uploads-s/new/2019-09-21-201921/2007317112732132.jpg" border=0>
在这里的提示下,要排除任何内容,只需找到相应的代码,将其复制到代码排除窗口中,并将变量部分替换为“(*)”即可。既然他这边没有广告,就算整个站点的规则都做完了,点击保存进入单任务制作。嗯,全站的规则就讲这两个标签,其他的根据需要按照上面的步骤添加。记住,永远不要离开相同的。其他问题请到优采云采集器论坛:讨论。
二、下面解释单任务规则制定:
1、 内容规则的产生,很多人可能还是不明白优采云采集器好吧,我现在说的绝对是优采云的一个独特的功能(至少到目前为止,尚不清楚将来是否有人会拥有相同的功能!)
优采云采集器不需要通过URL规则直接输入内容采集,可以根据难度决定是否采集选择的目标源网站,你不用等到URL采集 才发现你不能选择这个网站 或者不值得你浪费时间(以前的时间没用!)。
优采云v3.0 最大的功能之一就是可以继承网站的规则,只要你之前制定的规则是通用的,那么你就不需要再做任何内容了对于后面的所有任务采集 规则都起来了。由于我们之前制作的内容采集是有通用规则的,这里就不用解释规则了,直接继承站点,如图:
<IMG title=点击在新窗口中浏览此图片 alt=点击在新窗口中浏览此图片 src="https://img.gxlcms.com//Uploads-s/new/2019-09-21-201921/20100726122007327.jpg" border=0>
2、URL采集 规则制定
步骤:“新建”-“新建任务”,其他操作如下:
<IMG title=点击在新窗口中浏览此图片 alt=点击在新窗口中浏览此图片 src="https://img.gxlcms.com//Uploads-s/new/2019-09-21-201921/20100726122007735.jpg" border=0>
要制定规则,您需要善于发现规则的事物。在这一点上,采集 没有任何问题。我们想要采集 例子的地址在这里
本板仅以采集第1-3页为例。我们发现每片叶子的URL开头都收录“Past Entertainment Hotspots”,结尾是“Page 1 2...”,所以请将html源代码中的相应代码复制到特定区域采集范围内另外,URL必须收录“/06/”,这样URL采集就完成了(简单,自己试试),如下图:
<IMG title=点击在新窗口中浏览此图片 alt=点击在新窗口中浏览此图片 src="https://img.gxlcms.com//Uploads-s/new/2019-09-21-201921/20100726122007629.jpg" border=0>
3、发布方式。发布方式有5种,这里以最常用的“在线发布”为例。
选择要在线发布的web到网站,点击“定义全局发布方式”,然后按照系统提示的步骤操作: 选择发布模块-》填写网站/<的根地址@cms-》使用优采云内置浏览器登录——》登录后关闭内置浏览器——》刷新列表——》测试模块,测试成功—— ——》保存配置——》保存任务——》发布如下图亮的部分是你要操作的步骤,从左到右,从上到下:
<IMG title=点击在新窗口中浏览此图片 alt=点击在新窗口中浏览此图片 src="https://img.gxlcms.com//Uploads-s/new/2019-09-21-201921/2007317112735678.jpg" border=0>
下面是我采集到本地论坛采集测试的两张截图:
<IMG title=点击在新窗口中浏览此图片 alt=点击在新窗口中浏览此图片 src="https://img.gxlcms.com//Uploads-s/new/2019-09-21-201921/20100726122007443.jpg" border=0>
<IMG title=点击在新窗口中浏览此图片 alt=点击在新窗口中浏览此图片 src="https://img.gxlcms.com//Uploads-s/new/2019-09-21-201921/20100726122007383.jpg" border=0>