网页中“右键点击”——查看源码(图)
优采云 发布时间: 2021-07-29 07:53
网页中“右键点击”——查看源码(图)
我们可以用这个作为内容开始的标志,但这并不完美。请自行打开几个内容页面,页面中“右键”-“查看源代码”,然后比较代码,提取相同的部分,我用
作为内容开始的标志。
接下来看内容结束标记,如下两张图所示:
以下是根据us采集设置的规则返回的内容
一般来说采集返回的内容从头到尾都会收录必须排除的内容、广告或链接。这里我们需要排除的内容是“相关话题>>>第六届金鹰电视艺术节”。排除的方法是找到对应的代码,将代码完整复制到内容排除窗口中,修改后的部分用“(*)”代替。因为这是整个站点的规则,所以你必须多找几个类别。比如现在的163娱乐还包括“名人|图片|电影|电视|音乐|论坛|专题|名人专访”等等,这里我只摘录“明星、图片、电影”作为列子给大家讲解。寻找其他类别只是为了使规则具有普遍性和完善性。如果您只需要一个类别,例如“图片”,那么您可以直接制定此规则。
这个页面正好有分页,所以顺便说一下下一页和下一页的设置。他这边的“上一页”和“下一页”是用图片链接的,所以不要复制图片的名称(右键点击对应图片查看属性,复制图片名称)复制到对应的代码框。是的,详细看图:
在这个提示下,要排除任何内容,只需要找到对应的代码,复制到代码排除窗口中,将变量部分替换为“(*)”即可。既然他这边没有广告,就算把整个站点的规则都做完了,点击保存进入单任务制作。嗯,全站的规则就讲这两个标签,其他的根据需要按照上面的步骤添加。记住,永远不要改变。其他问题请到优采云采集器论坛:讨论。
二、以下解释单任务规则的产生:
1、content 的制作规则,很多人可能不明白优采云采集器好在哪,我现在说的绝对是优采云的独到之处(至少到目前为止,我不知道以后有没有人有同样的功能!)
优采云采集器不需要通过URL规则直接进入内容采集,所以可以根据网站的难度决定采集是否选择目标源,而是等URL@之后采集发现网站你不能选或者不值得你浪费时间(之前的时间没用!)。
优采云v3.0 最大的功能之一就是可以继承网站的规则。只要你之前制定的规则是通用的,你就不需要为后面的所有任务制定内容采集规则。由于我们之前制定的采集规则是通用的,这里不需要解释规则,直接继承站点,如图:
2、URL采集规则制作
步骤:“新建”-“新建任务”,其他操作如下:
要制定规则,您需要善于发现常规事物。此时采集没问题。我们要这里采集例子的地址
本板仅以采集第1-3页为例。我们发现每个叶子的URL开头都收录“过去的娱乐热点”,结尾是“Page 1 2...”,所以请将html源代码中的相应代码复制到特定区域采集范围内,另外,URL必须收录“/06/”,这样URL采集就完成了(简单,自己试试),如下图:
3、posting 方法。发布方式有5种,这里以最常用的“在线发布”为例。
选择要在线发布的web到网站,点击“定义全局发布方式”,然后按照系统提示的步骤操作: 选择发布模块——“填写网站/cms根地址——》使用优采云内置浏览器登录——》登录后关闭内置浏览器——》刷新列表——》测试模块,测试成功——》保存配置——》保存任务——》发布下图高亮部分就是你要操作的步骤,从左到右,从上到下:
以下是我采集测试到本地论坛采集的两张截图: