采集规则 采集 data-src(9SiR优采云采集器:新手如何写采集规则教程)

优采云 发布时间: 2021-12-17 22:12

  采集规则 采集 data-src(9SiR优采云采集器:新手如何写采集规则教程)

  优采云采集器入门教程:如何编写采集新手规则

  优采云采集器是一款非常不错的数据采集软件,也是目前网络上最流行的采集工具,但是相对专业很多优采云@ >< @采集器新手感觉无从下手,今天教新手朋友如何快速使用优采云采集数据。本文为百度经验系列教材《9SiR优采云采集器教程》。欢迎查收:

  首先说一下网站的结构。通常,网站 结构是树结构。一个网站主要收录以下几类页面:首页、栏目页面、文章页面。其结构如下:

  第二步是优采云采集的原理,优采云的操作需要一套规则来指定如何采集需要的数据,也就是你需要写优采云采集规则,写采集规则也是新手最头疼的问题。

  优采云采集器通常通过URL抓取网站返回的源码,然后从源码中提取需要的信息。所以采集数据需要先是采集 URL,然后是采集数据。

  让我们开始编写 采集 规则:

  1.运行 LocoyPlatform.exe

  2. 在左侧的“任务列表树”中,选中一个组,右键单击,选择“新建任务”,弹出新建任务对话框。填写任务名称,网站代码一般自动选择,

  3.添加起始地址

  填写“第一步:采集URL规则”这里需要按照网站的树状结构一步步获取下一级结构的URL,直到得到内容的URL页。首先填写起始网址,通常是目标站的主页地址。点击“添加”,在单个URL中填写优采云博客的首页地址,然后依次点击“添加”->“完成”。

  4.编写“多级URL获取”规则

  这里需要在起始地址页面找到所有需要采集的栏目页面的代码区,首先查看起始页地址的源码,找到如图所示的代码区:

  点击右侧的“添加”按钮,打开“添加多级URL采集规则”,选中“自动分析页面获取地址链接”单选按钮,下方的“从selected area", "from"(Left)文本框填入列地址码区开始前的图标码(保证其在页面上的唯一性),填入列地址码后的图标码在“to”右侧文本框中的区域,在“Result URL Filtering”的“Must contains”和“Must not contains”文本框中填写相应的代码。如果该区域没有多余的链接,则无需过滤,无需填写。此处的列URL 必须收录“category-”。然后点击“保存”

  5.现在需要获取内容页面的地址。先打开栏目页查看源码,找到内容页地址所在的区域和地址法。按照上一步的方法,先填写内容页面所在区域的起始和结束符号代码,然后分析该区域收录的链接以及我们所说的需要的内容页面地址的链接规则, 并添加过滤代码。这里开始代码是“”,结束代码是“

  ”过滤器代码必须收录“read-”,不能收录“#”。如图:

  需要注意的是,文章里面有很多页面,所以需要填写“列表页面访问”规则。通常只需要指定分页码的区域,如果需要,可以填写“组合生成列表分页”规则。这里的列表分页规则的代码实际上是“”,结束代码是“title="Next Page">”。如果勾选“自动识别分页符”,a 标签的 href 属性将被自动提取。如果不勾选自动识别,则需要填写组合分页符生成列表页的规则。

  然后保存并返回。可以使用“Test URL 采集”来测试规则是否正确,如果不正确,可以返回修改规则,如果正确,可以开始写“第二步采集 内容规则”。

  6.编写“第二步采集内容规则”

  首先打开内容页和内容页的源代码,找到要提取的信息的前后代码特征。以提取标题和内容为例。先复制文章标题,然后查看标题出现的源码。在每篇文章中找一个前后代码相同的地方文章。本例中有 3 个位置。第二位的代码没有其他干扰代码。点击“添加”,标签名称填写“标题”,选择截取前后的数据提取方式,前后代码分别为“”和“”。如果采集的内容需要进一步处理(如替换、删除编码转换过滤html等),点击“添加”

  添加另一个标签,标签名称为“内容”,按照上述方法填写内容前后的代码片段。需要注意的是,最好不要有不完整的标签(如:”

  ",一个完整的标签应该以""结尾,如果每个内容页面上内容之间的内容部分不同,则将不同的部分替换为(*)),否则提取的内容将收录部分不完整的标签。通常是正文收录更多的HTML,可以添加HTML过滤功能,建议只保留段落(p)、图片(img)、换行(br)等标签。

  7.测试内容采集规则

  保存规则后,返回采集内容规则页面,在右侧“规则测试”的典型页面文本框中填写内容页面地址,然后点击测试。如果下面显示的内容符合预期的描述,就可以了。如果没有获取到内容或者内容有误,返回查看并修改规则。

  8.开始采集

  选择您要采集的任务规则,勾选“采集URL”和“采集内容”的复选框,然后单击工具栏上的“开始”按钮。

  9.后续工作

  采集 接收到的数据保存在数据库中。可以右击任务名称,选择“打开DATA下的任务文件夹”,打开数据库所在的位置。数据库可以通过ACCESS打开和编辑。如果要重新采集,需要右击选择“清空此任务URL库”和“清空所有任务采集数据”。

  备注:一要边做边坚持,二要重复测试,三要耐心。

  如果您对数据采集、发布模块、插件开发等有任何疑问,欢迎随时联系我。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线