文章采集调用(换个网站你什么都做不了,这个教程是最详尽的教程)
优采云 发布时间: 2021-09-17 07:05文章采集调用(换个网站你什么都做不了,这个教程是最详尽的教程)
·我看到很多网友对织梦(Dedecms)采集教程感到头疼。事实上,官方教程太笼统了,什么也没说。你不能在网站做任何事情。本教程是最详细的教程。你一眼就能学会
首先,打开织梦background并单击采集-采集节点管理-添加新节点
这里我们以采集普通文章为例。我们选择普通文章然后确认
我们进入了采集的设置页面,并填写了节点名称,即为新节点命名。你可以在这里填写任何名字
然后打开所需采集的文章列表页面。在这里,我们以织梦官方网站为例打开此页面。右键单击以查看源文件
在字符集之后查找目标页代码
页面和其他页面的基本信息通常并不重要。填写后,请参见图
现在,让我们填写URL获取规则列表
请看文章列表第一页上的地址
比较第二页上的地址
我们发现它们除了49外,后面的数字是不同的,其他的都是一样的,所以我们可以这样写
(*).html
只需将1替换为(*),因为这里只有2页,所以让我们填写从1到2的增量。当然是1。2-1... 等于1
我们到此为止
可能您的一些采集列表没有规则,因此您必须手动指定列表URL,如图所示
每行写一页地址
当列表规则完成后,我们开始编写文章URL匹配规则并返回文章list页面
右键单击以查看源文件,并在区域的开头找到HTML,这是搜索文章列表开头的符号
我们可以很容易地在图中找到“新闻列表”。从这里开始,列表上的是文章
让我们在列表的末尾找到文章HTML
就是这样,一个很容易找到的标志
如果链接收录图片:
不要将采集处理为缩略图。根据您的需要选择
重新筛选区域网址:
(使用正则表达式)
必须包括:(优先于后者)
不能收录:
打开源文件时,您可以清楚地看到文章链接以结尾。HTML
因此,我们必须填写。收录后的HTML。如果有些清单很麻烦,我们也可以填写那些不能包括在内的清单
我们点击保存设置进入下一步,我们可以看到我们获得的文章网站
看到这一点是对的。我们保存信息并进入下一步设置内容字段获取规则
让我们看看文章是否有分页,然后随机输入一个文章。。我们看到这里有文章没有分页
所以这里我们默认
现在让我们来查找文章标题等等。只需输入一篇文章文章并右键单击即可查看源文件
看看这些
根据源代码填写
让我们填写文章开头和结尾
如上所述,找到开始和结束标志
开始:
完:
如果要在文章中过滤任何内容,请将其写入过滤规则,例如在文章中过滤图片@
选择常用规则
再次检查img
然后决定
通过这种方式,我们过滤文本中的图片
设置完成后,单击“保存设置并预览”
这样一个采集规则是编写的。这很简单。有些网站很难写,但我们需要更加努力
我们点击保存并开始采集-start采集网页,采集将在一段时间内完成
让我们看看我们采集k7得到了什么@
这似乎是一次成功。让我们导出数据
首先,选择要导入的列,然后按“请选择”在弹出窗口中选择要导入的列发布选项。除非您不想立即发布,否则它通常是默认值。默认情况下,每批导入有30个条目。它是否被修改并不重要。附加选项通常为“排除重复标题”。至于自动生成HTML的选项,建议不要先生成它,因为我们必须批量提取摘要和关键字