文章采集调用(换个网站你什么都做不了，这个教程是最详尽的教程)

优采云发布时间: 2021-09-17 07:05

　　·我看到很多网友对织梦（Dedecms）采集教程感到头疼。事实上，官方教程太笼统了，什么也没说。你不能在网站做任何事情。本教程是最详细的教程。你一眼就能学会

　　首先，打开织梦background并单击采集-采集节点管理-添加新节点

　　这里我们以采集普通文章为例。我们选择普通文章然后确认

　　我们进入了采集的设置页面，并填写了节点名称，即为新节点命名。你可以在这里填写任何名字

　　然后打开所需采集的文章列表页面。在这里，我们以织梦官方网站为例打开此页面。右键单击以查看源文件

　　在字符集之后查找目标页代码

　　页面和其他页面的基本信息通常并不重要。填写后，请参见图

　　现在，让我们填写URL获取规则列表

　　请看文章列表第一页上的地址

　　比较第二页上的地址

　　我们发现它们除了49外，后面的数字是不同的，其他的都是一样的，所以我们可以这样写

　　（*）.html

　　只需将1替换为（*），因为这里只有2页，所以让我们填写从1到2的增量。当然是1。2-1... 等于1

　　我们到此为止

　　可能您的一些采集列表没有规则，因此您必须手动指定列表URL，如图所示

　　每行写一页地址

　　当列表规则完成后，我们开始编写文章URL匹配规则并返回文章list页面

　　右键单击以查看源文件，并在区域的开头找到HTML，这是搜索文章列表开头的符号

　　我们可以很容易地在图中找到“新闻列表”。从这里开始，列表上的是文章

　　让我们在列表的末尾找到文章HTML

　　就是这样，一个很容易找到的标志

　　如果链接收录图片：

　　不要将采集处理为缩略图。根据您的需要选择

　　重新筛选区域网址：

　　（使用正则表达式）

　　必须包括：（优先于后者）

　　不能收录：

　　打开源文件时，您可以清楚地看到文章链接以结尾。HTML

　　因此，我们必须填写。收录后的HTML。如果有些清单很麻烦，我们也可以填写那些不能包括在内的清单

　　我们点击保存设置进入下一步，我们可以看到我们获得的文章网站

　　看到这一点是对的。我们保存信息并进入下一步设置内容字段获取规则

　　让我们看看文章是否有分页，然后随机输入一个文章。。我们看到这里有文章没有分页

　　所以这里我们默认

　　现在让我们来查找文章标题等等。只需输入一篇文章文章并右键单击即可查看源文件

　　看看这些

　　根据源代码填写

　　让我们填写文章开头和结尾

　　如上所述，找到开始和结束标志

　　开始：

　　完:

　　如果要在文章中过滤任何内容，请将其写入过滤规则，例如在文章中过滤图片@

　　选择常用规则

　　再次检查img

　　然后决定

　　通过这种方式，我们过滤文本中的图片

　　设置完成后，单击“保存设置并预览”

　　这样一个采集规则是编写的。这很简单。有些网站很难写，但我们需要更加努力

　　我们点击保存并开始采集-start采集网页，采集将在一段时间内完成

　　让我们看看我们采集k7得到了什么@

　　这似乎是一次成功。让我们导出数据

　　首先，选择要导入的列，然后按“请选择”在弹出窗口中选择要导入的列发布选项。除非您不想立即发布，否则它通常是默认值。默认情况下，每批导入有30个条目。它是否被修改并不重要。附加选项通常为“排除重复标题”。至于自动生成HTML的选项，建议不要先生成它，因为我们必须批量提取摘要和关键字

0

2021-09-17

文章采集调用

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章采集调用(换个网站你什么都做不了，这个教程是最详尽的教程)

0 个评论

发起人

AI时代内容工厂

文章采集调用(换个网站你什么都做不了，这个教程是最详尽的教程)

0 个评论

发起人

相关问题