我觉得这种采集技术写得很好. 让我们看一下.

优采云发布时间: 2020-08-06 13:01

　　设置列表采集规则相对简单. 获取列表的主要方法有三种: 批量生成列表URL，并通过系统自动生成批量地址列表. 手动指定列表URL和手动指定列表页面；从RSS Get，通过RSS文件获取列表页面. 例如，如果我们只需要采集一个列表页面，我们只需要采集: ，只要这10条内容，那么我们只需要在匹配的URL中填写此URL.

　　如果我们采集多个列表的内容，则可以通过自动生成或指定多个列表页面来完成.

　　让我们检查下一个列表页面，我们单击以下内容

　　点击标签后，我们会在地址栏中看到地址:

　　...

　　很容易发现，此URL列表中只有“ .html”前面的内容正在更改. 从2到10，让我们更改为1并尝试: 我们发现这是我们列的主页，因此我们可以自动指定A规则.

　　单击匹配URL后面的“测试”按钮以查看并发现我们已成功获取此列表.

　　或者我们选择手动指定，然后在URL列表中指定:

　　当然，此列表部分的规则具有更*敏*感*词*，例如，您可以指定列表列的导入内容. 有关此部分的详细设置，请参阅Weaving Dream帮助中心:

　　我们已经在此处设置了列表地址. 接下来，我们需要设置商品网址匹配规则. 此匹配规则使我们可以采集文章列表，并告诉服务器在哪里采集文章. 在采集此文章列表之前，让我们阅读一些收录文章列表的A页面.

　　让我们看看这些列表的页面. 不变的部分是顶部的导航，右侧的推荐信息以及底部的内容. 主要更改是列表的标题和内容. 我们采集列表文章. 它是采集列表中文章标题的一部分. 如果我们了解HTML代码的观察，最直接的表现就是HTML代码的列表页面部分的内容已更改.

　　因此，当指定集合列表页面时，我们只需要指定统一的规则，因为列表页面相同，因此此规则适用于所有列表页面. 当然，我们还将发现内容页面也是如此. 采集时，您只需指定统一规则即可采集所有相似页面的内容.

　　当然，有一些网站列表链接到其他内容，因此您会遇到采集规则不匹配的问题. 通常，由于规则不适用，因此无法采集内容. 另一个性能是采集进度栏不会移动并终止. 在那里，有时甚至会报告错误. 这些原因的主要原因是规则与目标采集网站不匹配，因此在采集内容之前请确保规则的正确性.

　　接下来，我们设置列表采集页面的采集规则. 我们首先查看源文件，右键单击IE浏览器，然后选择[查看源文件]打开列表页面的源代码.

　　如果有DW，请将这些代码复制到DW，我们将找到该列表的位置:

　　此列表的内容位于“

　　“”也就是说，我们需要告诉服务器从此处采集列表的标题，然后直到采集该层的末尾为止，我们看到该层的末尾是“

　　”，在中间找不到相同的代码.

　　我们需要在这里告诉大家的是我们的规则，告诉服务器起始HTML标记必须是唯一的，也就是说，您在此页面上仅具有此标记，以便计算机知道从何处开始. 这个地方结束了.

　　在编写采集规则时，您将花费大量时间来查找唯一标识符. 使用这些标识符，服务器知道它可以捕获内容.

　　我们现在已经达到了此列表的范围，在“

　　”和“

　　”，因此请填写采集规则的“该区域开头的HTML: ”和“该区域结尾的HTML: ”，然后服务器会将这两者之间的所有链接作为文章列表继续采集.

　　但是有一个问题. 在我们的列表规则中，并非所有超链接都是该目标采集的所有文章. 例如，在我们采集的该页面中，除了这种文章页面之外，还存在一个注释页面，我们需要继续采集的页面是内容页面，因此我们需要过滤掉这些内容页面. 继续采集.

　　有两种方法可以过滤这些页面上的梦境编织集合: 1.必须收录，这是所采集的超链接中必须收录的内容； 2.无法收录，所采集的地址中不能收录什么内容，因此我们通常使用以下两种方法之一. 通过观察我们可以看到，我们需要采集的内容页面的地址不收录“ feedback.php”，因此我们在这里使用dropback.php过滤所有超链接，其余就是我们的文章连接.

　　还有缩略图处理. 我们可以使用默认值. 设置完成后，我们保存并测试是否可以采集内容.

　　我们发现我们可以成功采集文章的标题列表信息:

　　此时，我们的列表信息已采集. 接下来，我们将设置内容页面的采集规则. 此采集规则也与列表页面的采集规则非常相似. 主要功能是从重复的内容页面获得不同的内容. 内容，让我们在下面采集内容.

　　我们首先打开文章的内容，然后将该网页的源代码复制到DW工具中进行查看:

　　我们可以在此页面的源代码中看到“标题”和“文章内容”，然后我们将设置内容采集规则.

　　在新版本的V5.3中，如果页面中收录关键字和摘要，则系统将自动采集它，即在页面代码中:

　　这两个部分的内容将被自动采集. 当然，许多用户想要自己设置或生成，那么我们将在此处使用过滤规则来过滤自动采集的内容.

　　我们在“关键字过滤内容”和“摘要过滤内容”中填写过滤规则:

　　{dede: trim replace =“”}（. *）{/ dede: trim}

　　在这里我们讨论这个过滤规则，{dede: trim replace =“”}正则表达式{/ dede: trim}，在{dede: trim}标签中间使用正则表达式来搜索采集的内容. 字符串，如果需要替换搜索到的内容，则需要指定replace属性.

　　例如，如果我们在获取内容字段时只是将所有关键字替换为空，那么如果默认情况下指定了关键字，则可以这样编写:

　　{dede: trim replace =“ DedeCMS，织梦，演示站”}（. *）{/ dede: trim}

　　由于我们主要在此处进行演示，因此我们采集了2个主要字段，一个是内容的标题，另一个是文章的内容，因此我们需要在两个地方制定匹配规则.

　　我们设置了文章标题匹配规则，因为常规内容标题将出现在两个标签“”和“”之间，因此我们只需要将标题匹配规则设置为默认的“ [Content]”即可. 但是有一件事，让我们看一下采集的目标电台的标题:

　　他在每个标题中都添加了“ _weaving dreams非官方演示站点”，因此我们需要在指定规则中删除这部分内容，只需简单地修改匹配规则，就将其修改为“ [content] _Dream Weaving Unofficial Demo”网站”，以便我们完成标题匹配规则的编译.

　　匹配规则. 在匹配区域规则中，规则通常为“开头没有重复的HTML [内容]末尾没有重复的HTML”（正常匹配，非常规）.

　　接下来，我们为文章内容设置匹配规则. 该匹配规则有点类似于标题的匹配规则. 我们只需要找到唯一的HTML起始标签和HTML结束标签.

　　我们与刚才指定的文章列表规则相同，找到的文章的内容收录在图层中”.

　　”和“

　　“在这两层标记的中间，因此我们指定的匹配规则也相同. 我们根据上面的匹配规则的定义设置以下匹配规则:

　　[内容]

　　当然，采集的内容中会有一些不希望的超链接. 这时，我们需要清除这些内容，并且需要使用过滤规则. 该过滤规则与现在的过滤规则相同，但是系统附带了一些常用规则和规则，让我们来看一下:

　　设置过滤规则后，它将在集合中产生不同的效果.

　　当然，这里需要在“内容采集”部分中说明一些小选项，其中一个是“分页内容”字段，仅当您正在采集多页内容时才显示此内容，您需要设置从标签的开头和结尾开始设置分页集合，设置方法和匹配规则是相同的.

　　下载字段中的多媒体资源. 这是采集过程中某些多媒体领域的附件. 通常，仅支持某些图片和一些Flash下载. 如果无法采集许多图片，则可能是服务器造成的. ，或者本地服务器不支持它，或者另一方的服务器已采取措施防止采集.

　　自定义处理界面，这主要是通过一些功能来处理网页的内容，我们可以设置一个简单的自定义处理界面，因为采集的内容可能收录HTML代码，那么我们将采集的内容全部转换为txt文本，您可以在其中使用自定义处理界面，我们将内容设置如下:

　　@ me = html2text（@me）;

　　所以我们可以保存采集规则，到目前为止，我们已经完成了规则编写部分，然后开始采集内容:

　　接下来，我们开始采集节点的内容

<p>采集完成后，我们导入到相应的列. 如果我们之前设置了导出列，则可以检查: 使用采集规则中指定的列ID（如果目标列ID为0，则使用上面选择的列），设置后，可以将其导入到列中

0

2020-08-06

网站内容采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

我觉得这种采集技术写得很好. 让我们看一下.

0 个评论

发起人

AI时代内容工厂

我觉得这种采集技术写得很好. 让我们看一下.

0 个评论

发起人

相关问题