全自动文章采集、AI生成、自动发布，网站自媒体全搞定！立即注册

网易新闻等大型门户网站一个2级频道的首页

优采云发布时间: 2021-03-16 09:06

　　

网易新闻等大型门户网站一个2级频道的首页

　　整个网站采集

　　{成功}整个站点采集的简单用法场景：每个人采集搜狐。大型门户网站，例如网易新闻网站。通常，他的数据分类特别完整，更不用说主页了，门户网站是2级通道的主页。下面有很多类别，并且每个子类别的数据也非常快速地更新。如果我们希望采集在他的一页上有多个数据块，对应于我们网站的一个类别，那么我们经常需要维护多个规则以对应于我们网站的一个类别。维护工作繁琐，整个站点采集可以帮助我们减轻负担。

　　{info}所有页面采集，采集当前页面上的所有文章链接均符合我们的要求。

　　

　　右键单击以查看网页的源代码：找到其所有故事详细信息页面的网址

　　请注意，他的故事详细信息页面的地址是相对路径：但是，胖老鼠会在采集采集出现时自动完成其链接地址

　　

　　在源代码页上Ctrl + A（全选）Ctrl + C（复制）

　　打开在线正则表达式网站

　　Ctrl + V（粘贴）

　　

　　能够匹配一个不是我们的目标。我们的目标是匹配页面上所有文章个详细的网址

　　然后我们修改正则表达式的规则

　　最初是这样的/ aqgs / 1405 8. html

　　首先让我们修改以下数字以使用\ d +（\ d表示匹配数字+至少一次）

　　修改/aqgs/\d+.html

　　后，它看起来像这样

　　

　　看到我们已经匹配了该频道的26个链接。

　　检查后，我发现其他频道与此频道模板相同。

　　说明详细规则可以共享，然后优化常规规则。

　　修复后，它看起来像是/aqgs/\d+.html

　　让我们首先修改前一个字符\ w +（\ w至少一次匹配文本或数字或下划线+）

　　再次修改后，看起来像是/ \ w + / \ d + .html

　　

　　好的，我们成功匹配了260个文章链接，现在我们可以编写规则了

　　

　　

　　注意：如果要测试URL并将其与添加的域标头匹配，则可以执行此操作。

　　保存并运行

　　

　　

　　后续的完整站点采集添加了详细的定时采集功能，可用于实时监视目标网站，主页或复杂页面以及多个热更新数据块。采集我稍后会再次过滤。

　　当然，这是Fat Mouse对此功能的理解。您可以根据需要更灵活地使用它。

　　注意：如果要测试URL并将其与添加的域标头匹配，则可以执行此操作。

　　

　　

　　

　　

　　最终结果。这样就可以获得正确的规律性

　　关于常规语法。你们应该熟悉它，

　　如果您不理解，则可以搜索：正则表达式语法

　　{成功}让我们先做一次，再见。

0

2021-03-16

实时文章采集

0 个评论

要回复文章请先登录或注册

视
频
教
程

官方客服QQ群

在
线
客
服