网易新闻等大型门户网站一个2级频道的首页

优采云 发布时间: 2021-03-16 09:06

  

网易新闻等大型门户网站一个2级频道的首页

  整个网站采集

  {成功}整个站点采集的简单用法场景:每个人采集搜狐。大型门户网站,例如网易新闻网站。通常,他的数据分类特别完整,更不用说主页了,门户网站是2级通道的主页。下面有很多类别,并且每个子类别的数据也非常快速地更新。如果我们希望采集在他的一页上有多个数据块,对应于我们网站的一个类别,那么我们经常需要维护多个规则以对应于我们网站的一个类别。维护工作繁琐,整个站点采集可以帮助我们减轻负担。

  {info}所有页面采集,采集当前页面上的所有文章链接均符合我们的要求。

  

  右键单击以查看网页的源代码:找到其所有故事详细信息页面的网址

  请注意,他的故事详细信息页面的地址是相对路径:但是,胖老鼠会在采集 采集出现时自动完成其链接地址

  

  在源代码页上Ctrl + A(全选)Ctrl + C(复制)

  打开在线正则表达式网站

  Ctrl + V(粘贴)

  

  能够匹配一个不是我们的目标。我们的目标是匹配页面上所有文章个详细的网址

  然后我们修改正则表达式的规则

  最初是这样的/ aqgs / 1405 8. html

  首先让我们修改以下数字以使用\ d +(\ d表示匹配数字+至少一次)

  修改/aqgs/\d+.html

  后,它看起来像这样

  

  看到我们已经匹配了该频道的26个链接。

  检查后,我发现其他频道与此频道模板相同。

  说明详细规则可以共享,然后优化常规规则。

  修复后,它看起来像是/aqgs/\d+.html

  让我们首先修改前一个字符\ w +(\ w至少一次匹配文本或数字或下划线+)

  再次修改后,看起来像是/ \ w + / \ d + .html

  

  好的,我们成功匹配了260个文章链接,现在我们可以编写规则了

  

  

  注意:如果要测试URL并将其与添加的域标头匹配,则可以执行此操作。

  保存并运行

  

  

  后续的完整站点采集添加了详细的定时采集功能,可用于实时监视目标网站,主页或复杂页面以及多个热更新数据块。 采集我稍后会再次过滤。

  当然,这是Fat Mouse对此功能的理解。您可以根据需要更灵活地使用它。

  注意:如果要测试URL并将其与添加的域标头匹配,则可以执行此操作。

  

  

  

  

  最终结果。这样就可以获得正确的规律性

  关于常规语法。你们应该熟悉它,

  如果您不理解,则可以搜索:正则表达式语法

  {成功}让我们先做一次,再见。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线