网易新闻等大型门户网站一个2级频道的首页
优采云 发布时间: 2021-03-16 09:06
网易新闻等大型门户网站一个2级频道的首页
整个网站采集
{成功}整个站点采集的简单用法场景:每个人采集搜狐。大型门户网站,例如网易新闻网站。通常,他的数据分类特别完整,更不用说主页了,门户网站是2级通道的主页。下面有很多类别,并且每个子类别的数据也非常快速地更新。如果我们希望采集在他的一页上有多个数据块,对应于我们网站的一个类别,那么我们经常需要维护多个规则以对应于我们网站的一个类别。维护工作繁琐,整个站点采集可以帮助我们减轻负担。
{info}所有页面采集,采集当前页面上的所有文章链接均符合我们的要求。
右键单击以查看网页的源代码:找到其所有故事详细信息页面的网址
请注意,他的故事详细信息页面的地址是相对路径:但是,胖老鼠会在采集 采集出现时自动完成其链接地址
在源代码页上Ctrl + A(全选)Ctrl + C(复制)
打开在线正则表达式网站
Ctrl + V(粘贴)
能够匹配一个不是我们的目标。我们的目标是匹配页面上所有文章个详细的网址
然后我们修改正则表达式的规则
最初是这样的/ aqgs / 1405 8. html
首先让我们修改以下数字以使用\ d +(\ d表示匹配数字+至少一次)
修改/aqgs/\d+.html
后,它看起来像这样
看到我们已经匹配了该频道的26个链接。
检查后,我发现其他频道与此频道模板相同。
说明详细规则可以共享,然后优化常规规则。
修复后,它看起来像是/aqgs/\d+.html
让我们首先修改前一个字符\ w +(\ w至少一次匹配文本或数字或下划线+)
再次修改后,看起来像是/ \ w + / \ d + .html
好的,我们成功匹配了260个文章链接,现在我们可以编写规则了
注意:如果要测试URL并将其与添加的域标头匹配,则可以执行此操作。
保存并运行
后续的完整站点采集添加了详细的定时采集功能,可用于实时监视目标网站,主页或复杂页面以及多个热更新数据块。 采集我稍后会再次过滤。
当然,这是Fat Mouse对此功能的理解。您可以根据需要更灵活地使用它。
注意:如果要测试URL并将其与添加的域标头匹配,则可以执行此操作。
最终结果。这样就可以获得正确的规律性
关于常规语法。你们应该熟悉它,
如果您不理解,则可以搜索:正则表达式语法
{成功}让我们先做一次,再见。