规则采集文章软件(第一步、确定采集的网站(图)、采集站做示范)

优采云 发布时间: 2021-09-06 07:08

  规则采集文章软件(第一步、确定采集的网站(图)、采集站做示范)

  第一步确认采集的网站(我们使用DEDE官网作为采集站作为演示)

  复制代码

  第二步是确定采集站的代码。 采集打开网页后,查看源码(IE:Check

  -> 源代码)

  

  

  在中间找charset,后面会显示网页的编码。截图为“gb2312”

  第三步,采集list 获取规则编写

  源 URL 已写入。显然 pageno 是指页码。所以采集多页列表应该用“[var:page]”替换页码,截图如下

  [var:分页符]

  

  

  文章 URL 必须收录在内。不能收录 URL。一般这两个不用写。当采集列表中有很多不必要的链接时,它们用于过滤。

  上面的网址没有说明要加在前面的原因,所以不想讲了。

  如果只有一个列表页,直接在源网址中写网址就可以了。

  

  

  注意这里,最重要的在这里。

  以下为“采集Get文章list 规则写入”,

  就是上面打开的采集页面的源代码文件。在找到文章列表之前,没有其他代码与此页面相同。

  在dedecms官站文章list的列表页上,最近的和不一样的是“>”和“>”,分别写“开始HTML”和“结束HTML”,写见截图

  

  第四步,采集文章title、文章content、文章author、文章source等书写规则,分页采集等

  “Start HTML”和“End HTML”的编写请参考第三步“如何获取文章列表规则”

  

  

  以下是关于采集page内容的介绍。查看屏幕截图中圈出的地方。截图

  文档是否分页,选择“所有分页列表”

  “Start HTML”和“End HTML”的编写请参考第三步“如何获取文章list规则”

  

  

  这里原来有截图。由于论坛配置,现在显示在顶部。

  点击文章content上的“分页内容字段”,不勾选就不能采集。

  “下载区多媒体资源” 这是采集下载多媒体资源(视频、软件、图片等)到本地的时候,也就是你的网站。

  以下是过滤规则

  过滤规则需要写成“正则表达式”,但是对于新手来说,这简直比天还难,看不懂。 :)

  以上操作完成。保存

  点击“测试”

  

  出现与上述类似的图片。意味着成功

  稍后点击“采集”

  采集 导出到你的专栏后就OK了。完成

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线