规则采集文章软件(第一步、确定采集的网站(图)、采集站做示范)

优采云发布时间: 2021-09-06 07:08

　　第一步确认采集的网站（我们使用DEDE官网作为采集站作为演示）

　　复制代码

　　第二步是确定采集站的代码。采集打开网页后，查看源码（IE：Check

　　-> 源代码)

　　在中间找charset，后面会显示网页的编码。截图为“gb2312”

　　第三步，采集list 获取规则编写

　　源 URL 已写入。显然 pageno 是指页码。所以采集多页列表应该用“[var:page]”替换页码，截图如下

　　[var:分页符]

　　文章 URL 必须收录在内。不能收录 URL。一般这两个不用写。当采集列表中有很多不必要的链接时，它们用于过滤。

　　上面的网址没有说明要加在前面的原因，所以不想讲了。

　　如果只有一个列表页，直接在源网址中写网址就可以了。

　　注意这里，最重要的在这里。

　　以下为“采集Get文章list 规则写入”，

　　就是上面打开的采集页面的源代码文件。在找到文章列表之前，没有其他代码与此页面相同。

　　在dedecms官站文章list的列表页上，最近的和不一样的是“>”和“>”，分别写“开始HTML”和“结束HTML”，写见截图

　　第四步，采集文章title、文章content、文章author、文章source等书写规则，分页采集等

　　“Start HTML”和“End HTML”的编写请参考第三步“如何获取文章列表规则”

　　以下是关于采集page内容的介绍。查看屏幕截图中圈出的地方。截图

　　文档是否分页，选择“所有分页列表”

　　“Start HTML”和“End HTML”的编写请参考第三步“如何获取文章list规则”

　　这里原来有截图。由于论坛配置，现在显示在顶部。

　　点击文章content上的“分页内容字段”，不勾选就不能采集。

　　“下载区多媒体资源” 这是采集下载多媒体资源（视频、软件、图片等）到本地的时候，也就是你的网站。

　　以下是过滤规则

　　过滤规则需要写成“正则表达式”，但是对于新手来说，这简直比天还难，看不懂。 :)

　　以上操作完成。保存

　　点击“测试”

　　出现与上述类似的图片。意味着成功

　　稍后点击“采集”

　　采集导出到你的专栏后就OK了。完成

0

2021-09-06

规则采集文章软件

0 个评论

要回复文章请先登录或注册