不用采集规则就可以采集(楚截图和文字分不清楚,因此用粉色背景来区分(图))

优采云 发布时间: 2021-09-15 08:06

  不用采集规则就可以采集(楚截图和文字分不清楚,因此用粉色背景来区分(图))

  朱棣文的截图与文本无法区分,因此以粉色背景区分

  步骤1:确定采集的网站(我们将德德的官方站点作为采集站点进行演示)

  步骤2:确定采集站的代码。打开采集网页后,查看源代码(即:查看->源代码)

  

  

  找到介于之间的字符集,然后将显示网页的代码。截图为“GB2312”

  步骤3、采集列表获取规则写入方法

  [变量:分页]

  

  

  文章web地址应该包括这个web地址,但不能包括这两个。一般来说,它不需要写。用于采集列表范围。仅当存在许多不必要的连接时,它才用于过滤

  如果只有一个列表页,则可以直接在源URL上写入URL

  

  

  注意这里,钥匙在这里

  下面是如何编写采集get文章list规则

  它是上面打开的采集页面的源代码文件。在找到文章列表之前,没有其他与此页面相同的代码

  在Dede@k6文章list官方电台列表页面前后最新且不相同的内容是什么”

  “和”,分别写“开始HTML”和“结束HTML”。有关编写方法,请参见屏幕截图

  

  步骤4、采集文章title、文章content、文章author、文章source和其他规则、分页采集等等

  有关“开始HTML”和“结束HTML”的编写方法,请参阅步骤3中的“获取文章list的规则”

  

  

  下面是如何采集页面内容,以查看被截图包围的地方的截图

  在文档是否分页中选择“所有列出的分页列表”

  有关“开始HTML”和“结束HTML”的编写方法,请参阅步骤3中的“获取文章list的规则”

  

  

  当然,上面的内容不能在视频中使用采集,因为它已被过滤,接下来的四行将被过滤掉

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线