不用采集规则就可以采集(楚截图和文字分不清楚,因此用粉色背景来区分(图))
优采云 发布时间: 2021-09-15 08:06不用采集规则就可以采集(楚截图和文字分不清楚,因此用粉色背景来区分(图))
朱棣文的截图与文本无法区分,因此以粉色背景区分
步骤1:确定采集的网站(我们将德德的官方站点作为采集站点进行演示)
步骤2:确定采集站的代码。打开采集网页后,查看源代码(即:查看->;源代码)
找到介于之间的字符集,然后将显示网页的代码。截图为“GB2312”
步骤3、采集列表获取规则写入方法
[变量:分页]
文章web地址应该包括这个web地址,但不能包括这两个。一般来说,它不需要写。用于采集列表范围。仅当存在许多不必要的连接时,它才用于过滤
如果只有一个列表页,则可以直接在源URL上写入URL
注意这里,钥匙在这里
下面是如何编写采集get文章list规则
它是上面打开的采集页面的源代码文件。在找到文章列表之前,没有其他与此页面相同的代码
在Dede@k6文章list官方电台列表页面前后最新且不相同的内容是什么”
“和”,分别写“开始HTML”和“结束HTML”。有关编写方法,请参见屏幕截图
步骤4、采集文章title、文章content、文章author、文章source和其他规则、分页采集等等
有关“开始HTML”和“结束HTML”的编写方法,请参阅步骤3中的“获取文章list的规则”
下面是如何采集页面内容,以查看被截图包围的地方的截图
在文档是否分页中选择“所有列出的分页列表”
有关“开始HTML”和“结束HTML”的编写方法,请参阅步骤3中的“获取文章list的规则”
当然,上面的内容不能在视频中使用采集,因为它已被过滤,接下来的四行将被过滤掉